Doğal dil işleme ve makine öğrenmesi teknikleri ile sayısal asistan tasarımı ve gerçeklemesi

Design and implementation of a digital assistant with natural language processing and machine learning techniques

PDF İndir

Tez No: 894718
Yazar: EZGİ SANCAK
Danışmanlar: DR. ÖĞR. ÜYESİ URAZ YAVANOĞLU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 142

Özet

Sayısal asistanlar iletişimde yaygın kullanılan doğal dil işleme teknikleri kullanılarak oluşturulan dijital bir üründür. Yapay zekanın gelişmesi ile konuşma gelişmiş olsa da Türkçe metinlerdeki konuşmanın gelişmesi oldukça büyük önem taşımaktadır. Bu çalışma Türkçe metinlerde doğal dil işleme tekniklerinin kullanılmasını, Türkçe metinlerdeki metin işleme çalışma örneklerine ve dijitalleşmeye yeni bir katkı sunmayı hedefleyen sohbet botu olarak da bilinen bir sayısal asistan ürünüdür. Veri setinin büyük, birbirine çok benzer metinlerin çok sık bulunduğu, dengesiz ve yakın zamandaki gerçek kullanıcılardan alınması çalışmanın diğer çalışmalardan farkını oluşturmaktadır. Öznitelik çıkarımı için kelime çantası ve terim sıklığı - ters doküman sıklığı teknikleri kullanılmıştır. Gözetimli makine öğrenme tekniklerinden Destek Vektör Makineleri, Native Bayes, Rastgele Orman, Karar Ağacı ve derin öğrenme algoritmalarından İleri Beslemeli Sinir Ağı algoritmaları kullanılmıştır. En başarılı performansı, kelime çantası öznitelik çıkarma tekniğinin kullanıldığı Karar Ağacı algoritmasıyla eğitilen model %96,89 doğruluk yüzdesiyle sergilemiştir. Terim sıklığı - ters doküman sıklığı yöntemi kullanılan tüm algoritmalar kelime çantasına göre düşük performans sergileyerek en yüksek doğruluğu %71,86 ile Rastgele Orman algoritmasıyla yakalamıştır. Kelime sıklığının ağırlığına oranla daha iyi performans sergilediği sonucu çıkarılmıştır. Gelecekteki çalışmalar için interaktif yapılar ve sonraki cümle tahminini içeren özelliklerin sayısal asistana eklenerek geliştirilmesi ve veri kapsamının akademinin tüm alanına hitap edebilecek şekilde çoğaltılması planlanmaktadır. Veri seti büyük ve dengesiz olduğundan öznitelik çıkarımına odaklanılmış, kullanıcıdan alınan girdi en doğru şekilde anlaşılmaya çalışılmıştır. Ayrıca öznitelik çıkarma çalışmalarına ek olarak veri ön işleme adımlarını detaylandırmanın doğruluk oranının arttığı tespit edilmiştir. Soru tahminiyle beraber cevap üretimi de kullanılabilirliği ve geliştirmeye açık yeni bir sayısal asistan uygulamasıdır. Böylece veriler daha küçük verilere ve anlam içeren verilere dönüştürülerek dijitalleşmenin öneminin giderek arttığı günümüzde hızlı çözüm üreten kapsamı itibariyle yeni bir çalışma olarak kullanılabilecektir.

Özet (Çeviri)

A digital assistant is a digital product created using natural language processing techniques commonly used in communication. Although speech has improved with the development of artificial intelligence, the improvement of speech in Turkish texts is of great importance. This study is a digital assistant product, also known as a chatbot, which aims to use natural language processing techniques in Turkish texts and to make a new contribution to text processing studies in Turkish texts and digitalization. The difference of this study from other studies is that the dataset is large, very similar texts are very frequent, unstable and taken from recent real users. For feature extraction, bag-of-words and term frequency - inverse document frequency techniques were used. Support Vector Machines, Native Bayes, Random Forest, Decision Tree and Feed Forward Neural Network algorithms from supervised machine learning techniques and deep learning algorithms were used. The model trained with the Decision Tree algorithm using the bag-of-words feature extraction technique performed the best with an accuracy of 96.89%. All algorithms using the term frequency - inverse document frequency method performed poorly compared to the bag of words, with the Random Forest algorithm achieving the highest accuracy of 71.86%. It is concluded that word frequency performs better than its weight. For future studies, it is planned to improve the features including interactive structures and next sentence prediction by adding them to the numerical assistant and to increase the data coverage to address the entire field of academia. Since the data set is large and unbalanced, we focused on feature extraction and tried to understand the input received from the user in the most accurate way. In addition to feature extraction, it was also found that detailing the data pre-processing steps increased the accuracy rate. Along with question prediction, answer generation is a new digital assistant application that is open to usability and development. Thus, data can be transformed into smaller data and meaningful data and can be used as a new study in terms of its scope that produces fast solutions in today's world where the importance of digitalization is increasing.

Benzer Tezler

Tez No
898281
Sentiment analysis of tweets about karabakh in twitter by applying machine learning techniques
Twitter'da karabağ hakkinda atilan tweetlerin makine öğrenmesi teknikleri uygulanarak duygu analizi
SANAN QIYASZADE
Yüksek Lisans
İngilizce
2024
Bilim ve Teknoloji Altınbaş Üniversitesi
Veri Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OĞUZ KARAN
Tez No
921202
e-ticaret ürün yorumlarından puan tahmini
Score prediction from e-commerce product reviews
İREM SÖNMEZ BACALAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Başkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DİDEM ÖLÇER
Tez No
609452
Deep learning aided data detectionfor future wireless communication systems
Gelecek nesil telsiz haberleşme sistemleri içinderin öğrenme yardımıyla data tespiti
MERVE TURHAN
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ALİ ÇIRPAN
Tez No
886649
Türkçe otel yorumları üzerinden yorum analizi ve duygu durumu tespiti
Comment analysis and sentiment detection on Turkish hotel reviews
SELİN SEDA AKBULUT
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliği Yıldız Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. SADİYE NERGİS TURAL POLAT
Tez No
950068
Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
Doktora
İngilizce
2025
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MERAL EBEGİL

Geri Dön