Doğal dil işleme ve makine öğrenmesi teknikleri ile sayısal asistan tasarımı ve gerçeklemesi
Design and implementation of a digital assistant with natural language processing and machine learning techniques
- Tez No: 894718
- Danışmanlar: DR. ÖĞR. ÜYESİ URAZ YAVANOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 142
Özet
Sayısal asistanlar iletişimde yaygın kullanılan doğal dil işleme teknikleri kullanılarak oluşturulan dijital bir üründür. Yapay zekanın gelişmesi ile konuşma gelişmiş olsa da Türkçe metinlerdeki konuşmanın gelişmesi oldukça büyük önem taşımaktadır. Bu çalışma Türkçe metinlerde doğal dil işleme tekniklerinin kullanılmasını, Türkçe metinlerdeki metin işleme çalışma örneklerine ve dijitalleşmeye yeni bir katkı sunmayı hedefleyen sohbet botu olarak da bilinen bir sayısal asistan ürünüdür. Veri setinin büyük, birbirine çok benzer metinlerin çok sık bulunduğu, dengesiz ve yakın zamandaki gerçek kullanıcılardan alınması çalışmanın diğer çalışmalardan farkını oluşturmaktadır. Öznitelik çıkarımı için kelime çantası ve terim sıklığı - ters doküman sıklığı teknikleri kullanılmıştır. Gözetimli makine öğrenme tekniklerinden Destek Vektör Makineleri, Native Bayes, Rastgele Orman, Karar Ağacı ve derin öğrenme algoritmalarından İleri Beslemeli Sinir Ağı algoritmaları kullanılmıştır. En başarılı performansı, kelime çantası öznitelik çıkarma tekniğinin kullanıldığı Karar Ağacı algoritmasıyla eğitilen model %96,89 doğruluk yüzdesiyle sergilemiştir. Terim sıklığı - ters doküman sıklığı yöntemi kullanılan tüm algoritmalar kelime çantasına göre düşük performans sergileyerek en yüksek doğruluğu %71,86 ile Rastgele Orman algoritmasıyla yakalamıştır. Kelime sıklığının ağırlığına oranla daha iyi performans sergilediği sonucu çıkarılmıştır. Gelecekteki çalışmalar için interaktif yapılar ve sonraki cümle tahminini içeren özelliklerin sayısal asistana eklenerek geliştirilmesi ve veri kapsamının akademinin tüm alanına hitap edebilecek şekilde çoğaltılması planlanmaktadır. Veri seti büyük ve dengesiz olduğundan öznitelik çıkarımına odaklanılmış, kullanıcıdan alınan girdi en doğru şekilde anlaşılmaya çalışılmıştır. Ayrıca öznitelik çıkarma çalışmalarına ek olarak veri ön işleme adımlarını detaylandırmanın doğruluk oranının arttığı tespit edilmiştir. Soru tahminiyle beraber cevap üretimi de kullanılabilirliği ve geliştirmeye açık yeni bir sayısal asistan uygulamasıdır. Böylece veriler daha küçük verilere ve anlam içeren verilere dönüştürülerek dijitalleşmenin öneminin giderek arttığı günümüzde hızlı çözüm üreten kapsamı itibariyle yeni bir çalışma olarak kullanılabilecektir.
Özet (Çeviri)
A digital assistant is a digital product created using natural language processing techniques commonly used in communication. Although speech has improved with the development of artificial intelligence, the improvement of speech in Turkish texts is of great importance. This study is a digital assistant product, also known as a chatbot, which aims to use natural language processing techniques in Turkish texts and to make a new contribution to text processing studies in Turkish texts and digitalization. The difference of this study from other studies is that the dataset is large, very similar texts are very frequent, unstable and taken from recent real users. For feature extraction, bag-of-words and term frequency - inverse document frequency techniques were used. Support Vector Machines, Native Bayes, Random Forest, Decision Tree and Feed Forward Neural Network algorithms from supervised machine learning techniques and deep learning algorithms were used. The model trained with the Decision Tree algorithm using the bag-of-words feature extraction technique performed the best with an accuracy of 96.89%. All algorithms using the term frequency - inverse document frequency method performed poorly compared to the bag of words, with the Random Forest algorithm achieving the highest accuracy of 71.86%. It is concluded that word frequency performs better than its weight. For future studies, it is planned to improve the features including interactive structures and next sentence prediction by adding them to the numerical assistant and to increase the data coverage to address the entire field of academia. Since the data set is large and unbalanced, we focused on feature extraction and tried to understand the input received from the user in the most accurate way. In addition to feature extraction, it was also found that detailing the data pre-processing steps increased the accuracy rate. Along with question prediction, answer generation is a new digital assistant application that is open to usability and development. Thus, data can be transformed into smaller data and meaningful data and can be used as a new study in terms of its scope that produces fast solutions in today's world where the importance of digitalization is increasing.
Benzer Tezler
- Sentiment analysis of tweets about karabakh in twitter by applying machine learning techniques
Twitter'da karabağ hakkinda atilan tweetlerin makine öğrenmesi teknikleri uygulanarak duygu analizi
SANAN QIYASZADE
Yüksek Lisans
İngilizce
2024
Bilim ve TeknolojiAltınbaş ÜniversitesiVeri Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OĞUZ KARAN
- Deep learning aided data detectionfor future wireless communication systems
Gelecek nesil telsiz haberleşme sistemleri içinderin öğrenme yardımıyla data tespiti
MERVE TURHAN
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ALİ ÇIRPAN
- Türkçe otel yorumları üzerinden yorum analizi ve duygu durumu tespiti
Comment analysis and sentiment detection on Turkish hotel reviews
SELİN SEDA AKBULUT
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. SADİYE NERGİS TURAL POLAT
- Predicting software vulnerabilities using topic modeling with issues
Konu modelleme yöntemi ile yazılım güvenlik açıklarını tahmin etme
FATMA GÜL BULUT
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN
- Yapay sinir ağları işletme alanında uygulanması ve bir örnek çalışma
Başlık çevirisi yok
SEVİNÇ GÜLSEÇEN