Geri Dön

Doğal dil işleme ve makine öğrenmesi teknikleri ile sayısal asistan tasarımı ve gerçeklemesi

Design and implementation of a digital assistant with natural language processing and machine learning techniques

  1. Tez No: 894718
  2. Yazar: EZGİ SANCAK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ URAZ YAVANOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 142

Özet

Sayısal asistanlar iletişimde yaygın kullanılan doğal dil işleme teknikleri kullanılarak oluşturulan dijital bir üründür. Yapay zekanın gelişmesi ile konuşma gelişmiş olsa da Türkçe metinlerdeki konuşmanın gelişmesi oldukça büyük önem taşımaktadır. Bu çalışma Türkçe metinlerde doğal dil işleme tekniklerinin kullanılmasını, Türkçe metinlerdeki metin işleme çalışma örneklerine ve dijitalleşmeye yeni bir katkı sunmayı hedefleyen sohbet botu olarak da bilinen bir sayısal asistan ürünüdür. Veri setinin büyük, birbirine çok benzer metinlerin çok sık bulunduğu, dengesiz ve yakın zamandaki gerçek kullanıcılardan alınması çalışmanın diğer çalışmalardan farkını oluşturmaktadır. Öznitelik çıkarımı için kelime çantası ve terim sıklığı - ters doküman sıklığı teknikleri kullanılmıştır. Gözetimli makine öğrenme tekniklerinden Destek Vektör Makineleri, Native Bayes, Rastgele Orman, Karar Ağacı ve derin öğrenme algoritmalarından İleri Beslemeli Sinir Ağı algoritmaları kullanılmıştır. En başarılı performansı, kelime çantası öznitelik çıkarma tekniğinin kullanıldığı Karar Ağacı algoritmasıyla eğitilen model %96,89 doğruluk yüzdesiyle sergilemiştir. Terim sıklığı - ters doküman sıklığı yöntemi kullanılan tüm algoritmalar kelime çantasına göre düşük performans sergileyerek en yüksek doğruluğu %71,86 ile Rastgele Orman algoritmasıyla yakalamıştır. Kelime sıklığının ağırlığına oranla daha iyi performans sergilediği sonucu çıkarılmıştır. Gelecekteki çalışmalar için interaktif yapılar ve sonraki cümle tahminini içeren özelliklerin sayısal asistana eklenerek geliştirilmesi ve veri kapsamının akademinin tüm alanına hitap edebilecek şekilde çoğaltılması planlanmaktadır. Veri seti büyük ve dengesiz olduğundan öznitelik çıkarımına odaklanılmış, kullanıcıdan alınan girdi en doğru şekilde anlaşılmaya çalışılmıştır. Ayrıca öznitelik çıkarma çalışmalarına ek olarak veri ön işleme adımlarını detaylandırmanın doğruluk oranının arttığı tespit edilmiştir. Soru tahminiyle beraber cevap üretimi de kullanılabilirliği ve geliştirmeye açık yeni bir sayısal asistan uygulamasıdır. Böylece veriler daha küçük verilere ve anlam içeren verilere dönüştürülerek dijitalleşmenin öneminin giderek arttığı günümüzde hızlı çözüm üreten kapsamı itibariyle yeni bir çalışma olarak kullanılabilecektir.

Özet (Çeviri)

A digital assistant is a digital product created using natural language processing techniques commonly used in communication. Although speech has improved with the development of artificial intelligence, the improvement of speech in Turkish texts is of great importance. This study is a digital assistant product, also known as a chatbot, which aims to use natural language processing techniques in Turkish texts and to make a new contribution to text processing studies in Turkish texts and digitalization. The difference of this study from other studies is that the dataset is large, very similar texts are very frequent, unstable and taken from recent real users. For feature extraction, bag-of-words and term frequency - inverse document frequency techniques were used. Support Vector Machines, Native Bayes, Random Forest, Decision Tree and Feed Forward Neural Network algorithms from supervised machine learning techniques and deep learning algorithms were used. The model trained with the Decision Tree algorithm using the bag-of-words feature extraction technique performed the best with an accuracy of 96.89%. All algorithms using the term frequency - inverse document frequency method performed poorly compared to the bag of words, with the Random Forest algorithm achieving the highest accuracy of 71.86%. It is concluded that word frequency performs better than its weight. For future studies, it is planned to improve the features including interactive structures and next sentence prediction by adding them to the numerical assistant and to increase the data coverage to address the entire field of academia. Since the data set is large and unbalanced, we focused on feature extraction and tried to understand the input received from the user in the most accurate way. In addition to feature extraction, it was also found that detailing the data pre-processing steps increased the accuracy rate. Along with question prediction, answer generation is a new digital assistant application that is open to usability and development. Thus, data can be transformed into smaller data and meaningful data and can be used as a new study in terms of its scope that produces fast solutions in today's world where the importance of digitalization is increasing.

Benzer Tezler

  1. Sentiment analysis of tweets about karabakh in twitter by applying machine learning techniques

    Twitter'da karabağ hakkinda atilan tweetlerin makine öğrenmesi teknikleri uygulanarak duygu analizi

    SANAN QIYASZADE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilim ve TeknolojiAltınbaş Üniversitesi

    Veri Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OĞUZ KARAN

  2. Deep learning aided data detectionfor future wireless communication systems

    Gelecek nesil telsiz haberleşme sistemleri içinderin öğrenme yardımıyla data tespiti

    MERVE TURHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. HAKAN ALİ ÇIRPAN

  3. Türkçe otel yorumları üzerinden yorum analizi ve duygu durumu tespiti

    Comment analysis and sentiment detection on Turkish hotel reviews

    SELİN SEDA AKBULUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SADİYE NERGİS TURAL POLAT

  4. Predicting software vulnerabilities using topic modeling with issues

    Konu modelleme yöntemi ile yazılım güvenlik açıklarını tahmin etme

    FATMA GÜL BULUT

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYŞE TOSUN

  5. Yapay sinir ağları işletme alanında uygulanması ve bir örnek çalışma

    Başlık çevirisi yok

    SEVİNÇ GÜLSEÇEN

    Doktora

    Türkçe

    Türkçe

    1993

    İşletmeİstanbul Üniversitesi

    Sayısal Yöntemler Ana Bilim Dalı

    PROF. DR. ÖNER ESEN