Geri Dön

Türkçe metinler üzerinde doğal dil işleme teknikleriyle soru-cevap sistemi geliştirilmesi

Development of a question-answer system with natural language processing techniques on Turkish texts

  1. Tez No: 886444
  2. Yazar: MEHMET ARZU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MURAT AYDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Soru-cevap sistemleri, kullanıcıların doğal dilde ifade ettikleri sorulara hızlı ve doğru yanıtlar vererek bilgiye erişim süreçlerini kolaylaştırmaktadır. Günümüzde doğal dil işleme tekniklerindeki gelişmeler, bu tür sistemlerin etkinliğini artırmakta ve kullanıcı deneyimini iyileştirmektedir. Bununla birlikte, bu sistemlerin etkili bir şekilde çalışabilmesi için dilin yapısal özelliklerinin doğru bir şekilde anlaşılması gerekmektedir. Geleneksel kural tabanlı ve bilgi getirme tabanlı sistemler, soruların ve metinlerin bağlamsal anlamını yeterince derinlemesine analiz edememekte ve bu nedenle karmaşık sorulara tatmin edici yanıtlar üretememektedir. Bu nedenle dilin bağlamsal ve anlam bütünlüğünü daha iyi yakalayabilen Transformer tabanlı modeller geliştirilmiştir. Bu tez çalışmasında, Türkçe için yüksek performanslı bir soru-cevap sistemi geliştirmek amacıyla, Transformer tabanlı BERTurk, ELECTRA ve DistilBERTurk gibi ön eğitimli dil modelleri kullanılmıştır. Literatürde İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe için yapılan çalışmaların sayısının sınırlı olduğu görülmüştür. Bu nedenle, çalışmanın hedef dili olarak Türkçe tercih edilmiştir. Deneylerin gerçekleştirilmesinde Türk & İslam Bilim Tarihi konulu TQuAD (Turkish Question Answering Dataset), Türk & İslam Bilim Tarihi ve Osmanlı Tarihi konulu THQuAD (Turkish Historic Question Answering Dataset), biyoloji dersindeki konulardan oluşan BQuAD( Biology Question Answering Dataset) kullanılmıştır. Her bir veri seti için aynı hiper parametrelerde deneyler gerçekleştirilmiş ve sonuçlar tam eşleşme ve F1 skor performans metrikleriyle karşılaştırılmıştır. Deneyler sonucunda, büyük-küçük harf duyarlılığına sahip modellerin daha yüksek tam eşleşme ve F1 skorları elde ettiği gözlemlenmiştir. Bunlara ek olarak THQuAD ile BQuAD birleştirilerek daha geniş kapsamlı bir veri seti oluşturulmuş ve bu veri seti üzerinde çeşitli hiper parametreler ile gerçekleştirilen deneyler sonucunda 63.99 tam eşleşme ve 80.84 F1 skor ile en iyi başarım BERTurk(Kasalı, 128k) modelinde elde edilmiştir. Soru-cevap uygulamasının tasarlanmasında ince ayar gerçekleştirilen bu model kullanılmıştır. Bu tez çalışmasıyla birlikte Türkçe doğal dil işleme çalışmalarına katkı sağlamak amacıyla 1 adet soru-cevap modeli oluşturulmuş ve kullanıma açık olarak paylaşılmıştır.

Özet (Çeviri)

Question-answer systems facilitate information access processes by providing fast and accurate answers to the questions expressed by users in natural language. Today, advances in natural language processing techniques increase the effectiveness of such systems and improve the user experience. However, in order for these systems to work effectively, the structural features of the language must be understood correctly. Traditional rule-based and knowledge retrieval-based systems are not able to analyse the contextual meaning of questions and texts deeply enough and therefore cannot produce satisfactory answers to complex questions. For this reason, Transformer-based models that can better capture the contextual and semantic integrity of the language have been developed. In this thesis, Transformer-based pre-trained language models such as BERTurk, ELECTRA and DistilBERTurk are used to develop a high-performance question-answer system for Turkish. It has been observed that there are many natural language-specific studies in the literature, including English, but the number of studies for Turkish is limited. Therefore, Turkish was preferred as the target language of the study. TQuAD (Turkish Question Answering Dataset) on Turkish & Islamic History of Science, THQuAD (Turkish Historic Question Answering Dataset) on Turkish & Islamic History of Science and Ottoman History, and BQuAD (Biology Question Answering Dataset) consisting of topics in the biology course were used in the experiments. For each dataset, experiments were performed with the same hyperparameters and the results were compared with exact match and F1 score performance metrics. It was observed that the models with case sensitivity obtained higher exact match and F1 scores. In addition, a more comprehensive dataset was created by combining THQuAD and BQuAD, and as a result of the experiments performed on this dataset with various hyperparameters, the best performance with 63.99 exact matches and 80.84 F1 scores was obtained in the BERTurk (Cased, 128k) model. This fine-tuned model was used in the design of the question-answer application. With this thesis, 1 question-answer model was created and shared openly for use in order to contribute to Turkish natural language processing studies.

Benzer Tezler

  1. Türkçe doğal dil metinlerinden python programlama dili kodu üretilmesi

    Generation of python programming language code from Turkish natural language texts

    AYŞEGÜL HATİPOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TURGAY TUGAY BİLGİN

  2. Metin sınıflandırma için makine öğrenmesi tekniklerine dayalı bir yöntem geliştirme

    A method development based on machine learning techniques for text classification

    SÜMEYRA NUR ALTAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN BULUT

  3. Derin öğrenme yöntemleri ile ilişkisel doküman sınıflandırılması

    Relational document classification with deep learning methods

    HALİL İBRAHİM OKUR

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ

  4. Derin öğrenme modelleri ile sosyal medya üzerinde duygu analizi

    Sentiment analysis on social media using deep learning models

    HAZAL GİZEM DÖNMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YAŞAR BECERİKLİ

  5. Bir kelime anlamı belirginleştirme modülü geliştirilmesi

    Developing a word sense disambiguation module

    ÖZLEM AYDIN

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. YILMAZ KILIÇASLAN