Türkçe metinler üzerinde doğal dil işleme teknikleriyle soru-cevap sistemi geliştirilmesi
Development of a question-answer system with natural language processing techniques on Turkish texts
- Tez No: 886444
- Danışmanlar: DR. ÖĞR. ÜYESİ MURAT AYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Soru-cevap sistemleri, kullanıcıların doğal dilde ifade ettikleri sorulara hızlı ve doğru yanıtlar vererek bilgiye erişim süreçlerini kolaylaştırmaktadır. Günümüzde doğal dil işleme tekniklerindeki gelişmeler, bu tür sistemlerin etkinliğini artırmakta ve kullanıcı deneyimini iyileştirmektedir. Bununla birlikte, bu sistemlerin etkili bir şekilde çalışabilmesi için dilin yapısal özelliklerinin doğru bir şekilde anlaşılması gerekmektedir. Geleneksel kural tabanlı ve bilgi getirme tabanlı sistemler, soruların ve metinlerin bağlamsal anlamını yeterince derinlemesine analiz edememekte ve bu nedenle karmaşık sorulara tatmin edici yanıtlar üretememektedir. Bu nedenle dilin bağlamsal ve anlam bütünlüğünü daha iyi yakalayabilen Transformer tabanlı modeller geliştirilmiştir. Bu tez çalışmasında, Türkçe için yüksek performanslı bir soru-cevap sistemi geliştirmek amacıyla, Transformer tabanlı BERTurk, ELECTRA ve DistilBERTurk gibi ön eğitimli dil modelleri kullanılmıştır. Literatürde İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe için yapılan çalışmaların sayısının sınırlı olduğu görülmüştür. Bu nedenle, çalışmanın hedef dili olarak Türkçe tercih edilmiştir. Deneylerin gerçekleştirilmesinde Türk & İslam Bilim Tarihi konulu TQuAD (Turkish Question Answering Dataset), Türk & İslam Bilim Tarihi ve Osmanlı Tarihi konulu THQuAD (Turkish Historic Question Answering Dataset), biyoloji dersindeki konulardan oluşan BQuAD( Biology Question Answering Dataset) kullanılmıştır. Her bir veri seti için aynı hiper parametrelerde deneyler gerçekleştirilmiş ve sonuçlar tam eşleşme ve F1 skor performans metrikleriyle karşılaştırılmıştır. Deneyler sonucunda, büyük-küçük harf duyarlılığına sahip modellerin daha yüksek tam eşleşme ve F1 skorları elde ettiği gözlemlenmiştir. Bunlara ek olarak THQuAD ile BQuAD birleştirilerek daha geniş kapsamlı bir veri seti oluşturulmuş ve bu veri seti üzerinde çeşitli hiper parametreler ile gerçekleştirilen deneyler sonucunda 63.99 tam eşleşme ve 80.84 F1 skor ile en iyi başarım BERTurk(Kasalı, 128k) modelinde elde edilmiştir. Soru-cevap uygulamasının tasarlanmasında ince ayar gerçekleştirilen bu model kullanılmıştır. Bu tez çalışmasıyla birlikte Türkçe doğal dil işleme çalışmalarına katkı sağlamak amacıyla 1 adet soru-cevap modeli oluşturulmuş ve kullanıma açık olarak paylaşılmıştır.
Özet (Çeviri)
Question-answer systems facilitate information access processes by providing fast and accurate answers to the questions expressed by users in natural language. Today, advances in natural language processing techniques increase the effectiveness of such systems and improve the user experience. However, in order for these systems to work effectively, the structural features of the language must be understood correctly. Traditional rule-based and knowledge retrieval-based systems are not able to analyse the contextual meaning of questions and texts deeply enough and therefore cannot produce satisfactory answers to complex questions. For this reason, Transformer-based models that can better capture the contextual and semantic integrity of the language have been developed. In this thesis, Transformer-based pre-trained language models such as BERTurk, ELECTRA and DistilBERTurk are used to develop a high-performance question-answer system for Turkish. It has been observed that there are many natural language-specific studies in the literature, including English, but the number of studies for Turkish is limited. Therefore, Turkish was preferred as the target language of the study. TQuAD (Turkish Question Answering Dataset) on Turkish & Islamic History of Science, THQuAD (Turkish Historic Question Answering Dataset) on Turkish & Islamic History of Science and Ottoman History, and BQuAD (Biology Question Answering Dataset) consisting of topics in the biology course were used in the experiments. For each dataset, experiments were performed with the same hyperparameters and the results were compared with exact match and F1 score performance metrics. It was observed that the models with case sensitivity obtained higher exact match and F1 scores. In addition, a more comprehensive dataset was created by combining THQuAD and BQuAD, and as a result of the experiments performed on this dataset with various hyperparameters, the best performance with 63.99 exact matches and 80.84 F1 scores was obtained in the BERTurk (Cased, 128k) model. This fine-tuned model was used in the design of the question-answer application. With this thesis, 1 question-answer model was created and shared openly for use in order to contribute to Turkish natural language processing studies.
Benzer Tezler
- Türkçe doğal dil metinlerinden python programlama dili kodu üretilmesi
Generation of python programming language code from Turkish natural language texts
AYŞEGÜL HATİPOĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TURGAY TUGAY BİLGİN
- Metin sınıflandırma için makine öğrenmesi tekniklerine dayalı bir yöntem geliştirme
A method development based on machine learning techniques for text classification
SÜMEYRA NUR ALTAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN BULUT
- Derin öğrenme yöntemleri ile ilişkisel doküman sınıflandırılması
Relational document classification with deep learning methods
HALİL İBRAHİM OKUR
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
- Derin öğrenme modelleri ile sosyal medya üzerinde duygu analizi
Sentiment analysis on social media using deep learning models
HAZAL GİZEM DÖNMEZ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YAŞAR BECERİKLİ
- Bir kelime anlamı belirginleştirme modülü geliştirilmesi
Developing a word sense disambiguation module
ÖZLEM AYDIN
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. YILMAZ KILIÇASLAN