Türkçe metinler üzerinde doğal dil işleme teknikleriyle soru-cevap sistemi geliştirilmesi

Development of a question-answer system with natural language processing techniques on Turkish texts

PDF İndir

Tez No: 886444
Yazar: MEHMET ARZU
Danışmanlar: DR. ÖĞR. ÜYESİ MURAT AYDOĞAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Fırat Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 72

Özet

Soru-cevap sistemleri, kullanıcıların doğal dilde ifade ettikleri sorulara hızlı ve doğru yanıtlar vererek bilgiye erişim süreçlerini kolaylaştırmaktadır. Günümüzde doğal dil işleme tekniklerindeki gelişmeler, bu tür sistemlerin etkinliğini artırmakta ve kullanıcı deneyimini iyileştirmektedir. Bununla birlikte, bu sistemlerin etkili bir şekilde çalışabilmesi için dilin yapısal özelliklerinin doğru bir şekilde anlaşılması gerekmektedir. Geleneksel kural tabanlı ve bilgi getirme tabanlı sistemler, soruların ve metinlerin bağlamsal anlamını yeterince derinlemesine analiz edememekte ve bu nedenle karmaşık sorulara tatmin edici yanıtlar üretememektedir. Bu nedenle dilin bağlamsal ve anlam bütünlüğünü daha iyi yakalayabilen Transformer tabanlı modeller geliştirilmiştir. Bu tez çalışmasında, Türkçe için yüksek performanslı bir soru-cevap sistemi geliştirmek amacıyla, Transformer tabanlı BERTurk, ELECTRA ve DistilBERTurk gibi ön eğitimli dil modelleri kullanılmıştır. Literatürde İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe için yapılan çalışmaların sayısının sınırlı olduğu görülmüştür. Bu nedenle, çalışmanın hedef dili olarak Türkçe tercih edilmiştir. Deneylerin gerçekleştirilmesinde Türk & İslam Bilim Tarihi konulu TQuAD (Turkish Question Answering Dataset), Türk & İslam Bilim Tarihi ve Osmanlı Tarihi konulu THQuAD (Turkish Historic Question Answering Dataset), biyoloji dersindeki konulardan oluşan BQuAD( Biology Question Answering Dataset) kullanılmıştır. Her bir veri seti için aynı hiper parametrelerde deneyler gerçekleştirilmiş ve sonuçlar tam eşleşme ve F1 skor performans metrikleriyle karşılaştırılmıştır. Deneyler sonucunda, büyük-küçük harf duyarlılığına sahip modellerin daha yüksek tam eşleşme ve F1 skorları elde ettiği gözlemlenmiştir. Bunlara ek olarak THQuAD ile BQuAD birleştirilerek daha geniş kapsamlı bir veri seti oluşturulmuş ve bu veri seti üzerinde çeşitli hiper parametreler ile gerçekleştirilen deneyler sonucunda 63.99 tam eşleşme ve 80.84 F1 skor ile en iyi başarım BERTurk(Kasalı, 128k) modelinde elde edilmiştir. Soru-cevap uygulamasının tasarlanmasında ince ayar gerçekleştirilen bu model kullanılmıştır. Bu tez çalışmasıyla birlikte Türkçe doğal dil işleme çalışmalarına katkı sağlamak amacıyla 1 adet soru-cevap modeli oluşturulmuş ve kullanıma açık olarak paylaşılmıştır.

Özet (Çeviri)

Question-answer systems facilitate information access processes by providing fast and accurate answers to the questions expressed by users in natural language. Today, advances in natural language processing techniques increase the effectiveness of such systems and improve the user experience. However, in order for these systems to work effectively, the structural features of the language must be understood correctly. Traditional rule-based and knowledge retrieval-based systems are not able to analyse the contextual meaning of questions and texts deeply enough and therefore cannot produce satisfactory answers to complex questions. For this reason, Transformer-based models that can better capture the contextual and semantic integrity of the language have been developed. In this thesis, Transformer-based pre-trained language models such as BERTurk, ELECTRA and DistilBERTurk are used to develop a high-performance question-answer system for Turkish. It has been observed that there are many natural language-specific studies in the literature, including English, but the number of studies for Turkish is limited. Therefore, Turkish was preferred as the target language of the study. TQuAD (Turkish Question Answering Dataset) on Turkish & Islamic History of Science, THQuAD (Turkish Historic Question Answering Dataset) on Turkish & Islamic History of Science and Ottoman History, and BQuAD (Biology Question Answering Dataset) consisting of topics in the biology course were used in the experiments. For each dataset, experiments were performed with the same hyperparameters and the results were compared with exact match and F1 score performance metrics. It was observed that the models with case sensitivity obtained higher exact match and F1 scores. In addition, a more comprehensive dataset was created by combining THQuAD and BQuAD, and as a result of the experiments performed on this dataset with various hyperparameters, the best performance with 63.99 exact matches and 80.84 F1 scores was obtained in the BERTurk (Cased, 128k) model. This fine-tuned model was used in the design of the question-answer application. With this thesis, 1 question-answer model was created and shared openly for use in order to contribute to Turkish natural language processing studies.

Benzer Tezler

Tez No
940756
Eski harfli osmanlı Türkçesi metinlerin doğal dil işleme teknikleriyle latin esaslı Türkçeye aktarılması
Transferring old-letter ottoman Turkish scripts to latin-based turkish using natural language processing techniques
ABDULKADİR ÖZTÜRK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Selçuk Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT KÖKLÜ
Tez No
849557
Türkçe doğal dil metinlerinden python programlama dili kodu üretilmesi
Generation of python programming language code from Turkish natural language texts
AYŞEGÜL HATİPOĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bursa Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TURGAY TUGAY BİLGİN
Tez No
515169
Metin sınıflandırma için makine öğrenmesi tekniklerine dayalı bir yöntem geliştirme
A method development based on machine learning techniques for text classification
SÜMEYRA NUR ALTAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN BULUT
Tez No
968429
Metin madenciliği ve makine öğrenimi tekniklerinin uygulanmasıyla standart inşaat sözleşmesi belgelerinin metin analizi
Text analysis of standard construction contract documents by the application of text mining and machine learning techniques
ANIL DEMİRCAN
Doktora
Türkçe
2025
İnşaat Mühendisliği Düzce Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. LATİF ONUR UĞUR
Tez No
877743
Derin öğrenme yöntemleri ile ilişkisel doküman sınıflandırılması
Relational document classification with deep learning methods
HALİL İBRAHİM OKUR
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ

Geri Dön