Somali language error detection using deep learning
Derin öğrenmeyi kullanarak Somali dilindeki hataların tespiti
- Tez No: 853433
- Danışmanlar: DR. ÖĞR. ÜYESİ NEHAD T.A RAMAHA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Karabük Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Bu tez, Somali dilinde hata tespiti ve düzeltimi için gelis¸mis¸ dog˘al dil is¸leme (NLP) mod- ellerinin uygulanmasına yönelik kapsamlı bir çalıs¸mayı sunmaktadır; bu alan, hesapla- malı dilbilimde sınırlı bir s¸ekilde aras¸tırılmıs¸tır. Aras¸tırma, üç önemli modelin etkin- lig˘ini deg˘erlendirmeye ve kars¸ılas¸tırmaya odaklanmaktadır: BiLSTM (˙Iki Yönlü Uzun Kısa Süreli Hafıza), BERT (˙Iki Yönlü Kodlayıcı Gösterimlerinden Dönüs¸türücüler) ve Seq2Seq (Diziden Diziye). Her bir model, karmas¸ık sözdizimsel yapılarıyla karakter- ize edilen ve dil is¸leme aras¸tırmalarında yetersiz temsil edilen Somali dilinin benzersiz zorluklarını ele alacak s¸ekilde özenle uyarlanmıs¸ ve ince ayarlanmıs¸tır. BiLSTM modeli, ardıs¸ık veri is¸leme kapasitesi açısından; BERT modeli, derin iki yönlü bag˘lamsal anlayıs¸ açısından; ve Seq2Seq modeli, özellikle hata düzeltme görevlerinde dizileri dönüs¸türme yeteneg˘i açısından incelenmis¸tir. Her bir modelin performansı, So- mali cümlelerindeki dilsel hataları tespit etme ve düzeltme konusunda dog˘ruluk, has- sasiyet ve geri çag˘ırma üzerinden titiz eg˘itim ve test as¸amaları boyunca deg˘erlendirilmis¸tir. Bu çalıs¸manın sonuçları, BERT modelinin, özellikle karmas¸ık gramer ve bag˘lamsal hata- ları belirleme konusunda genel dog˘ruluk (%97.34) ve hassasiyet (%98.13) açısından dig˘er- lerini geride bıraktıg˘ını göstermis¸tir. Aras¸tırma, dil is¸lemede bag˘lamsal derinlig˘in önem- ini vurgulamakta ve az temsil edilen dillerle ilgili uygulamalarda BERT'in potansiyelini göstermektedir. Bulgular, her modelin güçlü yönleri ve sınırlamalarına dair içgörüler sag˘layarak, NLP alanına deg˘erli bilgi katmaktadır. Bu tez, belirli dilsel görevlere dayalı model seçiminin önemini vurgulamakta ve dig˘er az incelenen diller için NLP teknolojilerinin uyarlanması konusunda gelecekteki aras¸tır- malar için bir temel olus¸turmaktadır. Bu modellerin Somali dil is¸leme sürecindeki bas¸arılı uygulaması, sadece hesaplamalı dilbilim alanını ilerletmekle kalmamakta, aynı zamanda teknolojide dilbilimsel çes¸itlilig˘i ve kapsayıcılıg˘ı tes¸vik eden yeni yollar açmaktadır.
Özet (Çeviri)
This thesis presents a comprehensive study on the application of advanced natural language processing (NLP) models for error detection and correction in the Somali language, an area that has seen limited exploration in computational linguistics. The research focuses on evaluating and comparing the effectiveness of three prominent models: BiLSTM (Bidirectional Long Short-Term Memory), BERT (Bidirectional Encoder Representations from Transformers), and Seq2Seq (Sequence to Sequence). Each model was meticulously adapted and fine-tuned to address the unique challenges presented by the Somali language, which is characterized by complex syntactic structures and is underrepresented in language processing research. The BiLSTM model was examined for its sequential data handling capabilities, the BERT model for its deep bidirectional contextual understanding, and the Seq2Seq model for its proficiency in transforming sequences, specifically in error correction tasks. Through rigorous training and testing phases, each model's performance was evaluated based on accuracy, precision, and recall in detecting and correcting linguistic errors in Somali sentences. The results of this study revealed that the BERT model outperformed the others in terms of overall accuracy (97.34%) and precision (98.13%), particularly in identifying complex grammatical and contextual errors. The research highlights the significance of contextual depth in language processing and demonstrates the potential of BERT in applications in- volving underrepresented languages. The findings also provide insights into the strengths and limitations of each model, contributing valuable knowledge to the field of NLP. This thesis underscores the importance of model selection based on specific linguistic tasks and sets a foundation for future exploration in the adaptation of NLP technologies for other less-commonly studied languages. The successful application of these models in Somali language processing not only advances the field of computational linguistics but also opens new pathways for linguistic inclusivity and diversity in technology.
Benzer Tezler
- İkinci yabancı dilde öğrenme stratejilerinin kalıcılığa etkisi
The Effects of learning strategies in second language to retention
NURHAYAT ATAN
Yüksek Lisans
Türkçe
2003
DilbilimAnkara ÜniversitesiYabancı Dil Öğretimi Ana Bilim Dalı
PROF. DR. İCLAL ERGENÇ
- Türkçe öğrenen Somalili öğrencilerin sözlü anlatılarındaki fiil varlığı ve fiil- tamlayıcı ilişkisi üzerine bir inceleme
A study on the verb presence and verb-complement relationship in the verbal narratives of Somali students learning Turkish
HAKAN KEKLİK
Yüksek Lisans
Türkçe
2021
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiTürkçe ve Sosyal Bilimler Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN EROĞLU
- Türkçeyi yabancı dil olarak öğrenen Somalili öğrencilerin yazma becerileri ve yazma kaygıları üzerine bir inceleme
An investigation on writing skills and writing anxieties of Somalian students learning Turkish as a foreign language
SEHER İPEK
Yüksek Lisans
Türkçe
2020
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiYabancı Dil Olarak Türkçe Öğretimi Ana Bilim Dalı
DOÇ. DR. MİNARA ALİYEVA ÇINAR
- Somali dilinde konuşma tanıma
Speech recognition in Somali language
ABDULLATIF ALI TAHLIL
Yüksek Lisans
Türkçe
2020
Elektrik ve Elektronik MühendisliğiAtatürk ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. BÜLENT ÇAVUŞOĞLU
- Avrupa Diller Öğretimi Ortak Çerçeve Metni'ne göre Türkçeyi yabancı dil olarak öğrenenlerde karşılaşılan ses olayları
Phonetic events according to common European framework of reference for languages for Turkish learners as a foreign language
İLKNUR GÖK
Yüksek Lisans
Türkçe
2015
DilbilimGazi ÜniversitesiTürkçe Eğitimi Ana Bilim Dalı
YRD. DOÇ. KEMALETTİN DENİZ