Developing morphology disambiguation and named entity recognition for amharic
Amharca morfolojik belirsizliği giderme ve adlandırılmış varlık tanıma geliştirilmesi
- Tez No: 915137
- Danışmanlar: DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 99
Özet
Morfolojik belirsizliği giderme, belirli bir bağlamda bir kelime için doğru biçimbilimsel analizi seçme süreci olarak tanımlanır. Etkili Morfolojik belirsizliği giderme olmadan doğal dil işleme (NLP) uygulamaları geliştirmek oldukça zordur. Arapça, Amharca ve İbranice gibi Sami dilleri, karmaşık morfolojileri nedeniyle NLP görevleri için artan zorluklar sunar. Amharca, Arapça, Süryanice ve İbranice gibi Semitik dil ailesinin bir üyesidir. Bu dil, Etiyopya'da 50 milyondan fazla kişi tarafından anadil olarak ve 100 milyondan fazla kişi tarafından ikinci dil olarak konuşulmaktadır. Amharca, Arapçadan sonra en çok konuşulan ikinci Semitik dildir. Ayrıca Etiyopya'da en çok konuşulan ikinci dil olup Afrika kıtasında en yaygın konuşulan beş dilden biridir. Aynı zamanda Etiyopya federal hükümetinin çalışma dilidir. Amharca yazı sistemi, 33 temel karakterin ve özel bir karakter olan (“V”) ile yapılan kombinasyonlarından oluşan toplam 238 karakterden oluşmaktadır. Bu, toplamda 34 temel karakter demektir. Bu 238 karakterin yanı sıra, 50 dudaklı karakter, 9 noktalama işareti ve 20 rakam bulunmaktadır. Bunlar, yazı sistemindeki toplam karakter sayısını 317'ye çıkarmaktadır. Adlandırılmış Varlık Tanıma (NER), makine çevirisi, bilgi alma ve soru yanıtlama gibi çeşitli aşağı akış görevlerinde öncü bir rol oynar. Açık alan metinlerinde özel isimleri ve zamansal ve sayısal değerleri tanımlamak için kullanılan bilgi çıkarımının önemli bir bileşenidir. NER görevi, dillerin yüksek derecede çekimli doğası nedeniyle Sami dilleri için özellikle zordur. Amharca'da bir NER çalışması yürütmek, çoğunlukla zengin morfolojik yapısı ve benzersiz yazı sistemi nedeniyle bazı zorluklarla başa çıkmayı gerektirir. Birincisi Büyük Harf Kullanımının Eksikliği: Amharca dilinde, özel isimler yazılırken büyük harf kullanımı yoktur. İngilizce ve çoğu Avrupa dilinde olduğu gibi, özel isimler kelimenin ilk harfini büyük yaparak yazılır, bu da adlandırılmış varlıkların tanımlanması ve sınıflandırılması için güçlü bir kanıt sağlar. İkinci Yapıştırmalı Morfoloji: Amharca dili, Arapça gibi, oldukça yapıştırmalı bir morfolojiye sahiptir; bu morfolojide bir kelime, farklı kombinasyonlarla önekler, kök ve sonekler içerebilir, bu da oldukça karmaşık bir morfolojiye yol açar. Üçüncü Yazım Farklılıkları: Bazen, bir Amharca kelimesi aynı telaffuza sahip farklı yazımlar kullanabilir ve yine de aynı kelimeyi ifade edebilir. Bu araştırmada, kelime gömülerini geliştirmek ve Morfolojik belirsizliği giderme yapmak için yeni veri setleri toplanmış ve nispeten büyük bir veri seti anotlanmış ve kamuya açık hale getirilmiştir. RoBERTa—a dönüştürücü tabanlı model—kullanan transfer öğrenimi de dahil olmak üzere güncel derin öğrenme tekniklerini kullanarak birden çok Amharca adlandırılmış varlık tanıma sistemi oluşturulmuştur. Ayrıca, performansı artırmak için Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM) modelleri kullanılmış ve koşullu rastgele alanlar katmanıyla entegre edilmiştir. Yeni bir veri kümesi kullanılarak özel olarak morfoloji ayrıştırma için bir BiLSTM modeli de geliştirilmiştir. Amharic dilinin kendine özgü özelliklerine dayalı olarak Amharic korpusunun etiketlenmesi için kısa yönergeler belirlenmiştir. IOB2 kodlama şeması kullanılarak, ilk annotatör 182.000 token ve yaklaşık 780 cümleyi etiketlemiş, bunlardan 20.000 token rastgele seçilmiş ve annotatörler arası anlaşmayı ölçmek amacıyla ikinci bir annotatör tarafından yeniden etiketlenmiştir. Annotatörler arası anlaşma, birden fazla annotatörün belirli bir kategori için aynı etiketleme kararını ne kadar iyi verebildiklerini ölçen bir değerlendirmedir. Çeşitli anotatörler tarafından anotlanan 20K token üzerinde inter-anotatör anlaşmasını Cohen'in Kappa skoru ile ölçtük. Etiketleme anlaşması, Cohen'in Kappa skoru ile ölçüldü ve 0.7321 olarak belirlendi. Cohen Kappa'nın sonuç analizi doğrultusunda, bu sonuç etiketleyiciler arasında önemli bir anlaşma olarak yorumlanmaktadır. Veri setlerindeki sınıf dağılımındaki dengesizliği ele almak için Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTE) kullanılmıştır. SMOTE, sınıflar arasındaki örnek sayısını dengeleyerek sınıflandırıcının azınlık sınıfına olan duyarlılığını artıran bir tekniktir. SMOTE, veri alanı yerine özellik alanında işlem yaparak sentetik örnekler üretir. Azınlık sınıfı, her bir azınlık sınıfı örneğini alıp en yakın komşu algoritmaları kullanarak sentetik örnekler oluşturularak aşırı örneklenir. Gerekli aşırı örnekleme miktarına bağlı olarak, k en yakın komşudan rastgele komşular seçilir. Kullanılan SMOTE uygulaması, beş en yakın komşuyu kullanmıştır. Araştırmacılar, etiketlenmemiş büyük veri setleri aracılığıyla NLP görevlerinin performansını iyileştirmek için dil modellerinin ön eğitimini önermiştir, çünkü önceden eğitilmiş model diğer katmanlar için daha zengin karakter yerleştirmeleri (embeddings) üretir. Ön eğitimli dil modelini kullanmak için, mimarimiz olarak bir RoBERTa modeli tasarladık. RoBERTa, BERT'e benzer, ancak maskeleme stratejisini değiştirir ve bir sonraki cümle tahmini özelliğini kaldırır. BERT uygulamaları, veri ön işleme sırasında statik bir maske elde etmek için bir maske hazırlar. Ancak, RoBERTa dinamik bir maske kullanır: modele yeni bir dizin verildiğinde, model yeni bir maske deseni oluşturur. Dinamik maske, modelin büyük veri miktarları işlenirken farklı maskeleme stratejilerine uyum sağlamasına yardımcı olacak ve dolayısıyla daha çeşitli dil temsilleri öğrenmesini sağlayacaktır. Çalışma, RoBERTa ile %93 F1 puanı elde ederek Amharca adlandırılmış varlık tanıma için son teknoloji sonuçlar elde eder ve morfoloji ayrıştırma için %90 doğruluk sağlar. Birinci bölümde, tez Amharca dilini ve bu dilin Etiyopya ve daha geniş Sami dil ailesi içindeki önemini tanıtarak bağlamı oluşturur. Amharca metinlerin zengin morfolojik yapısı ve ortografik varyasyonları nedeniyle işlemeyle ilgili temel zorlukları özetler. Gelişmiş Morfolojik belirsizliği giderme ve NER yoluyla Amharca için NLP yeteneklerini geliştirmeye odaklanarak, ana araştırma soruları ve hedefleri oluşturulur. İkinci bölüm, Amharca'nın dilsel özelliklerini kapsamlı bir şekilde inceleyerek, senaryosunu ve morfolojik karmaşıklığını vurgular. Büyük harf kullanımının eksikliği ve kapsamlı karakter seti, NLP için zorluklar olarak tanımlanır. Bu bölüm, Amharca'nın benzersiz dil özelliklerini ele alabilen araçlar geliştirmek için gerekli olan temel anlayışı sağlar. Üçüncü bölümde odak noktası, Amharca morfoloji ayrıştırma için etkili modeller geliştirmektir. Diğer Sami dillerinden ilgili çalışmalar gözden geçirilmiş ve ilgili veri setlerinin oluşturulması ayrıntılı olarak açıklanmıştır. Amharca'nın morfolojik özelliklerini ele almak için BiLSTM modellerinin uygulanması, deneysel düzen ve doğrulama metrikleri ile birlikte açıklanmış ve doğrulukta önemli iyileştirmeler gösterilmiştir. Dördüncü bölüm, Amharca'da NER gerçekleştirmenin zorluklarını, dilin morfolojik ve ortografik özellikleriyle karmaşık bir görev olduğunu ele alır. Yeni, kapsamlı bir şekilde anotlanmış Amharca NER veri seti tanıtılır. Bölüm, çift yönlü LSTM-CRF ve RoBERTa, bir dönüştürücü tabanlı model dahil olmak üzere çeşitli model mimarilerini değerlendirir ve model performansındaki elde edilen iyileştirmeleri tartışır. Beşinci bölümde, araştırma bulguları sentezlenerek, Amharca NLP'yi yüksek performanslı modeller ve kapsamlı veri setleri geliştirerek ilerletmeye yönelik tezin katkıları vurgulanır. Gelecek çalışmalara yönelik öneriler, imla düzeltme araçlarının geliştirilmesi ve sistemin yeteneklerini artırmak için NER veri setlerinin daha fazla genişletilmesini içerir. Bu kapsamlı yaklaşımla, tez, başka morfolojik açıdan zengin dillere de adapte edilebilecek yeni içgörüler ve metodolojiler sunarak, düşük kaynaklı diller için bilişim dili alanına önemli katkılar sağlamaktadır.
Özet (Çeviri)
Morphological disambiguation is defined as the process of selecting the correct morphological analysis for a given word within a specific context. Developing natural language processing (NLP) applications is very challenging without effective morphological disambiguation. Semitic languages, including Arabic, Amharic, and Hebrew, present increased challenges for NLP tasks due to their complex morphology. Named Entity Recognition (NER) plays a crucial role as a preliminary phase in various downstream tasks such as machine translation, information retrieval, and question answering. It is an essential component of information extraction, used to identify proper names and temporal and numeric values in open domain text. The NER task is particularly difficult for Semitic languages because of their highly inflected nature. In this research, new datasets for developing word embeddings and performing morphological disambiguation are collected, and a relatively large dataset is annotated and made publicly available. Multiple Amharic named entity recognition systems are constructed utilizing contemporary deep learning techniques, including transfer learning with RoBERTa—a transformer-based model. Additionally, Bidirectional Long Short-Term Memory (BiLSTM) models are employed and integrated with a conditional random fields layer to enhance performance. A BiLSTM model is also developed specifically for morphology disambiguation using a newly prepared dataset. The Synthetic Minority Over-sampling Technique (SMOTE) is utilized to address the imbalance in class distribution within the datasets. The study achieves state-of-the-art results for Amharic named entity recognition, attaining an F1-score of 93% with RoBERTa, and achieves an accuracy of 90% for morphology disambiguation. In Chapter 1, the dissertation establishes the context by introducing the Amharic language and its significance within Ethiopia and the broader Semitic language family. It outlines the primary challenges associated with processing Amharic texts due to its rich morphological structure and orthographic variations. Key research questions and objectives are formulated, with a focus on advancing NLP capabilities for Amharic through improved morphological disambiguation and NER. Chapter 2 provides a comprehensive overview of Amharic's linguistic properties, emphasizing its script and morphological complexity. The lack of capitalization and extensive character set are identified as challenges for NLP. This chapter provides the foundational understanding necessary for developing tools capable of handling Amharic's unique linguistic features. In Chapter 3, the focus is on developing effective models for Amharic morphology disambiguation. Related work from other Semitic languages is reviewed, and the construction of relevant datasets is detailed. The application of BiLSTM models to tackle Amharic's morphological properties is described, along with the experimental setup and evaluation metrics, which demonstrate significant improvements in accuracy. Chapter 4 addresses the challenges of performing NER in Amharic, a task complicated by the language's morphological and orthographic features. A new, extensively annotated Amharic NER dataset is introduced. The chapter evaluates various model architectures, including BiLSTM-CRF and RoBERTa, a transformer-based model, and discusses the resulting enhancements in model performance. In Chapter 5, the research findings are synthesized, emphasizing the dissertation's contributions to advancing Amharic NLP through the development of high-performing models and comprehensive datasets. Recommendations for future work include enhancements in tools for spelling correction and further expansion of NER datasets to improve the system's capabilities. Through this comprehensive approach, the dissertation significantly contributes to the field of computational linguistics for low-resource languages, offering novel insights and methodologies that can be adapted for other morphologically rich languages.
Benzer Tezler
- Ratlarda hamilelik döneminde verilen nikotinin, neonatal dönemde molar dişler üzerindeki etkileri
Başlık çevirisi yok
ŞENNUR ORUÇ
- Aspect, tense and discourse relations in the interlanguage grammars of instructed l2 learners: An analytical study in the Turkish EFL context
Dil eğitimi alan öğrencilerin aradil gramerlerindeki görünüş, zaman ve söylem ilişkileri: Türkiye'de yabancı dil bağlamında analitik bir çalışma
SEDA ATEŞ
Doktora
İngilizce
2022
DilbilimAnadolu ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. ÜMİT DENİZ TURAN
- İnsan fetuslarında dil papillalarının gelişiminin taramalı elektron mikroskobunda değerlendirilmesi
Elavation of development of human fetal lingual papillae by using scanning electron microscopy
HALİME TOZAK
Yüksek Lisans
Türkçe
2004
MorfolojiErciyes ÜniversitesiHistoloji ve Embriyoloji Ana Bilim Dalı
DOÇ. DR. SAİM ÖZDAMAR
- Developing a real-time monitoring system that analyzes cell morphology and detects proliferation by image processing and inform the researcher for the appropriate intervention in cell culture
Hücre kültüründe görüntü işlemeyle hücre morfolojisini analiz eden ve proliferasyonu tespit eden ve araştırmacıyı uygun müdahale için bilgilendiren gerçek zamanlı takip sistemi geliştirilmesi
TOLGA OVAYURT
Doktora
İngilizce
2025
Biyoteknolojiİzmir Katip Çelebi ÜniversitesiBiyomedikal Teknolojiler Ana Bilim Dalı
PROF. DR. MUSTAFA ŞEN
- Developing imaging techniques for studying Brachyuran crab zoeae and adult morphology of gonopods with an emphasis on the invasive chinese mitten crab, Eriocheir sinensis
İstilacı çin eldivenli yengeci, Eriocheir sinensis,'ne ağırlık vererek, Brachyura takımından yengeçlerin zoea evrelerinin ve yetişkin gonopodlarının morfolojisini çalışma için görüntüleme teknikleri geliştirme
SEYİT ALİ KAMANLI
Doktora
İngilizce
2018
BiyolojiRoyal Holloway University of LondonBiyoloji Ana Bilim Dalı
PROF. DR. DAVID MORRITT
DR. PAUL F. CLARK
DR. ALEXANDER D. BALL