Using multiple sources of information for constraint-based morphological disambiquation
Değişik bilgi kaynakları kullanarak biçimbirimsel birikleştirme
- Tez No: 50023
- Danışmanlar: Y.DOÇ.DR. KEMAL OFLAZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Doğal Dil İşleme, Biçimbirimsel Birikleştirme, İşaretleme, Metinsel Dilbilimi, Otomatik Öğrenme
- Yıl: 1996
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 129
Özet
IV ÖZET DE?İŞİK BİLGİ KAYNAKLARI KULLANARAK BİÇİMBİRİMSEL BİRİKLEŞTİRME Gökhan Tür Bilgisayar ve Enformatik Mühendisliği, Yüksek Lisans Tez Yöneticisi: Yrd. Doç. Dr. Kemal Oflazer Temmuz, 1996 Bu tezde, karmaşık biçimbirimli dillerde (özellikle üretken yapım ve çekim eklerine sahip çekimli ve bitişken dillerde) uygulanabilecek, kurallara dayanan bir biçimbirimsel birikleştirme yaklaşımı sunulmaktadır. Türkçe gibi karmaşık biçimbirimsel yapıya sahip dillerde, otomatik biçimbirimsel birikleştirme, kelimelerin, doğru yapım ve çekim eklerini içeren biçimbirimsel çözümlerini seçmeyi amaçlar. Bu çalışmada gerçekleştirilen sistem, metinlerden bağımsız olarak elle oluşturulmuş kuralları, öğrenilmiş kuralları, ve birikleştirilecek metinden elde edilen ek istatistiksel bilgileri kullanarak biçimbirimsel birikleştirme işlevini ger çekleştirmektedir. Elle oluşturulmuş kurallar, anma'dan (recall) fedakarlık et meden duyarlılığı (precision) artıracak şekilde düzenlenen dilbilimsel kurallardan meydana gelmiştir. Sistemin tasarımının çıkış noktası, Brill'in dönüşüm- sel yaklaşımının Türkçe gibi dillerde direkt olarak uygulanamayacağı gözlemi olmuştur. Ayrıca bilinmeyen kelimelerin çözümlenmesinde, ikinci bir biçimbirimsel işlemci kullanılarak ve kelimelerdeki olası yapım ve çekim ekleri belirlenerek çözümlemesi yapılmıştır. Bu yaklaşım sayesinde, deneylerde kullanılan metinlerdeki kelimelerin %1'inden çok daha azı çözümsüz kalmıştır. Elle oluşturulmuş ve öğrenilmiş kurallar ile istatistiki bilgilerin birleştirilmesi sayesinde üzerinde deney yaptığımız metinlerde kelime başına 1.02-1.03 çözüm düşerken %96-%97 anma ve buna karşılık %93-%94 duyarlılık sağlanmıştır.
Özet (Çeviri)
Ill ABSTRACT USING MULTIPLE SOURCES OF INFORMATION FOR CONSTRAINT-BASED MORPHOLOGICAL DISAMBIGUATION Gökhan Tür M.S. in Computer Engineering and Information Science Supervisor: Asst. Prof. Kemal Oflazer July, 1996 This thesis presents a constraint-based morphological disambiguation approach that is applicable to languages with complex morphology-specifically agglutina tive languages with productive inflectional and derivational morphological phe nomena. For morphologically complex languages like Turkish, automatic morpho logical disambiguation involves selecting for each token morphological parse(s), with the right set of inflectional and derivational markers. Our system com bines corpus independent hand-crafted constraint rules, constraint rules that are learned via unsupervised learning from a training corpus, and additional statisti cal information obtained from the corpus to be morphologically disambiguated. The hand-crafted rules are linguistically motivated and tuned to improve pre cision without sacrificing recall. In certain respects, our approach has been motivated by Brill's recent work [6], but with the observation that his trans formational approach is not directly applicable to languages like Turkish. Our approach also uses a novel approach to unknown word processing by employing a secondary morphological processor which recovers any relevant inflectional and derivational information from a lexical item whose root is unknown. With this approach, well below 1% of the tokens remains as unknown in the texts we have experimented with. Our results indicate that by combining these hand-crafted, statistical and learned information sources, we can attain a recall of 96 to 97% with a corresponding precision of 93 to 94%, and ambiguity of 1.02 to 1.03 parses per token. Key u?onZs:Natural Language Processing, Morphological Disambiguation, Tag ging, Corpus Linguistics, Machine Learning
Benzer Tezler
- Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- New clutter removal methods for through obstacle target detection
Engel arkası hedef tespitinde yeni kargaşa giderme yöntemleri
DENİZ KUMLU
Doktora
İngilizce
2018
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. IŞIN ERER
- Yere nüfuz eden radarlarda öğrenme tabanlı yeni kargaşa giderme yöntemleri
New learning-based clutter removal methods in ground penetrating radar
EYYUP TEMLİOĞLU
Doktora
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. IŞIN ERER
- Olabilirsel doğrusal programlama ile tedarik zinciri ağ yapısının modellenmesi ve bir uygulama
Modeling supply chain network using possibilistic linear programming and an application
ÖZGÜR KABAK
Doktora
Türkçe
2008
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. FÜSUN ÜLENGİN
- İstanbul'da afet sonrası toplanma ve barınma alanlarının erişebilirliği
Accessibility of disaster problems in İstanbul
GÖZDE NUR KURU
Yüksek Lisans
Türkçe
2019
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HİMMET KARAMAN