Tagging and morphological disambiguation of turkish text
Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi
- Tez No: 33500
- Danışmanlar: YRD. DOÇ. DR. KEMAL OFLAZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: işaretleme, Biçimbirimsel inceleme iv, Tagging, Morphological Analysis, Corpus Development m
- Yıl: 1994
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 104
Özet
Sözcük türlerinin işaretlenmesi için kullanılan sistemler metin bilgilerini kullanarak o metinde bulunan her sözcüğü tek bir tür ile işaretlemeye çalışırlar. Otomatik olarak işaretleme, metinlerin üst düzey çözümlemesi açısından önemli bir adımdır ve bu adımın çıktıları pek çok doğal dil işleme uygulamasında kullanılabilir. Türkçe ve Fince gibi çekimli ve bitişken biçimbirimlere sahip dillerde, sözcükler çoğunlukla biçimbirimsel olarak çok yapılı olduğu için biçimbirimsel çok yapılılık çözümlemesi önemli bir işlemdir. Bu tez, Türkçe'nin tam kapsamlı iki aşamalı biçimbirimsel tanımlamasına dayanılarak geliştirilen bir sözcük türü işaretleyicisini sunmaktadır, işaretleyici aynı zamanda çok kelimeli ve deyimsel yapıları tanımlayabilmekte, daha önemlisi sözcüklerin komşularının biçimbirimsel bilgileri ve bir kısım sezgisel bilgiler (heuristics) kullanarak biçimbirimsel çok yapılılık çözümlemesi yapabilmektedir, işaretleyici istatistiksel bilgiler toplamak, biçimbirimsel çözümleyicinin bazı hatalarını düzeltmek gibi ek işlevlere de sahiptir. Deney sonuçları, işaretleyicinin metinlerin %97 ila %99'unu çok az kullanıcı yardımı alarak doğru işaretlediğini göstermiş, bir başka deneyde ise biçimbirimsel çok yapılılık çözümlemesi yapılan cümlelerin Türkçe için geliştirilen sözcüksel-işlevsel gramer (LPG) sözdizimsel çözümleyicisi tarafından işlenmesi sonucunda yarıya yakın daha az çözüm yapısı üretildiği ve bu işlemin 2.5 kez daha hızlı gerçekleştiği gözlenmiştir.
Özet (Çeviri)
A part-of-speech (POS) tagger is a system that uses various sources information to assign possibly unique POS to words. Automatic text tagging is an important component in higher level analysis of text corpora. Its output can also be used in many natural language processing applications. In languages like Turk ish or Finnish, with agglutinative morphology, morphological disambiguation is a very crucial process in tagging as the structures of many lexical forms are morphologically ambiguous. This thesis presents a POS tagger for Turkish text based on a full-scale two-level specification of Turkish morphology. The tag ger is augmented with a multi-word and idiomatic construct recognizer, and most importantly morphological disambiguator based on local lexical neigh borhood constraints, heuristics and limited amount of statistical information. The tagger also has additional functionality for statistics compilation and fine tuning of the morphological analyzer, such as logging erroneous morphological parses, commonly used roots, etc. Test results indicate that the tagger can tag about 97% to 99% of the texts accurately with very minimal user inter vention. Furthermore for sentences morphologically disambiguated with the tagger, an LFG parser developed for Turkish, on the average, generates 50% less ambiguous parses and parses almost 2.5 times faster.
Benzer Tezler
- Linguistic category induction and tagging using the paradigmatic context representations with substitute words
Düşey kelime bağlamlarını olası kelimeler ile temsil ederek dil bilimsel sözcük kümeleri ve etikletlerinin bulunması
MEHMET ALİ YATBAZ
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. DENİZ YURET
- Turkish morphological disambiguation using multiple conditional random fields
Çoklu koşullu rassal alanlar kullanarak Türkçe biçimbilimsel belirsizlik giderme
RAZIEH EHSANI
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. GÜLŞEN ERYİĞİT
- Morphological tagging and lemmatization with neural components
Nöral bileşenler ile morfolojik etiketleme ve baş sözcük çıkarma
ERENAY DAYANIK
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. DENİZ YURET
- Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Türkçe sözcük anlam belirsizliği giderme
Word sense disambiguation for Turkish
BAHAR İLGEN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ