A Statistical information extraction system for Turkish
Türkçe için istatistiksel bir bilgi çıkarım sistemi
- Tez No: 96196
- Danışmanlar: DOÇ. DR. KEMAL OFLAZER
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Bilgi Çıkarımı, İstatistiksel Doğal Dil işleme, Türkçe, İsim İşaretleme, Konulara Ayırma, Cümlelere Ayırma, Ünlüleri Yerine Koyma, Sözcüklere Ayırma, Türkçe Metin Düzeltme, Information Extraction, Statistical Natural Language Processing, Turkish, Named Entity Extraction, Topic Segmentation. Sentence Segmentation. Vowel Restoration, Word Segmentation, Text Deasciification
- Yıl: 2000
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 135
Özet
ÖZET TÜRKÇE İÇİN İSTAriSTİKSEL BİR BİLGİ ÇIKARIM SİSTEMİ Gökhan Tür Bilgisayar Mühendisliği. Doktora Tez Yöneticisi: Doç. Dr. Kemal Oflazer Ağustos. 2000 Bu tezde, istatistiksel dil işleme yöntemleri kullanarak Türkçe metinlerden bilgi çıkarımı üzerine yapılan bir dizi çalışmanın sonuçları sunulmaktadır. Sözcüksel (lexical) ve biçimbirimsel (morphological) bilgiler kullanan istatistiksel yöntemler aşağıdaki problemlerde başarıyla uyguLuımışttr:. Türkçe Metin Düzeltme sistemi. ASCII karakter kümesinde olmayan Türkçe karakterlerin ASCII karşılıklarıyla (ör:“ı”yerine 'T") yazıldıkları metinleri düzeltme amacını taşır.. Sözcüklere Ayırma sistemi, içinde boşluk ya da noktalama işaretleri olmayan bir dizi karakter verildiğinde, bunları sözcüklerine ayırmaya çalışır.. Ünlüleri Yerin'--: Koyma sistemi, ünlü karakterleri olmayan bir metin ver ildiğinde bunları tekrar yerine koymayı amaçlar.. Cümlelere Ayırma sistemi, bir dizi sözcük verildiğinde bunları sözdizimsel cümlelere bölmeyi amaçlar.. Konulara Ayırma sistemi, bir metinde konuların değiştiği yerleri bulmayı amaçlar.. isim işaretleme sistemi, bir metindeki özel isimleri (insan, yer. ve. kurum isimleri) işaretlemeyi amaçlar. Türkçe Metin Düzeltme. Sözcüklere Ayırma, ve Ünlüleri Yerine Koyma gibi görece basit sistemler için sözcüksel bilginin yeterli olduğu görüldü. Ancak Cümlelere Ayırma, Konulara Ayırma, ve isim işaretleme gibi daha karmaşık vıvıı problemler için, ek olarak biçimbirimsel ve çevresel (contextual) bilgi de kul lanıldı. Cümlelere ayırma problemi için, sözcüklerin son çekim eki grubunu (in flectional group) istatistiksel modelleyip sözbirimsel modelle birleştirerek hata oranını 4.34%'e düşürmeyi başardık. İsim işaretleme sisteminde, sözbirimsel ve biçimbirimsel modellerin yanı sıra, çevresel ve işaret (tag) modellerini de kul landık ve 91.56% oranında doğruluğa ulaştık. Konulara ayırma problemi için ise, sözcüklerin köklerini kullanmak, asıl hallerini kullanmaktan daha iyi sonuçlar verdi, ve hata oram 10.90% oldu.
Özet (Çeviri)
ABSTRACT A STATISTICAL INFORMATION EXTRACTION SYSTEM FOR TURKISH Gökhan T;ir Ph.D. in Computer Engineering Supervisor: As:ioc. Prof. Kemal Oflazer August, 2000 This thesis presents the results of a study on information extraction from un restricted Turkish text using statistical language processing methods. We have successfully applied statistical methods using both the lexical and morphological information to the following tasks: ?“.o » The Turkish Text Deasciifier task aims to convert the ASCII characters in a Turkish text, into the corresponding non-ASCII Turkish characters (i.e., ”ir, ''ö“. ”ç“'. ”ş“. ”ğ“. ”f. and their upper cases).. The Word Segmentation task aims to detect word boundaries, given we have a sequence of characters, without space or punctuation. e The Vowel Restoration task aims to restore the vowels of an input stream, whose vowels are deleted.. The Sentence Segmentation task aims to divide a stream of text or speech into grammatical sentences. Given a sequence of (written or spoken) words, the aim of sentence segmentation is to find the boundaries of the sentences.. The Topic Segmentation task aims to divide a stream of text or speech into topically homogeneous blocks. Given a sequence of (written or spoken) words, the aim of topic segmentation is to find the boundaries where topics change.. The Name Tagging task aims to mark the names (persons, locations, and organizations) in a text. For relatively simpler tasks, such as Turkish Text Deasciifier, Word Segmentation. and Vowel Restoration, only lexical information is enough, but in order to obtain ivbetter performance in more complex tasks, such as Sentence Segmentation, Topic Segmentation, and Name Tagging, we not only use lexical information, but also exploit morphological, and contextual information. For sentence segmentation, we have modeled the final inflectional groups of the words and combined it with the lexical model, and decreased the error rate to 4.34%. For name tagging, in ad dition to the lexical and morphological models, we have also employed contextual and tag models, and reached an F-measure of 91.56%. For topic segmentation, stems of the words (nouns) have been found to be more effective than using the surface forms of the words and we have achieved 10.90% segmentation error rate on our test set.
Benzer Tezler
- İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması
Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems
EZGİ YILDIRIM
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Developing a concept extraction system for Turkish
Türkçe için kavram çıkarma sistemi geliştirilmesi
MERYEM UZUN PER
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUNGA GÜNGÖR
- Learning logic rules from text using statistical methods for natural language processing
İstatistiksel yöntemler kullanarak doğal dil işleme amacıyla mantıksal kural öğrenmesi
MISHAL KAZMI
Doktora
İngilizce
2017
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL SAYGIN
YRD. DOÇ. DR. PETER SCHÜLLER
- Çok boyutlu kaotik sistemler ile şifreleme
Encryption with multi-dimensional chaotic systems
ASİYE YİĞİT
Yüksek Lisans
Türkçe
1997
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. CÜNEYT GÜZELİŞ
- Türkçe tabanlı diyalog sistemi tasarımı ve internet (chat) ortamlarından bilgi çıkarımı
Designing a turkish based dialog system and information extraction from internet (chat) mediums
ÖZCAN ÖZYURT
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. CEMAL KÖSE