A Statistical information extraction system for Turkish

Türkçe için istatistiksel bir bilgi çıkarım sistemi

Tez No: 96196
Yazar: GÖKHAN TÜR
Danışmanlar: DOÇ. DR. KEMAL OFLAZER
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Bilgi Çıkarımı, İstatistiksel Doğal Dil işleme, Türkçe, İsim İşaretleme, Konulara Ayırma, Cümlelere Ayırma, Ünlüleri Yerine Koyma, Sözcüklere Ayırma, Türkçe Metin Düzeltme, Information Extraction, Statistical Natural Language Processing, Turkish, Named Entity Extraction, Topic Segmentation. Sentence Segmentation. Vowel Restoration, Word Segmentation, Text Deasciification
Yıl: 2000
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 135

Özet

ÖZET TÜRKÇE İÇİN İSTAriSTİKSEL BİR BİLGİ ÇIKARIM SİSTEMİ Gökhan Tür Bilgisayar Mühendisliği. Doktora Tez Yöneticisi: Doç. Dr. Kemal Oflazer Ağustos. 2000 Bu tezde, istatistiksel dil işleme yöntemleri kullanarak Türkçe metinlerden bilgi çıkarımı üzerine yapılan bir dizi çalışmanın sonuçları sunulmaktadır. Sözcüksel (lexical) ve biçimbirimsel (morphological) bilgiler kullanan istatistiksel yöntemler aşağıdaki problemlerde başarıyla uyguLuımışttr:. Türkçe Metin Düzeltme sistemi. ASCII karakter kümesinde olmayan Türkçe karakterlerin ASCII karşılıklarıyla (ör:“ı”yerine 'T") yazıldıkları metinleri düzeltme amacını taşır.. Sözcüklere Ayırma sistemi, içinde boşluk ya da noktalama işaretleri olmayan bir dizi karakter verildiğinde, bunları sözcüklerine ayırmaya çalışır.. Ünlüleri Yerin'--: Koyma sistemi, ünlü karakterleri olmayan bir metin ver ildiğinde bunları tekrar yerine koymayı amaçlar.. Cümlelere Ayırma sistemi, bir dizi sözcük verildiğinde bunları sözdizimsel cümlelere bölmeyi amaçlar.. Konulara Ayırma sistemi, bir metinde konuların değiştiği yerleri bulmayı amaçlar.. isim işaretleme sistemi, bir metindeki özel isimleri (insan, yer. ve. kurum isimleri) işaretlemeyi amaçlar. Türkçe Metin Düzeltme. Sözcüklere Ayırma, ve Ünlüleri Yerine Koyma gibi görece basit sistemler için sözcüksel bilginin yeterli olduğu görüldü. Ancak Cümlelere Ayırma, Konulara Ayırma, ve isim işaretleme gibi daha karmaşık vıvıı problemler için, ek olarak biçimbirimsel ve çevresel (contextual) bilgi de kul lanıldı. Cümlelere ayırma problemi için, sözcüklerin son çekim eki grubunu (in flectional group) istatistiksel modelleyip sözbirimsel modelle birleştirerek hata oranını 4.34%'e düşürmeyi başardık. İsim işaretleme sisteminde, sözbirimsel ve biçimbirimsel modellerin yanı sıra, çevresel ve işaret (tag) modellerini de kul landık ve 91.56% oranında doğruluğa ulaştık. Konulara ayırma problemi için ise, sözcüklerin köklerini kullanmak, asıl hallerini kullanmaktan daha iyi sonuçlar verdi, ve hata oram 10.90% oldu.

Özet (Çeviri)

ABSTRACT A STATISTICAL INFORMATION EXTRACTION SYSTEM FOR TURKISH Gökhan T;ir Ph.D. in Computer Engineering Supervisor: As:ioc. Prof. Kemal Oflazer August, 2000 This thesis presents the results of a study on information extraction from un restricted Turkish text using statistical language processing methods. We have successfully applied statistical methods using both the lexical and morphological information to the following tasks: ?“.o » The Turkish Text Deasciifier task aims to convert the ASCII characters in a Turkish text, into the corresponding non-ASCII Turkish characters (i.e., ”ir, ''ö“. ”ç“'. ”ş“. ”ğ“. ”f. and their upper cases).. The Word Segmentation task aims to detect word boundaries, given we have a sequence of characters, without space or punctuation. e The Vowel Restoration task aims to restore the vowels of an input stream, whose vowels are deleted.. The Sentence Segmentation task aims to divide a stream of text or speech into grammatical sentences. Given a sequence of (written or spoken) words, the aim of sentence segmentation is to find the boundaries of the sentences.. The Topic Segmentation task aims to divide a stream of text or speech into topically homogeneous blocks. Given a sequence of (written or spoken) words, the aim of topic segmentation is to find the boundaries where topics change.. The Name Tagging task aims to mark the names (persons, locations, and organizations) in a text. For relatively simpler tasks, such as Turkish Text Deasciifier, Word Segmentation. and Vowel Restoration, only lexical information is enough, but in order to obtain ivbetter performance in more complex tasks, such as Sentence Segmentation, Topic Segmentation, and Name Tagging, we not only use lexical information, but also exploit morphological, and contextual information. For sentence segmentation, we have modeled the final inflectional groups of the words and combined it with the lexical model, and decreased the error rate to 4.34%. For name tagging, in ad dition to the lexical and morphological models, we have also employed contextual and tag models, and reached an F-measure of 91.56%. For topic segmentation, stems of the words (nouns) have been found to be more effective than using the surface forms of the words and we have achieved 10.90% segmentation error rate on our test set.

Benzer Tezler

Tez No
377166
İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması
Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems
EZGİ YILDIRIM
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
286372
Developing a concept extraction system for Turkish
Türkçe için kavram çıkarma sistemi geliştirilmesi
MERYEM UZUN PER
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUNGA GÜNGÖR
Tez No
470653
Learning logic rules from text using statistical methods for natural language processing
İstatistiksel yöntemler kullanarak doğal dil işleme amacıyla mantıksal kural öğrenmesi
MISHAL KAZMI
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliği Sabancı Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL SAYGIN
YRD. DOÇ. DR. PETER SCHÜLLER
Tez No
66758
Çok boyutlu kaotik sistemler ile şifreleme
Encryption with multi-dimensional chaotic systems
ASİYE YİĞİT
Yüksek Lisans
Türkçe
1997
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. CÜNEYT GÜZELİŞ
Tez No
182977
Türkçe tabanlı diyalog sistemi tasarımı ve internet (chat) ortamlarından bilgi çıkarımı
Designing a turkish based dialog system and information extraction from internet (chat) mediums
ÖZCAN ÖZYURT
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karadeniz Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. CEMAL KÖSE

Geri Dön