Geri Dön

A Statistical information extraction system for Turkish

Türkçe için istatistiksel bir bilgi çıkarım sistemi

  1. Tez No: 96196
  2. Yazar: GÖKHAN TÜR
  3. Danışmanlar: DOÇ. DR. KEMAL OFLAZER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Bilgi Çıkarımı, İstatistiksel Doğal Dil işleme, Türkçe, İsim İşaretleme, Konulara Ayırma, Cümlelere Ayırma, Ünlüleri Yerine Koyma, Sözcüklere Ayırma, Türkçe Metin Düzeltme, Information Extraction, Statistical Natural Language Processing, Turkish, Named Entity Extraction, Topic Segmentation. Sentence Segmentation. Vowel Restoration, Word Segmentation, Text Deasciification
  7. Yıl: 2000
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 135

Özet

ÖZET TÜRKÇE İÇİN İSTAriSTİKSEL BİR BİLGİ ÇIKARIM SİSTEMİ Gökhan Tür Bilgisayar Mühendisliği. Doktora Tez Yöneticisi: Doç. Dr. Kemal Oflazer Ağustos. 2000 Bu tezde, istatistiksel dil işleme yöntemleri kullanarak Türkçe metinlerden bilgi çıkarımı üzerine yapılan bir dizi çalışmanın sonuçları sunulmaktadır. Sözcüksel (lexical) ve biçimbirimsel (morphological) bilgiler kullanan istatistiksel yöntemler aşağıdaki problemlerde başarıyla uyguLuımışttr:. Türkçe Metin Düzeltme sistemi. ASCII karakter kümesinde olmayan Türkçe karakterlerin ASCII karşılıklarıyla (ör:“ı”yerine 'T") yazıldıkları metinleri düzeltme amacını taşır.. Sözcüklere Ayırma sistemi, içinde boşluk ya da noktalama işaretleri olmayan bir dizi karakter verildiğinde, bunları sözcüklerine ayırmaya çalışır.. Ünlüleri Yerin'--: Koyma sistemi, ünlü karakterleri olmayan bir metin ver ildiğinde bunları tekrar yerine koymayı amaçlar.. Cümlelere Ayırma sistemi, bir dizi sözcük verildiğinde bunları sözdizimsel cümlelere bölmeyi amaçlar.. Konulara Ayırma sistemi, bir metinde konuların değiştiği yerleri bulmayı amaçlar.. isim işaretleme sistemi, bir metindeki özel isimleri (insan, yer. ve. kurum isimleri) işaretlemeyi amaçlar. Türkçe Metin Düzeltme. Sözcüklere Ayırma, ve Ünlüleri Yerine Koyma gibi görece basit sistemler için sözcüksel bilginin yeterli olduğu görüldü. Ancak Cümlelere Ayırma, Konulara Ayırma, ve isim işaretleme gibi daha karmaşık vıvıı problemler için, ek olarak biçimbirimsel ve çevresel (contextual) bilgi de kul lanıldı. Cümlelere ayırma problemi için, sözcüklerin son çekim eki grubunu (in flectional group) istatistiksel modelleyip sözbirimsel modelle birleştirerek hata oranını 4.34%'e düşürmeyi başardık. İsim işaretleme sisteminde, sözbirimsel ve biçimbirimsel modellerin yanı sıra, çevresel ve işaret (tag) modellerini de kul landık ve 91.56% oranında doğruluğa ulaştık. Konulara ayırma problemi için ise, sözcüklerin köklerini kullanmak, asıl hallerini kullanmaktan daha iyi sonuçlar verdi, ve hata oram 10.90% oldu.

Özet (Çeviri)

ABSTRACT A STATISTICAL INFORMATION EXTRACTION SYSTEM FOR TURKISH Gökhan T;ir Ph.D. in Computer Engineering Supervisor: As:ioc. Prof. Kemal Oflazer August, 2000 This thesis presents the results of a study on information extraction from un restricted Turkish text using statistical language processing methods. We have successfully applied statistical methods using both the lexical and morphological information to the following tasks: ?“.o » The Turkish Text Deasciifier task aims to convert the ASCII characters in a Turkish text, into the corresponding non-ASCII Turkish characters (i.e., ”ir, ''ö“. ”ç“'. ”ş“. ”ğ“. ”f. and their upper cases).. The Word Segmentation task aims to detect word boundaries, given we have a sequence of characters, without space or punctuation. e The Vowel Restoration task aims to restore the vowels of an input stream, whose vowels are deleted.. The Sentence Segmentation task aims to divide a stream of text or speech into grammatical sentences. Given a sequence of (written or spoken) words, the aim of sentence segmentation is to find the boundaries of the sentences.. The Topic Segmentation task aims to divide a stream of text or speech into topically homogeneous blocks. Given a sequence of (written or spoken) words, the aim of topic segmentation is to find the boundaries where topics change.. The Name Tagging task aims to mark the names (persons, locations, and organizations) in a text. For relatively simpler tasks, such as Turkish Text Deasciifier, Word Segmentation. and Vowel Restoration, only lexical information is enough, but in order to obtain ivbetter performance in more complex tasks, such as Sentence Segmentation, Topic Segmentation, and Name Tagging, we not only use lexical information, but also exploit morphological, and contextual information. For sentence segmentation, we have modeled the final inflectional groups of the words and combined it with the lexical model, and decreased the error rate to 4.34%. For name tagging, in ad dition to the lexical and morphological models, we have also employed contextual and tag models, and reached an F-measure of 91.56%. For topic segmentation, stems of the words (nouns) have been found to be more effective than using the surface forms of the words and we have achieved 10.90% segmentation error rate on our test set.

Benzer Tezler

  1. İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması

    Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems

    EZGİ YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Developing a concept extraction system for Turkish

    Türkçe için kavram çıkarma sistemi geliştirilmesi

    MERYEM UZUN PER

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUNGA GÜNGÖR

  3. Learning logic rules from text using statistical methods for natural language processing

    İstatistiksel yöntemler kullanarak doğal dil işleme amacıyla mantıksal kural öğrenmesi

    MISHAL KAZMI

    Doktora

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. YÜCEL SAYGIN

    YRD. DOÇ. DR. PETER SCHÜLLER

  4. Çok boyutlu kaotik sistemler ile şifreleme

    Encryption with multi-dimensional chaotic systems

    ASİYE YİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CÜNEYT GÜZELİŞ

  5. Türkçe tabanlı diyalog sistemi tasarımı ve internet (chat) ortamlarından bilgi çıkarımı

    Designing a turkish based dialog system and information extraction from internet (chat) mediums

    ÖZCAN ÖZYURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. CEMAL KÖSE