Geri Dön

A sentence boundary detection system for Turkish textual documents

Türkçe metin belgeleri için cümle sınırı tespit sistemi

  1. Tez No: 750796
  2. Yazar: YASİN BEKTAŞ
  3. Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL, PROF. DR. SERA YEŞİM AKSAN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Cümle Sonu Tespiti, Tekrarlamalı Sinir Ağları, FP-Growth, Türkçe Doğal Dil İşleme, Derlem Açıklaması, Dilbilgisel İpuçları, Sentence Boundary Detection, Recurrent Neural Network, FP-Growth, Turkish Natural Language Processing, Corpus Annotation, Grammatical Cues
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 105

Özet

Bu çalışma, Türkçe'nin dijital dünyada yaygınlığının arttırılması amacıyla kendi dil yapısına uygun başarımı yüksek bir cümle sonu belirleme yönteminin tasarlanmasını amaçlamaktadır. Genel amaçlı cümle sonu belirleme uygulamaları Türkçe'nin farklı kullanım şekillerini barındıran derlemler üzerinde test edildiğinde, bu uygulamaların düşük başarı değerlerinde kaldığı görülmüştür. Tez kapsamındaki çalışmada, birliktelik kuralları üretmeye yarayan FP-Growth yöntemi ile Tekrarlamalı Sinir Ağları (TSA) yöntemleri birleştirilerek hibrit bir metod önerilmiştir. Muhtemel cümle sonu karakterinin öncesi ve sonrasındaki dizgeciklere ait bir takım biçimsel kuralların yanında ek ve POS etiket bilgilerinin birlikte kullanıldığı bir nitelik kümesi elde edilmiştir. Ardından bu veri seti LSTM ve BiLSTM gibi TSA yöntemleri ile Türkçe Ulusal Derlemi (TUD) alt derleminde test edilmiştir. Genel amaçlı uygulamalarda aynı veri seti ile yapılan testlerde %77 olan f-ölçeği başarı değerinin, önerilen yöntem ile %96 değerine ulaştığı gözlenmiştir. Çalışma kapsamında farklı Türkçe derlemlerde de başarının benzer değerlere ulaştığı görülmüştür. Ayrıca çalışma içerisinde Türkçe için dizgeciklere ait POS etiket bilgileri ve ek yapılarının cümle sonu tespitinde önemli rol oynadığı sonucuna ulaşılmıştır.

Özet (Çeviri)

This study aims to design a high-performance method for sentence boundary detection in accordance with its own language structure in order to increase the prevalence of Turkish in the digital world. When general-purpose sentence boundary detection applications were tested on corpora containing different usage patterns of Turkish, it was observed that these applications remained at low success rates. In the study within the scope of the thesis, a hybrid method is proposed by combining the FP-Growth method, which is used to generate association rules, and Recurrent Neural Network (RNN) methods. A set of features has been obtained, in which suffix and POS tag information are used together, as well as some formal rules for the tokens before and after the possible end-of-sentence character. Then, this data set was tested with RNN methods such as LSTM and BiLSTM in the Turkish National Corpus (TNC) sub-corpus. In general-purpose applications, it was observed that the f-score value, which was 77% in the tests performed with the same data set, reached 96% with the proposed method. Within the scope of the study, it was observed that the success reached similar values in different Turkish corpora. In addition, in the study, it was concluded that the POS tag information and suffix structures of the tokens for Turkish play an important role in the detection of the boundary of a sentence.

Benzer Tezler

  1. Türkçe için istatistiksel bir bilgi geri-getirim sistemi

    A statistical information retrieval system for Turkish

    BEKİR TANER DİNÇER

    Doktora

    Türkçe

    Türkçe

    2004

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    PROF.DR. BAHAR KARAOĞLAN

  2. Development of a method to determine root and suffixes for Turkish words to generate large scale Turkish corpus

    Büyük ölçekli Türkçe derlem oluşturmak için Türkçe kelimelerin kök ve eklerini belirlemek için yöntem geliştirme

    ÖZLEM VARLIKLAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YALÇIN ÇEBİ

  3. Rule-based natural language processing methods for Turkish

    Türkçe için kural-tabanlı doğal dil işleme yöntemleri

    ÖZLEM AKTAŞ

    Doktora

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YALÇIN ÇEBİ

  4. Co-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken language

    Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesi

    DOĞAN DALVA

    Doktora

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiIşık Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT GÜZ

    DOÇ. DR. HAKAN GÜRKAN

  5. Ayrık söylenen kelimelerden oluşan cümleler içinde geçen anahtar kelimelerin bilgisayar tarafından belirlenmesi ve kağıda aktarılması

    Determination of the passwords in a sentence with computer and printing

    MUSTAFA AKŞEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. M. BİLGİNER GÜLMEZOĞLU