A sentence boundary detection system for Turkish textual documents

Türkçe metin belgeleri için cümle sınırı tespit sistemi

PDF İndir

Tez No: 750796
Yazar: YASİN BEKTAŞ
Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL, PROF. DR. SERA YEŞİM AKSAN
Tez Türü: Doktora
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Cümle Sonu Tespiti, Tekrarlamalı Sinir Ağları, FP-Growth, Türkçe Doğal Dil İşleme, Derlem Açıklaması, Dilbilgisel İpuçları, Sentence Boundary Detection, Recurrent Neural Network, FP-Growth, Turkish Natural Language Processing, Corpus Annotation, Grammatical Cues
Yıl: 2022
Dil: İngilizce
Üniversite: Çukurova Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 105

Özet

Bu çalışma, Türkçe'nin dijital dünyada yaygınlığının arttırılması amacıyla kendi dil yapısına uygun başarımı yüksek bir cümle sonu belirleme yönteminin tasarlanmasını amaçlamaktadır. Genel amaçlı cümle sonu belirleme uygulamaları Türkçe'nin farklı kullanım şekillerini barındıran derlemler üzerinde test edildiğinde, bu uygulamaların düşük başarı değerlerinde kaldığı görülmüştür. Tez kapsamındaki çalışmada, birliktelik kuralları üretmeye yarayan FP-Growth yöntemi ile Tekrarlamalı Sinir Ağları (TSA) yöntemleri birleştirilerek hibrit bir metod önerilmiştir. Muhtemel cümle sonu karakterinin öncesi ve sonrasındaki dizgeciklere ait bir takım biçimsel kuralların yanında ek ve POS etiket bilgilerinin birlikte kullanıldığı bir nitelik kümesi elde edilmiştir. Ardından bu veri seti LSTM ve BiLSTM gibi TSA yöntemleri ile Türkçe Ulusal Derlemi (TUD) alt derleminde test edilmiştir. Genel amaçlı uygulamalarda aynı veri seti ile yapılan testlerde %77 olan f-ölçeği başarı değerinin, önerilen yöntem ile %96 değerine ulaştığı gözlenmiştir. Çalışma kapsamında farklı Türkçe derlemlerde de başarının benzer değerlere ulaştığı görülmüştür. Ayrıca çalışma içerisinde Türkçe için dizgeciklere ait POS etiket bilgileri ve ek yapılarının cümle sonu tespitinde önemli rol oynadığı sonucuna ulaşılmıştır.

Özet (Çeviri)

This study aims to design a high-performance method for sentence boundary detection in accordance with its own language structure in order to increase the prevalence of Turkish in the digital world. When general-purpose sentence boundary detection applications were tested on corpora containing different usage patterns of Turkish, it was observed that these applications remained at low success rates. In the study within the scope of the thesis, a hybrid method is proposed by combining the FP-Growth method, which is used to generate association rules, and Recurrent Neural Network (RNN) methods. A set of features has been obtained, in which suffix and POS tag information are used together, as well as some formal rules for the tokens before and after the possible end-of-sentence character. Then, this data set was tested with RNN methods such as LSTM and BiLSTM in the Turkish National Corpus (TNC) sub-corpus. In general-purpose applications, it was observed that the f-score value, which was 77% in the tests performed with the same data set, reached 96% with the proposed method. Within the scope of the study, it was observed that the success reached similar values in different Turkish corpora. In addition, in the study, it was concluded that the POS tag information and suffix structures of the tokens for Turkish play an important role in the detection of the boundary of a sentence.

Benzer Tezler

Tez No
149708
Türkçe için istatistiksel bir bilgi geri-getirim sistemi
A statistical information retrieval system for Turkish
BEKİR TANER DİNÇER
Doktora
Türkçe
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Uluslararası Bilgisayar Ana Bilim Dalı
PROF.DR. BAHAR KARAOĞLAN
Tez No
202621
Development of a method to determine root and suffixes for Turkish words to generate large scale Turkish corpus
Büyük ölçekli Türkçe derlem oluşturmak için Türkçe kelimelerin kök ve eklerini belirlemek için yöntem geliştirme
ÖZLEM VARLIKLAR
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YALÇIN ÇEBİ
Tez No
283671
Rule-based natural language processing methods for Turkish
Türkçe için kural-tabanlı doğal dil işleme yöntemleri
ÖZLEM AKTAŞ
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YALÇIN ÇEBİ
Tez No
489395
Co-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken language
Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesi
DOĞAN DALVA
Doktora
İngilizce
2018
Elektrik ve Elektronik Mühendisliği Işık Üniversitesi
Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT GÜZ
DOÇ. DR. HAKAN GÜRKAN
Tez No
78495
Ayrık söylenen kelimelerden oluşan cümleler içinde geçen anahtar kelimelerin bilgisayar tarafından belirlenmesi ve kağıda aktarılması
Determination of the passwords in a sentence with computer and printing
MUSTAFA AKŞEKER
Yüksek Lisans
Türkçe
1998
Elektrik ve Elektronik Mühendisliği Eskişehir Osmangazi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. M. BİLGİNER GÜLMEZOĞLU

Geri Dön