A sentence boundary detection system for Turkish textual documents
Türkçe metin belgeleri için cümle sınırı tespit sistemi
- Tez No: 750796
- Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL, PROF. DR. SERA YEŞİM AKSAN
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Cümle Sonu Tespiti, Tekrarlamalı Sinir Ağları, FP-Growth, Türkçe Doğal Dil İşleme, Derlem Açıklaması, Dilbilgisel İpuçları, Sentence Boundary Detection, Recurrent Neural Network, FP-Growth, Turkish Natural Language Processing, Corpus Annotation, Grammatical Cues
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 105
Özet
Bu çalışma, Türkçe'nin dijital dünyada yaygınlığının arttırılması amacıyla kendi dil yapısına uygun başarımı yüksek bir cümle sonu belirleme yönteminin tasarlanmasını amaçlamaktadır. Genel amaçlı cümle sonu belirleme uygulamaları Türkçe'nin farklı kullanım şekillerini barındıran derlemler üzerinde test edildiğinde, bu uygulamaların düşük başarı değerlerinde kaldığı görülmüştür. Tez kapsamındaki çalışmada, birliktelik kuralları üretmeye yarayan FP-Growth yöntemi ile Tekrarlamalı Sinir Ağları (TSA) yöntemleri birleştirilerek hibrit bir metod önerilmiştir. Muhtemel cümle sonu karakterinin öncesi ve sonrasındaki dizgeciklere ait bir takım biçimsel kuralların yanında ek ve POS etiket bilgilerinin birlikte kullanıldığı bir nitelik kümesi elde edilmiştir. Ardından bu veri seti LSTM ve BiLSTM gibi TSA yöntemleri ile Türkçe Ulusal Derlemi (TUD) alt derleminde test edilmiştir. Genel amaçlı uygulamalarda aynı veri seti ile yapılan testlerde %77 olan f-ölçeği başarı değerinin, önerilen yöntem ile %96 değerine ulaştığı gözlenmiştir. Çalışma kapsamında farklı Türkçe derlemlerde de başarının benzer değerlere ulaştığı görülmüştür. Ayrıca çalışma içerisinde Türkçe için dizgeciklere ait POS etiket bilgileri ve ek yapılarının cümle sonu tespitinde önemli rol oynadığı sonucuna ulaşılmıştır.
Özet (Çeviri)
This study aims to design a high-performance method for sentence boundary detection in accordance with its own language structure in order to increase the prevalence of Turkish in the digital world. When general-purpose sentence boundary detection applications were tested on corpora containing different usage patterns of Turkish, it was observed that these applications remained at low success rates. In the study within the scope of the thesis, a hybrid method is proposed by combining the FP-Growth method, which is used to generate association rules, and Recurrent Neural Network (RNN) methods. A set of features has been obtained, in which suffix and POS tag information are used together, as well as some formal rules for the tokens before and after the possible end-of-sentence character. Then, this data set was tested with RNN methods such as LSTM and BiLSTM in the Turkish National Corpus (TNC) sub-corpus. In general-purpose applications, it was observed that the f-score value, which was 77% in the tests performed with the same data set, reached 96% with the proposed method. Within the scope of the study, it was observed that the success reached similar values in different Turkish corpora. In addition, in the study, it was concluded that the POS tag information and suffix structures of the tokens for Turkish play an important role in the detection of the boundary of a sentence.
Benzer Tezler
- Türkçe için istatistiksel bir bilgi geri-getirim sistemi
A statistical information retrieval system for Turkish
BEKİR TANER DİNÇER
Doktora
Türkçe
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF.DR. BAHAR KARAOĞLAN
- Development of a method to determine root and suffixes for Turkish words to generate large scale Turkish corpus
Büyük ölçekli Türkçe derlem oluşturmak için Türkçe kelimelerin kök ve eklerini belirlemek için yöntem geliştirme
ÖZLEM VARLIKLAR
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YALÇIN ÇEBİ
- Rule-based natural language processing methods for Turkish
Türkçe için kural-tabanlı doğal dil işleme yöntemleri
ÖZLEM AKTAŞ
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YALÇIN ÇEBİ
- Co-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken language
Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesi
DOĞAN DALVA
Doktora
İngilizce
2018
Elektrik ve Elektronik MühendisliğiIşık ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT GÜZ
DOÇ. DR. HAKAN GÜRKAN
- Ayrık söylenen kelimelerden oluşan cümleler içinde geçen anahtar kelimelerin bilgisayar tarafından belirlenmesi ve kağıda aktarılması
Determination of the passwords in a sentence with computer and printing
MUSTAFA AKŞEKER
Yüksek Lisans
Türkçe
1998
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. M. BİLGİNER GÜLMEZOĞLU