Rule-based natural language processing methods for Turkish

Türkçe için kural-tabanlı doğal dil işleme yöntemleri

PDF İndir

Tez No: 283671
Yazar: ÖZLEM AKTAŞ
Danışmanlar: PROF. DR. YALÇIN ÇEBİ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Dilbilim, Computer Engineering and Computer Science and Control, Science and Technology, Linguistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2010
Dil: İngilizce
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 211

Özet

Dillerin biçimbilimsel özelliklerinin belirlenmesi için, dilin özelliklerini temsil edebilecek bir derlem gereklidir. İngilizce, Almanca, Çekçe gibi birçok dil için büyük ölçekli derlemler geliştirilmekte ve Doğal Dil İşleme (DDİ) alanlarında kullanılmaktadır, ancak, büyük ölçekli bir Türkçe derlem henüz geliştirilmemiştir.Bu çalışmada kural-tabanlı bir yaklaşım kullanılarak Türkçe için Doğal Dil İşleme yöntemleri geliştirilmiş ve yöntemleri gerçekleştirmek için Kural-Tabanlı Otomatik Derlem Oluşturma (en.: Rule-Based Automatically Corpus Generation (RB-CorGen)) adında bir altyapı oluşturulmuştur. RB-CorGen uygulamasını Türkçe üzerinde test etmek amacıyla, elektronik ortamda bulunan gazetelerden yaklaşık 95 milyon kelimelik köşe yazıları derlenmiş, Türkçe kökler, gövdeler ve ekler, Türk Dil Kurumu (TDK) ve Dokuz Eylül Üniversitesi Edebiyat Fakültesi Dilbilim Bölümü'nden temin edilmiş, etiketler ve dilbilgisi kuralları da dilbilimi uzmanları tarafından oluşturularak XML yapısında kaydedilmiştir. Kural-Tabanlı Cümle Sonu Belirleme (RB-SBDT) ve Kural-Tabanlı Kelime Türü Belirleme (RB-POST) yöntemlerinin başarı oranları sırasıyla %99,66 ve %92 olarak belirlenmiştir. Oluşturulan kural sayısı arttıkça başarı oranlarının da arttığı gözlenmiştir.

Özet (Çeviri)

In order to determine morphological properties of a language, a corpus which represents that language should be created. Many large scale corpora generated and have been used for Natural Language Processing (NLP) applications on many languages, such as English, German, Czech, etc, but any large scale Turkish corpora have not be generated yet.In this study, natural language processing methods for Turkish were developed by using rule-based approach, and also an infrastructure, Rule-Based Automatical Corpus Generation (RB-CorGen), to use the new developed methods was implemented. For testing RB-CorGen on Turkish, the roots, stems and suffixes were obtained from Turkish Linguistic Association (Türk Dil Kurumu, TDK) and Dokuz Eylul University, College of Literature Linguistic Department, the defined tags and grammatical rules were stored in XML formatted file, and documents, include nearly 95 million wordforms, were collected from five Turkish newspapers in electronic environment. The average success rates of Rule-Based Sentence Boundary Detection (RB-SBD) and Rule-Based POS Tagging (RB-POST) methods were determined as 99.66% and 92% respectively. It was seen that the success rate of RB-CorGen increases with the increasing number of rules.

Benzer Tezler

Tez No
462876
Yazılı Türkçe dilinden Türk işaret diline (tid) makine çevirisi sistemi
Text to sign language machine translation system for Turkish
CİHAT ERYİĞİT
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HATİCE KÖSE
Tez No
675555
Derin öğrenme ile Türkçe sözcük türü işaretleme
Part of speech tagging with deep learning for Turkish
ŞEVKET CAN ŞEVKET
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Uluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. BAHAR KARAOĞLAN
Tez No
256758
Türkçe için tümleşik bir biçimbirim çözümleme ve sözcük türü tespit yöntemi
An integrated method for morphological analyse and part of speech tagging in Turkish
TARIK KIŞLA
Doktora
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Uluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. BAHAR KARAOĞLAN
Tez No
470653
Learning logic rules from text using statistical methods for natural language processing
İstatistiksel yöntemler kullanarak doğal dil işleme amacıyla mantıksal kural öğrenmesi
MISHAL KAZMI
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliği Sabancı Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL SAYGIN
YRD. DOÇ. DR. PETER SCHÜLLER
Tez No
522793
Neural text normalization for Turkish social media
Türkçe sosya medya metinleri için nöral metin normalizasyonu
SİNAN GÖKER
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. BURCU CAN BUĞLALILAR

Geri Dön