Development of a method to determine root and suffixes for Turkish words to generate large scale Turkish corpus

Büyük ölçekli Türkçe derlem oluşturmak için Türkçe kelimelerin kök ve eklerini belirlemek için yöntem geliştirme

PDF İndir

Tez No: 202621
Yazar: ÖZLEM VARLIKLAR
Danışmanlar: DOÇ. DR. YALÇIN ÇEBİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2005
Dil: İngilizce
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 78

Özet

Dillerin biçimbilimsel özelliklerinin belirlenmei için, dilin özelliklerini temil edebilecek bir derlem gereklidir. Türkçe'nin tüm özelliklerini içerebilecek, büyük ölçekli bir derlemin varlığıyla, kelimelere bağlı olan, Türkçe'nin istatistikel özellikleri de incelenebilecektir.Yapılan çalışmada büyük ölçekli Türkçe derlem oluşturmak için bazı gazeteler, roman ve hikayeler ve Türkçe filmlerin altyazılarından oluşan, yaklaşık 130 milyon kelimelik yazılı Türkçe internet yoluyla elde edilmiştir. Türkçe gövdeler, kökler, ekler ve kıaltmaların liteleri elde edilmiştir. Kısaltma listesi ve cümle onu belirlenmesi için kural listei XML yapısında oluşturulmuştur. Cümle sonunu belirlemek için geliştirilen uygulamada kıaltma ve kural listeleri kullanılmış ve başarılı sonuçlar alınmıştır. Yazılar cümlelere ayrıldıktan onra kelimelere ayrılmış, kelimelerin gövdeleri, kök ve çekim eki listeleri kullanılarak bulunduktan onra; kökleri, bulunan gövdelere uygulanan bir yöntemle, yine kök litesi ve yapım ekleri litesi kullanılarak belirlenmiştir. Elde edilen tüm sonuçlar; paragraflar, cümleler, kelimeler, kökler ve ekler şeklinde, Doğal Dil İşleme (DDİ) uygulamaları için özelleştirilmiş, işlemlerin daha kolay yapılmasını ağlayan bir XML yapıı içine kaydedilmiştir. XML yapısının bilinen tek dezavantajı hafızada çok yer kaplamasıdır. Bu dezavantajdan etkilenmemek için, tüm XML doyaları geniş ölçekli derlem oluşturma işlemlerinin başında hafızaya yüklenmektedir. Bu işlem, kelimelerin gövde, kök ve eklerini içeren derlem oluşturma basamaklarının çok hızlı ve etkili bir şekilde yapılabilmesini sağlamıştır.

Özet (Çeviri)

For determining a language's morphological specialties, t s needed to generate a corpus that represents the language. If there s a large scale Turkish corpus that involves ali specialties of the language, some statstical properties of the Turkish language depending on the words can alsobeinvestgated.in this study, for generatng large scale Turkish corpus, the texts, have almost 130 millon words, were achieved from some newspapers, novels and stores, and subttles of some fılms written n Turkish from the Internet. The stems, roots, abbreviations and nflectional and derivational suffıxes' list for Turkish were obtained. The abbreviation lst and rules generated for the sentence boundary detection were stored n an XML file; these files had provided successive results n sentence boundary detection. After sentence parsing process, sentences were splitted nto words and types of words were found to help finding the correct root of the word. The stems of words were determined by using stems and nflectional suffixes' lists for Turkish. The roots and derivational suffixes of these founded stems were determined by using root and derivational suffixes' lists. Ali results nclude paragraphs, sentences, words, root and suffixes were stored nto an XML structure specialized for NLP applications to make the applcations easier. The only drawback of XML structure is that it needs too much memory on disk drive. Not to be affected from this drawback, ali XML files were stored nto the memory of the computer at the beginning of the generating large scale corpus process. This process had made the steps of generatng large scale Turkish corpus, ncludes finding stem, root and suffixes of the words, being very fast and effective.

Benzer Tezler

Tez No
213174
Root-suffix seperation of Turkish words
Türkçe kelimelerde kök-ek ayırımı
ÇAĞDAŞ CAN BİRANT
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Bölümü
DOÇ. DR. YALÇIN ÇEBİ
Tez No
421061
Türkçe sözcük anlam belirsizliği giderme
Word sense disambiguation for Turkish
BAHAR İLGEN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
22031
Türkçe yazım denetleyen editör
Turkish spelling checker editor
K.MESUT YARIMBIYIKLI
Yüksek Lisans
Türkçe
1992
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
DOÇ. DR. TAKUHİ NADİA ERDOĞAN
Tez No
439533
Türkçe tümcelerin yüklem odaklı anlam ve dilbilgisi çözümlemesi
Grammatical and semantic analysis of turkish sentence based on predicate
İLKNUR DÖNMEZ
Doktora
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
Tez No
43864
Türk müziğinde terminoloji
Başlık çevirisi yok
CANAN DURMAZ
Yüksek Lisans
Türkçe
1995
Güzel Sanatlar İstanbul Teknik Üniversitesi
PROF.DR. SELAHATTİN İÇLİ

Geri Dön