Development of a method to determine root and suffixes for Turkish words to generate large scale Turkish corpus
Büyük ölçekli Türkçe derlem oluşturmak için Türkçe kelimelerin kök ve eklerini belirlemek için yöntem geliştirme
- Tez No: 202621
- Danışmanlar: DOÇ. DR. YALÇIN ÇEBİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2005
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 78
Özet
Dillerin biçimbilimsel özelliklerinin belirlenmei için, dilin özelliklerini temil edebilecek bir derlem gereklidir. Türkçe'nin tüm özelliklerini içerebilecek, büyük ölçekli bir derlemin varlığıyla, kelimelere bağlı olan, Türkçe'nin istatistikel özellikleri de incelenebilecektir.Yapılan çalışmada büyük ölçekli Türkçe derlem oluşturmak için bazı gazeteler, roman ve hikayeler ve Türkçe filmlerin altyazılarından oluşan, yaklaşık 130 milyon kelimelik yazılı Türkçe internet yoluyla elde edilmiştir. Türkçe gövdeler, kökler, ekler ve kıaltmaların liteleri elde edilmiştir. Kısaltma listesi ve cümle onu belirlenmesi için kural listei XML yapısında oluşturulmuştur. Cümle sonunu belirlemek için geliştirilen uygulamada kıaltma ve kural listeleri kullanılmış ve başarılı sonuçlar alınmıştır. Yazılar cümlelere ayrıldıktan onra kelimelere ayrılmış, kelimelerin gövdeleri, kök ve çekim eki listeleri kullanılarak bulunduktan onra; kökleri, bulunan gövdelere uygulanan bir yöntemle, yine kök litesi ve yapım ekleri litesi kullanılarak belirlenmiştir. Elde edilen tüm sonuçlar; paragraflar, cümleler, kelimeler, kökler ve ekler şeklinde, Doğal Dil İşleme (DDİ) uygulamaları için özelleştirilmiş, işlemlerin daha kolay yapılmasını ağlayan bir XML yapıı içine kaydedilmiştir. XML yapısının bilinen tek dezavantajı hafızada çok yer kaplamasıdır. Bu dezavantajdan etkilenmemek için, tüm XML doyaları geniş ölçekli derlem oluşturma işlemlerinin başında hafızaya yüklenmektedir. Bu işlem, kelimelerin gövde, kök ve eklerini içeren derlem oluşturma basamaklarının çok hızlı ve etkili bir şekilde yapılabilmesini sağlamıştır.
Özet (Çeviri)
For determining a language's morphological specialties, t s needed to generate a corpus that represents the language. If there s a large scale Turkish corpus that involves ali specialties of the language, some statstical properties of the Turkish language depending on the words can alsobeinvestgated.in this study, for generatng large scale Turkish corpus, the texts, have almost 130 millon words, were achieved from some newspapers, novels and stores, and subttles of some fılms written n Turkish from the Internet. The stems, roots, abbreviations and nflectional and derivational suffıxes' list for Turkish were obtained. The abbreviation lst and rules generated for the sentence boundary detection were stored n an XML file; these files had provided successive results n sentence boundary detection. After sentence parsing process, sentences were splitted nto words and types of words were found to help finding the correct root of the word. The stems of words were determined by using stems and nflectional suffixes' lists for Turkish. The roots and derivational suffixes of these founded stems were determined by using root and derivational suffixes' lists. Ali results nclude paragraphs, sentences, words, root and suffixes were stored nto an XML structure specialized for NLP applications to make the applcations easier. The only drawback of XML structure is that it needs too much memory on disk drive. Not to be affected from this drawback, ali XML files were stored nto the memory of the computer at the beginning of the generating large scale corpus process. This process had made the steps of generatng large scale Turkish corpus, ncludes finding stem, root and suffixes of the words, being very fast and effective.
Benzer Tezler
- Root-suffix seperation of Turkish words
Türkçe kelimelerde kök-ek ayırımı
ÇAĞDAŞ CAN BİRANT
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Bölümü
DOÇ. DR. YALÇIN ÇEBİ
- Türkçe yazım denetleyen editör
Turkish spelling checker editor
K.MESUT YARIMBIYIKLI
Yüksek Lisans
Türkçe
1992
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ. DR. TAKUHİ NADİA ERDOĞAN
- Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi
A document compression system based on the morphology of the Turkish language
BANU DİRİ
Doktora
Türkçe
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. M. YAHYA KARSLIGİL
- Türkçe tümcelerin yüklem odaklı anlam ve dilbilgisi çözümlemesi
Grammatical and semantic analysis of turkish sentence based on predicate
İLKNUR DÖNMEZ
Doktora
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ