Geri Dön

Development of a method to determine root and suffixes for Turkish words to generate large scale Turkish corpus

Büyük ölçekli Türkçe derlem oluşturmak için Türkçe kelimelerin kök ve eklerini belirlemek için yöntem geliştirme

  1. Tez No: 202621
  2. Yazar: ÖZLEM VARLIKLAR
  3. Danışmanlar: DOÇ. DR. YALÇIN ÇEBİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2005
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 78

Özet

Dillerin biçimbilimsel özelliklerinin belirlenmei için, dilin özelliklerini temil edebilecek bir derlem gereklidir. Türkçe'nin tüm özelliklerini içerebilecek, büyük ölçekli bir derlemin varlığıyla, kelimelere bağlı olan, Türkçe'nin istatistikel özellikleri de incelenebilecektir.Yapılan çalışmada büyük ölçekli Türkçe derlem oluşturmak için bazı gazeteler, roman ve hikayeler ve Türkçe filmlerin altyazılarından oluşan, yaklaşık 130 milyon kelimelik yazılı Türkçe internet yoluyla elde edilmiştir. Türkçe gövdeler, kökler, ekler ve kıaltmaların liteleri elde edilmiştir. Kısaltma listesi ve cümle onu belirlenmesi için kural listei XML yapısında oluşturulmuştur. Cümle sonunu belirlemek için geliştirilen uygulamada kıaltma ve kural listeleri kullanılmış ve başarılı sonuçlar alınmıştır. Yazılar cümlelere ayrıldıktan onra kelimelere ayrılmış, kelimelerin gövdeleri, kök ve çekim eki listeleri kullanılarak bulunduktan onra; kökleri, bulunan gövdelere uygulanan bir yöntemle, yine kök litesi ve yapım ekleri litesi kullanılarak belirlenmiştir. Elde edilen tüm sonuçlar; paragraflar, cümleler, kelimeler, kökler ve ekler şeklinde, Doğal Dil İşleme (DDİ) uygulamaları için özelleştirilmiş, işlemlerin daha kolay yapılmasını ağlayan bir XML yapıı içine kaydedilmiştir. XML yapısının bilinen tek dezavantajı hafızada çok yer kaplamasıdır. Bu dezavantajdan etkilenmemek için, tüm XML doyaları geniş ölçekli derlem oluşturma işlemlerinin başında hafızaya yüklenmektedir. Bu işlem, kelimelerin gövde, kök ve eklerini içeren derlem oluşturma basamaklarının çok hızlı ve etkili bir şekilde yapılabilmesini sağlamıştır.

Özet (Çeviri)

For determining a language's morphological specialties, t s needed to generate a corpus that represents the language. If there s a large scale Turkish corpus that involves ali specialties of the language, some statstical properties of the Turkish language depending on the words can alsobeinvestgated.in this study, for generatng large scale Turkish corpus, the texts, have almost 130 millon words, were achieved from some newspapers, novels and stores, and subttles of some fılms written n Turkish from the Internet. The stems, roots, abbreviations and nflectional and derivational suffıxes' list for Turkish were obtained. The abbreviation lst and rules generated for the sentence boundary detection were stored n an XML file; these files had provided successive results n sentence boundary detection. After sentence parsing process, sentences were splitted nto words and types of words were found to help finding the correct root of the word. The stems of words were determined by using stems and nflectional suffixes' lists for Turkish. The roots and derivational suffixes of these founded stems were determined by using root and derivational suffixes' lists. Ali results nclude paragraphs, sentences, words, root and suffixes were stored nto an XML structure specialized for NLP applications to make the applcations easier. The only drawback of XML structure is that it needs too much memory on disk drive. Not to be affected from this drawback, ali XML files were stored nto the memory of the computer at the beginning of the generating large scale corpus process. This process had made the steps of generatng large scale Turkish corpus, ncludes finding stem, root and suffixes of the words, being very fast and effective.

Benzer Tezler

  1. Root-suffix seperation of Turkish words

    Türkçe kelimelerde kök-ek ayırımı

    ÇAĞDAŞ CAN BİRANT

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    DOÇ. DR. YALÇIN ÇEBİ

  2. Türkçe yazım denetleyen editör

    Turkish spelling checker editor

    K.MESUT YARIMBIYIKLI

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    DOÇ. DR. TAKUHİ NADİA ERDOĞAN

  3. Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi

    A document compression system based on the morphology of the Turkish language

    BANU DİRİ

    Doktora

    Türkçe

    Türkçe

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. M. YAHYA KARSLIGİL

  4. Türkçe tümcelerin yüklem odaklı anlam ve dilbilgisi çözümlemesi

    Grammatical and semantic analysis of turkish sentence based on predicate

    İLKNUR DÖNMEZ

    Doktora

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  5. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ