Geri Dön

Unsupervised morphological analysis using tries

Ağaç yapısı kullanarak gözetimsiz biçimbirim analizi

  1. Tez No: 301092
  2. Yazar: KORAY AK
  3. Danışmanlar: YRD. DOÇ. DR. OLCAY TANER YILDIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Işık Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 49

Özet

Biçimbirim analizi ya da ayrıştırması, kelimelerin yapısını, dizilimini ve fonksiyonlarını inceler, kelimeler içindeki en küçük anlam taşıyan morfemleri belirler ve dilin modelini çıkarmaya çalışır. Konuşma işleme, bilgisayarlı çeviri, bilgi bulgetir, metin anlama ve istatiksel dil modelleme gibi alanlarda kullanılır. Biçimbirim analizi, metiniçinde bir çok sözcük formu olduğundan çoğu dil için hem zor hem de gereklidir. Çekimli dillerde aynı köke ait binlerce değişik sözcük formu olabilir, bu da çekimlenmiş sözcük dizilerini oluşturmayı zor kılar. Doğal dil işleme uygulamalarının büyük verilerle çalıştığı düşünülürse bu işin dilbilimciler tarafından el ile yapılması karmaşıklık ve gerçek zamanlı işleme açşından mümkün değildir. Bu nedenle bu işlemin otomatikleşmiş biçimbirim algoritmaları tarafından yapılması gerekmektedir. Bu bağlamda öğreticisiz biçimbirim çözümleyicilerin kullanıldığı sistemlerle işlenmemiş metin bütünceleri işlenebilir.Bu çalışmada metin bütünceleri ve dilin modeli hakkında bilgi çıkarımı yapacakbir gözetimsiz öğrenme algoritması önerilmiştir. Tasarlanan algoritma, metin bütüncesindegeçen kelimelerden oluşturduğu ağaçlar ile verilen kelimelerin kök ve eklerini kelimeleringeçme sıklığına göre bulmaya çalışmaktadır. Kelimelerin kökleri çıkarıldıktan sonra algoritma geri kalan sözcük kşımları ile ek ağaçları oluşturup özyineli bir şekilde tümekleri bulur. Algoritma Fince, Ingilizce ve Türkçe dillerinde denenip önceki çalışmalarınçoğundan iyi sonuçlar vermiştir.

Özet (Çeviri)

Morphological analysis or decomposition studies the structure, formation, functionof words, identifies the morphemes (smallest meaning-bearing elements) of thelanguage and attempts to formulate rules that model the language. It is widely used indifferent areas such as speech recognition, machine translation, information retrieval,text understanding, and statistical language modeling. Considering that the naturallanguage processing applications are dealing with large amounts of data, it is not feasibleto use linguists to analyze text corpus by hand, the complexity and real timeprocessing requirements leads to automated morphological analysis. As an alternativeto the hand-made systems, there exist algorithms that work unsupervised manner andautonomously do morphological analysis for the words in an unannotated text corpus.In this thesis, an unsupervised learning algorithm is proposed to extract informationabout the text corpus and the model of the language. The proposed algorithmconstructs a trie that consists of characters and the occurrences of the words as nodes.The algorithm then detects roots of the given words by examining the occurrences inthe path of the word. When the root is revealed, the algorithm creates a new trie fromthe affix parts, left after the root for each word. The algorithm continues recursivelyuntil there is no affix left to process. Experimental results on three languages (Finnish,English and Turkish) show that our novel algorithm performs better than most of theprevious algorithms in the field and gives promising results.

Benzer Tezler

  1. Yere nüfuz eden radarlarda öğrenme tabanlı yeni kargaşa giderme yöntemleri

    New learning-based clutter removal methods in ground penetrating radar

    EYYUP TEMLİOĞLU

    Doktora

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIN ERER

  2. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Olive tree crown detection, delineation and counting by using image processing techniques

    Görüntü işleme teknikleri kullanarak zeytin ağaçlarının tespit edilmesi, resmedilmesi ve sayımının yapılması

    OMAR ALI ABBAS AL-TEKREETI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiÇukurova Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAMİ ARICA

  5. Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant

    Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi

    DENİZ GÜL ÖZCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT DENİZ ULUŞAR