Geri Dön

Türkçede morfolojik analiz yapan bir sistemin morfolojik türetme için kullanılması

Using a turkish morphological analyzer for word generation

  1. Tez No: 444608
  2. Yazar: MUSTAFA BURAK ÖZTÜRK
  3. Danışmanlar: YRD. DOÇ. DR. BURCU CAN BUĞLALILAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Makine çevirisi, soru-yanıt sistemleri gibi doğal dil işleme uygulamalarında sözdizim ve anlama göre sözcük formlarının morfolojik olarak türetilmesine ihtiyaç duyulur. Türkçe, zengin ve üretken bir morfolojiye sahiptir. Bir Türkçe sözcük binlerce farklı sözcük formuna sahip olabilmektedir. Bu özellikleriyle Türkçe, morfolojik üretme gibi doğal dil işleme çalışmalarında zorlu ve ilgi çekici bir dil olmuştur. Bu çalışmada, Türkçe sözcükleri denetimsiz olarak türetebilen bir model önerilmiştir. Çalışmada Türkçede denetimli morfolojik analiz yapan bir sistem ile sözcükler morfemlerine ayrıştırılmıştır. Sonlu durum özdevinirleri (FSA), Türkçenin sözdizimsel özelliklerini ele alabilmek için kullanılmıştır. Çalışmada sözcük kökleri sözdizimsel özelliklerine göre (isim, fiil vb.) kategorilerine ayrılmıştır. Benzer olarak ekler de alomorfik özelliklerine göre kategorilendirilmiştir. Her bir kök kategorisi için bir FSA oluşturulmuştur. Bu FSA'ların başlangıç durumları bir kök kategorisine karşılık gelirken, takip eden durumlar ise bir ek kategorisine karşılık gelmektedir. FSA'lar kullanılarak Türkçe sözcükler türetilmiştir. Buna ek olarak Türkçenin yazımsal özellikleri denetimsiz olarak keşfedilmiş ve sözcük türetme için kullanılmıştır. Yaklaşık 3000 biricik sözcük kökünden, 1 milyon civarı sözcük türetilmiştir. Geliştirdiğimiz bu model, %82.36 doğruluk oranıyla sözcük formu türetebilmektedir. Bu çalışmada önerilen model, Fince ve Macarca gibi diğer sondan eklemeli ve zengin morfolojiye sahip diller için de uygulanabilir.

Özet (Çeviri)

Generating word forms accordingly with the syntax and semantics is needed by natural language processing applications such as machine translation and question answering. Turkish morphology is rich and productive. A Turkish word can have thousands of different word forms. With these features, Turkish is a challenging and attractive language for natural language processing tasks such as morphological generation. In this study, a model that generates Turkish words in an unsupervised way is presented. In the study, a supervised Turkish morphological analyzer is used for splitting words into morphemes. We used finite state automatas (FSA) to deal with morphosyntactic features. In the study, stems are categorized based on their syntactic features (i.e. noun, verb, etc.). Similarly, suffixes are categorized based on their allomorphic features. An FSA is built for each stem category. Start states of these FSAs correspond a stem category whereas following states correspond a suffix category. Turkish words are generated by using these FSAs. Additionally, Turkish ortographic features are extracted with an unsupervised approach and these features are used for generating words. From approximately 3000 unique stems, around 1 million words are generated. The model that we developed can generate word forms with an accuracy of %82.36. The model proposed in this study, can be applied to other agglutinative languages, such as Hungarian and Finnish that are also morphologically rich.

Benzer Tezler

  1. Лингво-стилистические особенности ложныхдрузей переводчика

    Tuzak kelimelerin çevirisinde dilbilimsel ve üslupbilimselözellikler

    ŞUHEDA RENGİN ÖZTÜRK

    Yüksek Lisans

    Rusça

    Rusça

    2024

    Mütercim-TercümanlıkKırgızistan-Türkiye Manas Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    DOÇ. DR. SALTANAT MAMBAYEVA

  2. Sumerce'de ekler ve Türkçe'ye yansımaları

    Affixes in Sumerian and their reflection on Turkish

    OĞUZHAN ABACI

    Doktora

    Türkçe

    Türkçe

    2023

    Eski Çağ Dilleri ve KültürleriNevşehir Hacı Bektaş Veli Üniversitesi

    Tarih Ana Bilim Dalı

    PROF. DR. LÜTFİ GÜRKAN GÖKÇEK

  3. Türkçe morfolojik analiz için yeni bir yöntem

    A new method for turkish morphological analysis

    MUHAMED FATİH EKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ AKSOY TÜYSÜZ

  4. Deep learning-based preprocessing tools for Turkish natural language processing

    Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları

    BUSE AK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  5. Makine öğrenmesi tekniklerini kullanarak türkçe metinlerden düşünce çıkarımı ve duygu belirleme

    Opinion extraction and sentiment detection for turkish documents using machine learning techniques

    MİNE MERCAN

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ