Geri Dön

Semantic relation extraction by enriching word embeddings exploiting turkish morphology

Anlamsal ilişki çıkarımında türkçe morfolojisi kullanılarak dağıtık kelime gösterimlerinin zenginleştirilmesi

  1. Tez No: 944109
  2. Yazar: GÖKHAN ERCAN
  3. Danışmanlar: PROF. DR. OLCAY TANER YILDIZ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Işık Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 205

Özet

Dağıtık kelime gösterimleri (DG), metinsel veri içindeki kelime dağılım ilişkilerinin analiz edilmesiyle dildeki anlamsal ve sözdizimsel düzenlerin yakalanması için kullanılır. DG üreten modelleme yöntemleri, dilin doğasından gelen“aynı bağlam içerisinde yer alan kelimeler, birbirlerine yakın anlamlara sahip olma eğilimi gösterir”varsayımına (dağılımsal hipotez) dayanmaktadır. Bu modelleme yöntemleri, gözetimsiz doğaları sayesinde insan yargı girdisi olmaksızın eğitilebilmekte, bu da araştırmacıların görece düşük maliyetlerle büyük veri kümelerini eğitebilmelerine olanak sağlamaktadır. Kelime-bazlı modeller İngilizce gibi sınırlı dağarcığa sahip dillerde iyi çalışmakla birlikte Türkçe gibi morfolojik açıdan zengin, sınırsız dağarcığa sahip dillerde oldukça verimsizdir. Dağarcık-dışı-kelimeler ve az-geçen-kelimeler problemlerine çözüm sunan kelime-altı modellemede yaygın olarak kullanılan n-gram ve istatistiksel ayrıştırma yöntemlerinin ortografik benzerliğe karşı hassas olduğu, dolayısıyla ilişkisiz kavramları (enişte - erişte) birbirinden ayıramadığını tespit ettik. Morfolojik ayrıştırma yönteminin ise bu tür problemlere etkisinin literatürde tutarsız sonuçlar gösterdiği saptanmıştır. Bu tez farklı anlam ilişkisi türleri (ilişkisellik ve benzerlik vb.) üzerine kavramsal varsayım ve geliştirmeler yapmayı, dil morfolojisini girdi olarak modellemenin kelime-altı DG modelleri üzerindeki rolünü ve bu etkiyi ölçebilmek için gerekli olan veri kümesi üretme metodolojilerini ve değerlendirme yöntemlerini geliştirmeyi amaçlamaktadır. Çalışma kapsamında farklı model ve ayrıştırma yöntemleri ampirik olarak denenmiş, AnlamVer ve OSimUnr kelime çifti veri kümeleri üretilmiş, ve ayrıştırmanın modele eklediği gürültüyü ölçebilmek için ilişkisellik sınıflandırma görevi ve ilgili ölçme yöntemleri önerilmiştir. Deneylerimiz, morfolojik ayrıştırmanın n-gram bazlı yöntemlere oranla çok daha az gürültü ürettiğini ve görevin doğasına bağlı olarak ciddi bir performans artışı sağlayabileceğini göstermektedir.

Özet (Çeviri)

Distributed representations (DR) are used to capture semantic and syntactic patterns in language by analyzing the distributional relationships of words within textual data. The modeling methods that produce DR are based on the assumption (distributional hypothesis) that“words that occur in the same context tend to have similar meanings,”which is inherent to the nature of language. These modeling methods, due to their unsupervised nature, can be trained without human judgment input, allowing researchers to train large datasets at relatively low costs. Although word-based models perform effectively for languages with limited vocabularies, such as English, they exhibit considerable inefficiency when applied to morphologically rich languages with unlimited vocabularies, such as Turkish. We observed that n-gram and statistical segmentation methods, which are commonly used in subword modeling to address the issues of out-of-vocabulary and rare-words, are highly sensitive to orthographic similarity. Consequently, these methods struggle to distinguish between unrelated concepts (e.g., shrink - shrine). Moreover, we noted that the impact of morphological segmentation methods on these types of problems has shown inconsistent results in the literature. This thesis aims to make conceptual assumptions and improvements concerning different types of semantic relationships (e.g., relatedness and similarity), to model the role of language morphology as an input in subword DR models, and to develop the dataset generation methodologies and evaluation methods to measure this effect. Within the scope of the study, different models and segmentation methods were empirically tested, the AnlamVer and OSimUnr datasets were produced, and the task of relatedness classification and associated evaluation methods were proposed to measure the noise introduced by segmentation to the model. Our experiments demonstrate that morphological segmentation produces significantly less noise compared to n-gram-based methods and can lead to substantial performance improvements depending on the nature of the task.

Benzer Tezler

  1. Şartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması

    Semantic relation extraction by conditional random fields from Turkish Wikipedia pages

    CANAN GİRGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  2. Türkçe derlemden anlamsal ilişkilerin çıkartılması

    Semantic relation extraction from turkish corpus

    GÜRKAN ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  3. Alana özel anlamsal ilişki çıkarımı için bir yöntemin geliştirilmesi

    Development of a domain-specific relation extraction method

    VAHAB MOSTAFAPOUR

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ

  4. Corpus-driven semantic relations extraction for Turkish language

    Derlem tabanlı anlamsal sözlük oluşturma

    TUĞBA YILDIZ

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  5. İngilizce ve Türkçe twitter mesajlarının Word2Vec modeli ile sınıflandırılması

    Classification of English and Turkish twitter messages by using Word2Vec model

    ABDULLAH AMMAR KARCIOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA AYDIN