Geri Dön

Multiword expression detection using word vector representations

Sözcük temsilleri kullanarak çok sözcüklü ifade tespiti

  1. Tez No: 592158
  2. Yazar: TANSU TAŞÇIOĞLU
  3. Danışmanlar: DOÇ. DR. SENEM KUMOVA METİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İzmir Ekonomi Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 55

Özet

Çok sözcüklü ifadeler iki ve ya daha fazla sözcüğün geleneksel olarak dilde bir araya geldiği ifadelerdir. Çok sözcüklü ifadelerin çoğunda, kelimeler yeni bir anlam oluşturmak için bir araya gelirken kendi anlamlarını kaybederler. Son yapılan doğal dil işleme çalışmalarında, kelimelerin/kelime kombinasyonlarının anlamı sözcük temsilleri ile ifade edilir. Bu yaklaşımda,komşu sözcüklerin verilen hedef kelime ile ilgili bilgiyi taşıdığı kabul edilir. Bu tez çalışmasının amacı, Türkçe'de çok sözcüklü ifadelerin tespitinde sözcük temsillerinin kullanımını araştırmaktır. Kelimeler çok sözcüklü ifadeler oluşturmak için bir araya geldiğinde vektör temsillerinde anlam değişikliği ya da kaybı olduğu kabul edilir. Bu tezde, çok sözcüklü ifade adaylarının ve adayları oluşturan sözcüklerin sözcük temsil vektörleri (gövde ve yüzeysel form) beş farklı temsil yöntemi ile oluşturulmuştur. Çok sözcüklü ifade adaylarının vektör temsili on farklı sınıflandırıcıya girdi olarak verilmiştir. Sınıflandırma performansı 5-katlı çapraz doğrulama yöntemiyle F1-skoru kullanılarak ölçülmüştür. Deneylerde gövdelemenin çok sözcüklü ifade çıkarımında performansı geliştirmediği görülmüştür. Bununla beraber, çok sözcüklü ifade tespiti deneylerinde diğer yöntemlerden sürekli olarak üstün olan bir sınıflandırma yöntemi olmadığı gözlenmiştir.

Özet (Çeviri)

Multiword expressions (MWE) are statements in which two or more words are combined traditionally in language. In most of multiword expressions, words combine losing/changing their own meanings in order to create a new one. In recent natural language processing studies, the meanings/senses of the words/word combinations are expressed by word vector representations (word embeddings). In vector representation, it is assumed that the neighbouring words hold the information regarding to the given target word in language. The aim of this thesis is to explore the use of word representations in multiword expression detection in Turkish. We assumed that as the words combine to build up an MWE, they modify or lose their meanings resulting with a change in the vector representation. In this thesis, word vectors of MWE candidates (both stemmed and surface forms)and composing words are built up by five different representation methods. The vector representation of MWE candidates are given as inputs to ten different types of classifiers. The classification performance is measured by F1 score with 5-fold cross validation. The experimental results showed that stemming does not improve the performance of MWE extraction when vector representations are used. In addition, it is observed that there exists no classification method that outperforms the others continuously in MWE detection experiments.

Benzer Tezler

  1. Multi-word expression detection for turkish

    Çok kelimeli türkçe deyim belirleme

    NAZLI HÜRMEYDAN ERSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÖNENÇ ERCAN

  2. Glioblastoma primer beyin tümörlerinde SIRT4'ün glutamat metabolizması ile ilişkisinin incelenmesi ve potansiyel tümör baskılayıcı özelliğinin araştırılması

    Investigation of the relationship between SIRT4 and the glutamate metabolism and its tumor suppressing potantial in glioblastoma primary tumor tissues

    AYŞENUR AKKULAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Tıbbi BiyolojiAydın Adnan Menderes Üniversitesi

    Tıbbi Biyoloji Ana Bilim Dalı

    PROF. DR. GİZEM DÖNMEZ YALÇIN

  3. التوجيه الدلالي في اختلاف القراءاتالعشر المتواترة في جزء عم

    Mütevatir on kıraatın amme cüzündeki ihtilaflarının edebi ve anlamsal yorumu

    EMAN MOSTAFA KAMEL MOHAMED MOSTAFA

    Yüksek Lisans

    Arapça

    Arapça

    2022

    DinBingöl Üniversitesi

    Temel İslam Bilimleri Ana Bilim Dalı

    PROF. DR. MUSTAFA AGÂH

  4. Identification of multiword expressions in Turkish based on web data

    Web verisi kullanılarak Türkçe çok sözcüklü ifadelerin belirlenmesi

    HANDE AKA UYMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Ekonomi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SENEM KUMOVA METİN

  5. Multilingual identification of verbal multiword expressions using bidirectional long short-term memory based architectures

    Çift yönlü uzun-kısa vadeli bellek tabanlı mimariler kullanılarak çok sözcüklü fiil ifadelerinin çok dilli saptanması

    GÖZDE BERK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR