Geri Dön

Identification of multiword expressions in Turkish based on web data

Web verisi kullanılarak Türkçe çok sözcüklü ifadelerin belirlenmesi

  1. Tez No: 434360
  2. Yazar: HANDE AKA UYMAZ
  3. Danışmanlar: YRD. DOÇ. DR. SENEM KUMOVA METİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Multiword expression, frequency based methods, web data
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: İzmir Ekonomi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Çok sözcüklü ifade, doğal dillerde, sözcüklerin anlam bütünlüğü oluşturmak üzere tekrarlayan kombinasyonlarıdır. Metinlerden çok sözcüklü ifadelerin belirlenmesi bir çok doğal dil işleme uygulamaları ( Doğal dil üretme, hesaplamalı sözlükbilim, makine çevirileri vb.) için çok önemli bir konudur. çok sözcüklü ifadelerin belirlenmesi için gözlenme sıklığı bağımlı yöntemler ( Bileşik olasılık (joint probability), noktasal karşılıklı bilgi katsayısı (pointwise mutual information), karşılıklı bağlılık (mutual dependency) v.b) sıklıkla kullanılır. Bu yöntemlerin en büyük dezavantajı, çok sözcüklü ifadelerin belirlenmesinin performansının frekansın ölçüldüğü veri kaynağının büyüklüğüne bağlı olmasıdır. Bu tezin amacı, küçük veri setlerinin yarattığı problemlerin önüne geçmek için bilinen en büyük veri kaynağı olan web'i kullanarak gözlenme sıklığını elde etmektir. Bu tezde, 2 farklı aday veri seti kullanılarak, Türkçe dili için frekans tabanlı çok sözcüklü ifade belirleme metotlarının performansı araştırılmıştır. Veri setlerindeki adayların gözlenme sıklığı bilgisi popüler bir arama motoru olan Google kullanılarak elde edilmiştir. Aday çok sözcüklü ifadelerin arama motoruna sorgu olarak gönderildiğinde alınan sayfa sayısı (ing. page count) adayın gözlenme sıklığı olarak kabul edilmiştir. Kullanılan 20 yöntemin başarısı anma(recall), duyarlılık(precision) ve F-ölçütü (F-measure) ile değerlendirilmiştir. Web tabanlı frekans bilgisinin çok sözcüklü ifadelerin belirlenmesindeki performansı geleneksel derlem tabanlı frekans ile karşılaştırılmıştır ve çok sözcüklü ifadelerin belirlenmesinde web verilerinin kullanılması umut verici sonuçlar göstermiştir. Anahtar Kelimeler : çok sözcüklü ifade, sıklık tabanlı yöntemler, web verisi.

Özet (Çeviri)

Multiword expressions (MWEs) are recurrent combinations of words in natural languages. The extraction of MWEs in a text is signi cant for a number of natural language processing applications (e.g. natural language generation, computational lexicography, machine translation etc.). There are various occurrence frequency based methods (e.g. joint probability, pointwise mutual information and mutual dependency) that are used frequently for MWE extraction ([12],[13]). The major disadvantage of these methods is that extraction performance depends mainly on the size of the data set in which the occurrence frequency is measured. The main goal of this thesis is obtaining the frequency from a massive data source, the World Wide Web, in order to by-pass the negative e ect of small data set. In this thesis, we applied frequency based MWE extraction methods on two Turkish MWE data sets. The occurrence frequencies of MWE candidates in data sets are obtained from popular search engine Google. The retrieved page counts when the candidates are sent as queries to Google are employed as the occurrence frequencies. The evaluation of the 20 frequency based methods is performed by precision, recall and F-measures. The performance of web-based frequencies in identi cation of MWEs is compared to the traditional corpus based frequencies and it is showed that the use of web data in identi cation of MWEs reveals promising results.

Benzer Tezler

  1. Identification of verbal multiword expressions using deep learning architectures and representation learning methods

    Çok sözcüklü fiil ifadelerinin derin öğrenme mimarileri ve gösterim öğrenme metotları ile saptanması

    BERNA ERDEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  2. Multilingual identification of verbal multiword expressions using bidirectional long short-term memory based architectures

    Çift yönlü uzun-kısa vadeli bellek tabanlı mimariler kullanılarak çok sözcüklü fiil ifadelerinin çok dilli saptanması

    GÖZDE BERK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  3. A learner corpus-based study on the use of English prepositional verbs of Turkish efl learners

    Yabancı dil olarak İngilizce öğrenen Türk öğrencilerin İngilizce ilgeçli eylem kullanımları üzerine derleme dayalı bir çalışma

    SİBEL AYBEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Eğitim ve ÖğretimÇukurova Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    DOÇ. DR. CEM CAN

  4. Deyim derlemi oluşturmak için oyunlaştırılmış kitle kaynak kullanımı

    Gamified crowdsourcing for idiom corpora construction

    ALİ ŞENTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  5. Identification of chromatin related genes regulating temozolomide resistance in GBM

    GBM'de temozolomid direncini düzenleyen kromatin ile ilişkili genlerin belirlenmesi

    FİLİZ ŞENBABAOĞLU

    Doktora

    İngilizce

    İngilizce

    2019

    BiyolojiKoç Üniversitesi

    DOÇ. DR. TUĞBA BAĞCI ÖNDER