Geri Dön

Türkçe derlemden anlamsal ilişkilerin çıkartılması

Semantic relation extraction from turkish corpus

  1. Tez No: 432149
  2. Yazar: GÜRKAN ŞAHİN
  3. Danışmanlar: DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Anlamsal ilişkiler, alt-üst kavram ilişkisi, parça-bütün kavram ilişkisi, zıt anlam ilişkisi, anlamsal sözlük, doğal dil işleme, Semantic relations, hyponym-hypernym relation, part-whole relation, antonym relation, semantic dictionary, natural language processing
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Anlamsal ilişkilere ait ikililerin derlem, web sayfaları, Vikipedi metinleri, sözlük tanımları vb. kaynaklardan otomatik olarak çıkartılması DDİ' deki önemli çalışmalardan biridir. Bu anlamsal ikililerin otomatik ve yüksek doğrulukla çıkartılması sayesinde WordNet benzeri anlamsal sözlüklerin insan yardımı olmadan kısa sürede oluşturulması mümkün olabilmektedir. Bu çalışmada Türkçe alt-üst kavram, parça-bütün kavram ve zıt anlam ikilileri derlemden çıkartılmıştır. Alt-üst kavram ikililerinin derlemden çıkartılmasında şablon bilgilerinden yararlanılmıştır. Öncelikle başlangıç alt-üst kavram ikilileri oluşturulmuş, derlemde aratılarak alt-üst kavram şablonları elde edilmiş ve güvenilirlikleri belirlenmiştir. Güvenilir şablonlar kullanılarak yeni ikililer derlemden çıkartılmıştır. Çıkartılan ikililerinin doğruluklarının değerlendirilmesinde ikili-şablon birliktelikleri, derlem içinde birlikte geçtikleri komşu kelimelerin benzerlikleri, TDK sözlük tanımı bilgisi, Vikipedi link bilgileri, WordNet benzerlik fonksiyonları vb. ölçütler kullanılmıştır. Parça-bütün kavram ikililerinin derlemden çıkartılmasında çeşitli şablonlar kullanılmıştır. Başlangıç parça-bütün kavram ikililerinden şablonlar elde edilmiş, güvenilirlikleri hesaplanmıştır. Güvenilir şablonlar yeni parça-bütün ikililerinin derlemden çıkartılmasında kullanılmıştır. Parça-bütün ikililerinin doğruluklarının değerlendirilmesinde ikili-şablon birliktelik puanı, TDK sözlük tanım bilgisi, Vikipedi link bilgileri, WordNet benzerlik fonksiyonları kullanılmıştır. Zıt anlam ikililerin tespiti için öncelikle zıt anlam şablonları derlemden çıkartılmış ve güvenilirlikleri hesaplanmıştır. Güvenilir şablonlar yeni zıt ikililerin derlemden çıkartılmasında kullanılmıştır. İkililerin değerlendirilmesinde alt-üst kavram ve parça- bütünde kullanılan benzer puanlama yöntemleri kullanılmıştır. Belirlenen 15 hedef üst kavramdan ortalama %84 F ölçüm değeri elde edilmiştir. 19 hedef bütün kavramdan üretilen parça kavramlar incelenmiş ve ilk 10, 20, 30 kavramdan ortalama %81, %77, %73 tuturma değerleri elde edilmiştir. Belirlenen zıt anlam hedef kelimelerinde ise %76 tutturma oranıyla doğru zıt anlam karşılıkları derlemden çıkartılmıştır.

Özet (Çeviri)

Extraction of semantic relation pairs from various resources such as corpus, web pages, Wikipedia pages, dictionary definitions is one of the most important issues in NLP. Thanks to extraction of semantic relation pairs with high accuracy and automatically creation of semantic dictionaries like WordNet without human effort is possible. In this study, Turkish hyponym-hypernym, part-whole and antonym pairs are extracted from large Turkish corpus. Various lexico-syntactic patterns are used to obtain these pairs. Firstly, we generated hyponym-hypernym, part-whole and antonym initial seeds and using these seeds lots of hyponym-hypernym, part-whole and antonym patterns are extracted from corpus. Reliability scores are calculated for all patterns using dice, dice-idf, pmi, pmi-idf association methods and reliable patterns are selected. Then reliable patterns are used to extract new hyponym-hypernym, part-whole and antonym pairs from corpus. To evaluate reliability of new pairs, various scoring methods such as dice, dice-idf, pmi, pmi-idf association, context word similarity, dictionary definitions, Wikipedia links, WordNet similarity functions etc. are used. All new pairs are sorted by total reliability scores and evaluated by human. To evaluate new hyponym-hypernym pairs, F score is used and for 15 target hypernym words, %84 average F score is obtained. To evaluate new part-whole pairs, precision scores are calculated using first 10, 20, 30 part-whole pairs and %81, %77, %73 average precisions are obtained from 19 target wholes, respectively. For antonym relation, given a target word, only first antonym pairs whose score greater than 0,2 are evaluated and for 91 target words %76 precision is obtained.

Benzer Tezler

  1. Türkçe derlemler için sözdizimsel görselleştirme ve sorgulama aracı

    Syntactic visualization and query tool for Turkish corpora

    CEM AGAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  2. Corpus-driven semantic relations extraction for Turkish language

    Derlem tabanlı anlamsal sözlük oluşturma

    TUĞBA YILDIZ

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  3. A comparative analysis on the use of but, however and although in the university students' argumentative essays: A corpus-based study on Turkish learners of English and American native speakers

    Üniversite öğrencilerinin tartışma yazılarında kullandıkları but ?ama?, however ?oysa? ve although ?rağmen? bağlaçlarının karşılaştırmalı bir analizi: İngilizce öğrenen Türk öğrencilerinin ve anadili İngilizce olan Amerikalı öğrencilerin derlemleri üzerine bir çalışma

    DİDEM ÖZHAN

    Doktora

    İngilizce

    İngilizce

    2012

    DilbilimOrta Doğu Teknik Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK

  4. İç mimari yüzey tasarımında simetri algoritmalarının kullanımına yönelikbir model önerisi

    A model proposal for the usage of the algorithms of symmetry on the interior surface design

    KORCAN GÜLFİDAN

    Doktora

    Türkçe

    Türkçe

    2022

    Bilim ve TeknolojiMimar Sinan Güzel Sanatlar Üniversitesi

    İç Mimarlık Ana Bilim Dalı

    PROF. DR. İPEK FİTOZ

  5. Giving in Turkish: A corpus-driven frame semantic description

    Türkçede vermek: Derleme dayalı çerçeve anlambilimsel bir çözümleme

    YASEMİN ERKÖSE

    Doktora

    İngilizce

    İngilizce

    2023

    DilbilimMersin Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. AYGÜL UÇAR