Türkçe derlemden anlamsal ilişkilerin çıkartılması
Semantic relation extraction from turkish corpus
- Tez No: 432149
- Danışmanlar: DOÇ. DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Anlamsal ilişkiler, alt-üst kavram ilişkisi, parça-bütün kavram ilişkisi, zıt anlam ilişkisi, anlamsal sözlük, doğal dil işleme, Semantic relations, hyponym-hypernym relation, part-whole relation, antonym relation, semantic dictionary, natural language processing
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Anlamsal ilişkilere ait ikililerin derlem, web sayfaları, Vikipedi metinleri, sözlük tanımları vb. kaynaklardan otomatik olarak çıkartılması DDİ' deki önemli çalışmalardan biridir. Bu anlamsal ikililerin otomatik ve yüksek doğrulukla çıkartılması sayesinde WordNet benzeri anlamsal sözlüklerin insan yardımı olmadan kısa sürede oluşturulması mümkün olabilmektedir. Bu çalışmada Türkçe alt-üst kavram, parça-bütün kavram ve zıt anlam ikilileri derlemden çıkartılmıştır. Alt-üst kavram ikililerinin derlemden çıkartılmasında şablon bilgilerinden yararlanılmıştır. Öncelikle başlangıç alt-üst kavram ikilileri oluşturulmuş, derlemde aratılarak alt-üst kavram şablonları elde edilmiş ve güvenilirlikleri belirlenmiştir. Güvenilir şablonlar kullanılarak yeni ikililer derlemden çıkartılmıştır. Çıkartılan ikililerinin doğruluklarının değerlendirilmesinde ikili-şablon birliktelikleri, derlem içinde birlikte geçtikleri komşu kelimelerin benzerlikleri, TDK sözlük tanımı bilgisi, Vikipedi link bilgileri, WordNet benzerlik fonksiyonları vb. ölçütler kullanılmıştır. Parça-bütün kavram ikililerinin derlemden çıkartılmasında çeşitli şablonlar kullanılmıştır. Başlangıç parça-bütün kavram ikililerinden şablonlar elde edilmiş, güvenilirlikleri hesaplanmıştır. Güvenilir şablonlar yeni parça-bütün ikililerinin derlemden çıkartılmasında kullanılmıştır. Parça-bütün ikililerinin doğruluklarının değerlendirilmesinde ikili-şablon birliktelik puanı, TDK sözlük tanım bilgisi, Vikipedi link bilgileri, WordNet benzerlik fonksiyonları kullanılmıştır. Zıt anlam ikililerin tespiti için öncelikle zıt anlam şablonları derlemden çıkartılmış ve güvenilirlikleri hesaplanmıştır. Güvenilir şablonlar yeni zıt ikililerin derlemden çıkartılmasında kullanılmıştır. İkililerin değerlendirilmesinde alt-üst kavram ve parça- bütünde kullanılan benzer puanlama yöntemleri kullanılmıştır. Belirlenen 15 hedef üst kavramdan ortalama %84 F ölçüm değeri elde edilmiştir. 19 hedef bütün kavramdan üretilen parça kavramlar incelenmiş ve ilk 10, 20, 30 kavramdan ortalama %81, %77, %73 tuturma değerleri elde edilmiştir. Belirlenen zıt anlam hedef kelimelerinde ise %76 tutturma oranıyla doğru zıt anlam karşılıkları derlemden çıkartılmıştır.
Özet (Çeviri)
Extraction of semantic relation pairs from various resources such as corpus, web pages, Wikipedia pages, dictionary definitions is one of the most important issues in NLP. Thanks to extraction of semantic relation pairs with high accuracy and automatically creation of semantic dictionaries like WordNet without human effort is possible. In this study, Turkish hyponym-hypernym, part-whole and antonym pairs are extracted from large Turkish corpus. Various lexico-syntactic patterns are used to obtain these pairs. Firstly, we generated hyponym-hypernym, part-whole and antonym initial seeds and using these seeds lots of hyponym-hypernym, part-whole and antonym patterns are extracted from corpus. Reliability scores are calculated for all patterns using dice, dice-idf, pmi, pmi-idf association methods and reliable patterns are selected. Then reliable patterns are used to extract new hyponym-hypernym, part-whole and antonym pairs from corpus. To evaluate reliability of new pairs, various scoring methods such as dice, dice-idf, pmi, pmi-idf association, context word similarity, dictionary definitions, Wikipedia links, WordNet similarity functions etc. are used. All new pairs are sorted by total reliability scores and evaluated by human. To evaluate new hyponym-hypernym pairs, F score is used and for 15 target hypernym words, %84 average F score is obtained. To evaluate new part-whole pairs, precision scores are calculated using first 10, 20, 30 part-whole pairs and %81, %77, %73 average precisions are obtained from 19 target wholes, respectively. For antonym relation, given a target word, only first antonym pairs whose score greater than 0,2 are evaluated and for 91 target words %76 precision is obtained.
Benzer Tezler
- Türkçe derlemler için sözdizimsel görselleştirme ve sorgulama aracı
Syntactic visualization and query tool for Turkish corpora
CEM AGAN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Corpus-driven semantic relations extraction for Turkish language
Derlem tabanlı anlamsal sözlük oluşturma
TUĞBA YILDIZ
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- A comparative analysis on the use of but, however and although in the university students' argumentative essays: A corpus-based study on Turkish learners of English and American native speakers
Üniversite öğrencilerinin tartışma yazılarında kullandıkları but ?ama?, however ?oysa? ve although ?rağmen? bağlaçlarının karşılaştırmalı bir analizi: İngilizce öğrenen Türk öğrencilerinin ve anadili İngilizce olan Amerikalı öğrencilerin derlemleri üzerine bir çalışma
DİDEM ÖZHAN
Doktora
İngilizce
2012
DilbilimOrta Doğu Teknik Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK
- İç mimari yüzey tasarımında simetri algoritmalarının kullanımına yönelikbir model önerisi
A model proposal for the usage of the algorithms of symmetry on the interior surface design
KORCAN GÜLFİDAN
Doktora
Türkçe
2022
Bilim ve TeknolojiMimar Sinan Güzel Sanatlar Üniversitesiİç Mimarlık Ana Bilim Dalı
PROF. DR. İPEK FİTOZ
- Giving in Turkish: A corpus-driven frame semantic description
Türkçede vermek: Derleme dayalı çerçeve anlambilimsel bir çözümleme
YASEMİN ERKÖSE
Doktora
İngilizce
2023
DilbilimMersin Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. AYGÜL UÇAR