Geri Dön

Aotomatic wordnet construction using wikipedia data

Vikipedi verilerini kullanarak otomatik olarak wordnet oluşturmak

  1. Tez No: 546995
  2. Yazar: FARİD HAZİYEV
  3. Danışmanlar: YRD. DOÇ. DR. GÖNENÇ ERCAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: WordNet, Belirsizlik Giderme, Kelime gosterilimi, Vikipedi, WordNet, Word Sense Disambiguation, Word Embeddings, Wikipedia
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Karşılaşıtırılabilir yapılar kullanarak WordNet oluşturmak yaygın olarak araştırılmaktadır, ancak Vikipedi'yi bu amaçla kullanmak çok fazla araştırılmamaktadır. Vikipedi, birçok dil için karşılaştırılabilir bir yapıya sahiptir. Bu nedenle bu yapıyı kullanarak, yontemlerimizi zengin kaynaklı dillere uygulayıp, daha sonra diger dillerle eşleştirebiliriz. Bu projede, bir iki dilli ve iki çok dilli yöntem sunuyoruz. İki dilli yontemimizde Vikipedi'nin ¨ yapısı hem dogru synset'leri bulmak hem de onları hedef dile eşlemek için kullanılır. Çok dilli yontemlerimizde her Vikipedi sayfasında geçen doğru synset'leri bulup ve daha sonra vektorizasyon kullanarak bu synset'leri hedef dildeki kelimelerle eşleştiriyoruz. Çok dilli yontemlerimizde, WordNet'i olan 14 dili sayfa adlarına göre gruplandırdık ve birkaç¸ çeviriden oluşan Vikipedi sayfalarını oluşturduk. Vikipedi sayfalarında dogru synset'leri bulmak için kural tabanlı ve grafik tabanlı yöntemler kullandık. Vikipedi sayfalarında doğru synset'leri bulduktan sonra, vektorizasyon kullanarak hedef dildeki kelimelerle eşleştirdik. Daha sonra Almanca ve Rusça zemin gerçegi datalarını kullanarak kendi y öntemlerimizi bir biri ile ve başka state-of-the-art yöntemlerle karşılaştırdık. Sonuc¸ olarak gördük ki bizim yöntemler state-of-art yöntemlere benzer sonuçlar veriyor. Ayrıca daha karmaşık Belirsizlik Giderme yöntemi denendiği zaman sonuçların iyileştiğini gördük. ¨

Özet (Çeviri)

Building WordNets from comparable corpora is a task that is explored, but especially using Wikipedia for this purpose is not explored in depth. Wikipedia, has a structure that makes it a comparable corpora for lots of languages. That is why using this structure, we can apply our methods to resource rich languages and then map the results to the resource poor languages. In this paper, we present one bilingual and two multilingual methods. In our bilingual method Wikipedia's structure is used for both finding correct synsets and mapping them to the target language. In our multilingual methods we find correct synsets passing in each Wikipage and then map those synsets to the words in the target language using vectorization. We have grouped 14 languages that have WordNet available for the page names and created Wikipages, where each Wikipage consists of several translations. In order to find the correct synsets in the Wikipages, we used a rule based and a graph based method. After finding correct synsets in each Wikipage, we applied vectorization and mapped those synsets to the words in the translation of the target language Wikipedia. Then we compared our methods with each other and with some state of art methods using German and Russian languages as ground truth. It is seen that our methods show comparable results to the state of art methods. Also, it is shown that when more complex WSD method is used, our results improved.

Benzer Tezler

  1. KeNet: A comprehensive Turkish wordnet and its applications in text clustering

    KeNet: Kapsamlı Türkçe wordnet ve metin kümelemede kullanılması

    RAZIEH EHSANI

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OLCAY TANER YILDIZ

    PROF. DR. ERCAN SOLAK

  2. Automatic video categorization and summarization

    Videoların otomatik olarak sınıflandırılması ve özetlenmesi

    KEZBAN DEMİRTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NİHAN KESİM ÇİÇEKLİ

    DOÇ. DR. İLYAS ÇİÇEKLİ

  3. Automatic synset detection from Turkish dictinary using confidence indexing

    Güven endeksi kullanılarak Türkçe sözlükten eş anlam kümelerinin otomatik tespiti

    ERHAN TURAN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UMUT ORHAN

  4. Fully automatic annotation of web service descriptions

    Web servis koleksiyonlarının tam otomatik anlamlandırılması

    CİHAN AKSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. VINCENT LABATUT

    YRD. DOÇ. DR. MURAT AKIN

  5. A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization

    Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi

    KEREM ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. TUNGA GÜNGÖR