Aotomatic wordnet construction using wikipedia data
Vikipedi verilerini kullanarak otomatik olarak wordnet oluşturmak
- Tez No: 546995
- Danışmanlar: YRD. DOÇ. DR. GÖNENÇ ERCAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: WordNet, Belirsizlik Giderme, Kelime gosterilimi, Vikipedi, WordNet, Word Sense Disambiguation, Word Embeddings, Wikipedia
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Karşılaşıtırılabilir yapılar kullanarak WordNet oluşturmak yaygın olarak araştırılmaktadır, ancak Vikipedi'yi bu amaçla kullanmak çok fazla araştırılmamaktadır. Vikipedi, birçok dil için karşılaştırılabilir bir yapıya sahiptir. Bu nedenle bu yapıyı kullanarak, yontemlerimizi zengin kaynaklı dillere uygulayıp, daha sonra diger dillerle eşleştirebiliriz. Bu projede, bir iki dilli ve iki çok dilli yöntem sunuyoruz. İki dilli yontemimizde Vikipedi'nin ¨ yapısı hem dogru synset'leri bulmak hem de onları hedef dile eşlemek için kullanılır. Çok dilli yontemlerimizde her Vikipedi sayfasında geçen doğru synset'leri bulup ve daha sonra vektorizasyon kullanarak bu synset'leri hedef dildeki kelimelerle eşleştiriyoruz. Çok dilli yontemlerimizde, WordNet'i olan 14 dili sayfa adlarına göre gruplandırdık ve birkaç¸ çeviriden oluşan Vikipedi sayfalarını oluşturduk. Vikipedi sayfalarında dogru synset'leri bulmak için kural tabanlı ve grafik tabanlı yöntemler kullandık. Vikipedi sayfalarında doğru synset'leri bulduktan sonra, vektorizasyon kullanarak hedef dildeki kelimelerle eşleştirdik. Daha sonra Almanca ve Rusça zemin gerçegi datalarını kullanarak kendi y öntemlerimizi bir biri ile ve başka state-of-the-art yöntemlerle karşılaştırdık. Sonuc¸ olarak gördük ki bizim yöntemler state-of-art yöntemlere benzer sonuçlar veriyor. Ayrıca daha karmaşık Belirsizlik Giderme yöntemi denendiği zaman sonuçların iyileştiğini gördük. ¨
Özet (Çeviri)
Building WordNets from comparable corpora is a task that is explored, but especially using Wikipedia for this purpose is not explored in depth. Wikipedia, has a structure that makes it a comparable corpora for lots of languages. That is why using this structure, we can apply our methods to resource rich languages and then map the results to the resource poor languages. In this paper, we present one bilingual and two multilingual methods. In our bilingual method Wikipedia's structure is used for both finding correct synsets and mapping them to the target language. In our multilingual methods we find correct synsets passing in each Wikipage and then map those synsets to the words in the target language using vectorization. We have grouped 14 languages that have WordNet available for the page names and created Wikipages, where each Wikipage consists of several translations. In order to find the correct synsets in the Wikipages, we used a rule based and a graph based method. After finding correct synsets in each Wikipage, we applied vectorization and mapped those synsets to the words in the translation of the target language Wikipedia. Then we compared our methods with each other and with some state of art methods using German and Russian languages as ground truth. It is seen that our methods show comparable results to the state of art methods. Also, it is shown that when more complex WSD method is used, our results improved.
Benzer Tezler
- KeNet: A comprehensive Turkish wordnet and its applications in text clustering
KeNet: Kapsamlı Türkçe wordnet ve metin kümelemede kullanılması
RAZIEH EHSANI
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OLCAY TANER YILDIZ
PROF. DR. ERCAN SOLAK
- Automatic video categorization and summarization
Videoların otomatik olarak sınıflandırılması ve özetlenmesi
KEZBAN DEMİRTAŞ
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİHAN KESİM ÇİÇEKLİ
DOÇ. DR. İLYAS ÇİÇEKLİ
- Automatic synset detection from Turkish dictinary using confidence indexing
Güven endeksi kullanılarak Türkçe sözlükten eş anlam kümelerinin otomatik tespiti
ERHAN TURAN
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. UMUT ORHAN
- Fully automatic annotation of web service descriptions
Web servis koleksiyonlarının tam otomatik anlamlandırılması
CİHAN AKSOY
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. VINCENT LABATUT
YRD. DOÇ. DR. MURAT AKIN
- A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization
Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi
KEREM ÇELİK
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. TUNGA GÜNGÖR