Geri Dön

KeNet: A comprehensive Turkish wordnet and its applications in text clustering

KeNet: Kapsamlı Türkçe wordnet ve metin kümelemede kullanılması

  1. Tez No: 507341
  2. Yazar: RAZIEH EHSANI
  3. Danışmanlar: PROF. DR. OLCAY TANER YILDIZ, PROF. DR. ERCAN SOLAK
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Işık Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 94

Özet

Bu tez, kapsamlı bir Türkçe WordNet yapımının aşamalarını, zorluklarını ve son olarak da onu bir doğal işleme alanında uygulamasını özetliyor. Her dilin kendine özel dil kaynakları vardır, örneğin tek dilli sözlükler, iki dilli sözlükler, lugatnameler klasik dil kaynaklarıdırlar ve dilbilimciler tarafından geliştirirlirler. Bu kaynaklar genellikle bir dil kurumu tarafından desteklenir ve denetlenir. Günümüz bilgisayarların hayatımızın her alanına girmesi ile birlikte, dil kaynaklarının da bilgisayarlar tarafından okunabilirliği ve bilgisayar uygulamalarında kullanılabilmeleri için geliştirilmeleri bir gereksinim haline gelmiştir. Bu bilgisayar tarafından okunabilir kaynaklardan biri WordNettir, WordNet ilk kez İngilizce için Princeton üniversitesinde geliştirilmiştir. WordNet klasik sözlüklerin özelliklerini taşımakla birlikte kelimeler arasında bazı anlamsal ilişkileri de içerir. Bu anlamsal ilişkiler eş anlamlılıktan öte, bir kelime diğerinin bir türüdür, veya bir kelime diğer kelimenin bir parçasıdır gibi anlamsal ilişkileri de içerir. Bu anlamsal ilişkiler yazı analizlerinde kullanılmaktadır. WordNet kelimeleri gerçek dünyadaki kavramlarına göre tek bir kümede toplar, bu kümelere synset denir. Sonuç olarak WordNet, kapsamlı ve bilgisayar tarafından okunabilir bir dil kaynagıdır ve yazı analizlerinde oldukça faydalı bir kaynaktır. Türkçe için bizim çalışmamızdan önce kapsamlı olmayan bir WordNet geliştirilmiş. Bu WordNet, BalkaNet projesinin adı altında geliştirilmiştir. BalkaNet çokdilli bir WordNettir ve Balkan dilleri ve Türkçeyi içermektedir. BalkaNet aşamalar sırasında geliştirilmiş ve anlamsal ilişkiler eklenmiştir, fakat son yıllarda herhangi bir güncelleme yapılmamıştır. Bu çalışma, sıfırdan Türkçe için bir WordNet yapımını anlatmaktadır. Genel olarak, WordNet yapımı için iki yöntem vardır, aşağı-yukarı yöntem ve yukarıdan-aşagı yöntem. aşagı-yukarı yöntem herhangi başka bir WordNeti çevirmeden veya kullanmadan sıfırdan ve sözlük kullanarak WordNet yapımıyla uğraşır, yukarı-aşagı yöntemde ise, sıfırdan yapmak yerine başka dillerde mevcut olan Word- Netleri birebir çevirerek ve dahasında geliştirerek veyahut değiştirmeyerek WordNet yapımıyla uğraşır. Bizim çalışmamız Türk Dil Kurumunun Güncel Türkçe Sözlüğünü kullanarak aşağı-yukarı yöntem ile WordNet yapımıdır.Bu çalışma sırasında, TDK sözlüğünden eşanlamlı kelimeleri çıkartıp ve bir grup insana bu kelimelerin ortaklaşa paylaştıkları anlamları işaretlemelerini istedik. Bu işaretleme için geliştirdiğimiz bir yazılım kullanarak sürecin kolaylaşmasını ve hata payının düşürülmesini sağladık. Ayrıca Türkçe için herhangi bir eşanlamlılar sözlüğü mevcur olmadığı için, Türkçenin ilk eşanlamlılar sözlüğünü otomatik olarak oluşturduk. İşaretleyiciler arasında anlaşmayı ölçüp ve ayrıca otomatik oluşturduğumuz eşanlamlılar sözlüğünü elle işaretlenmiş eşanlamlılar kümelerile ölçtük. Son olarak, bu çalışmada geliştirdiğimiz WordNeti Vikipedi makalelerini kümelemesi için kullandık. Bunun için öncelikle her yazı dosyasını bir vektöre çevirdik ve bunun için kendi özel yöntemimizi kullandık.

Özet (Çeviri)

In this thesis, we summarize the methodology and the results of our efforts to construct a comprehensive WordNet for Turkish. Most languages have access to comprehensive language resources. Traditional resources like bilingual dictionaries, monolingual dictionaries, thesauri, and lexicons are developed by lexicographers. As computer processing of languages gains popularity, a new set of resources become necessary. One such resource is WordNet which was initially constructed for the English language at Princeton University. A WordNet contains much of the information contained in a classic dictionary, but it also contains additional relationship information. These relations go beyond synonym relation and give information about relations such as a word being“is-a”or“is-a-part-of”another. These semantic relations are used in many text analysis tasks. A WordNet also categorizes words under common concepts. These concepts are called as synsets. As a result of all these, WordNet is a comprehensive dictionary which is readable by the computers and a useful language resource for text analysis and other research based on human language. In Turkish language, our WordNet is not the first. The previous WordNet is part of BalkaNet project which is a multilingual WordNet including Turkish and Balkan languages. BalkaNet contains only common words between these languages, as such BalkaNet does not contain all Turkish words and suffers from top-down constructing method disadvantages. BalkaNet project has not been updated or expanded in recent years. In this work, we construct a Turkish WordNet from scratch using a bottom-up method. In general, there are two methods for constructing WordNets. Bottom-up method means that we create the WordNet from scratch while top-down approach uses other WordNets by translating them. We use Turkish Contemporary Dictionary (CDT) which is an online Turkish dictionary provided by Turkish Language Institute. Bottom-up approach has its own difficulties since constructing a WordNet from scratch requires more resources and a lot of effort. In this work, we extract synonyms from CDT and ask experts to match common meanings for pairs of synonyms. We developed an application which makes annotation step easier and more accurate. We also use two groups of annotators to measure inter-annotator agreement. We used some automatic approaches to extract semantic relations from Turkish Wikipedia (Vikipedi) and Vikisözlük. We processed CDT to extract candidate synonyms and used rule-based approaches to find synonym sets. There is no thesaurus for Turkish, so as an application we construct a thesaurus automatically and measured accuracy with our manually constructed synsets. We named our WordNet“KeNet”. Finally, in this thesis, we developed a novel approach to represent a text document in a vector space. This approach uses WordNet semantic relations. This part of the thesis is an application of KeNet. We used our approach to represent text documents and implemented two different clustering algorithms over these vectors. We tested our method over Turkish Wikipedia articles, domains of which are labeled by Wikipedia.

Benzer Tezler

  1. Tectonic and magmatic structure of Lake Van basin and its structural evolution, Eastern Anatolia accretionary complex (EAAC), East-Turkey

    Van Gölü havzasının tektonik ve magmatik yapısı ve yapısal evrimi, Doğu Anadolu yığışım karmaşığı (DAYK), Doğu Türkiye

    MUSTAFA TOKER

    Doktora

    İngilizce

    İngilizce

    2011

    Jeofizik Mühendisliğiİstanbul Teknik Üniversitesi

    İklim ve Deniz Bilimleri Ana Bilim Dalı

    PROF. DR. A. M. CELAL ŞENGÖR

  2. Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

    Dependency parsing with deep learning methods in Turkish

    MÜCAHİT ALTINTAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. İstanbul'un Anadolu Yakası kıyılarında mesire alanlarının dönüşümü (1839-1938) ve günümüze yansımaları

    Transformations Of Mesires Along The Anotolian Side Of Istanbul (1839-1938) And Their Connection With The Present

    ÖZGÜN ARIN

    Doktora

    Türkçe

    Türkçe

    2018

    Peyzaj Mimarlığıİstanbul Teknik Üniversitesi

    Peyzaj Mimarlığı Ana Bilim Dalı

    PROF. DR. AYGÜL AĞIR

  4. Kıyı kentlerinde kentsel ve yapısal ölçekte tasarımda rüzgar entegrasyonuna ilişkin bütüncül bir model önerisi: Antalya örneği

    A comprehensive model proposal for wind integration in urban and structural design in coastal cities: A case study of Antalya

    GAMZE KIRAN

    Doktora

    Türkçe

    Türkçe

    2024

    MimarlıkAkdeniz Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. İLKNUR AKINER

  5. Priştina kent merkezi hava kalitesi ile taşıt trafiği kaynaklı hava kirliliği emisyon tahminlerinin karşılaştırılması

    An analysis of air quality in Pristina city center and its relation to traffic-derived air pollution emission

    FLAMUR SALIHU

    Doktora

    Türkçe

    Türkçe

    2024

    UlaşımNiğde Ömer Halisdemir Üniversitesi

    Ulaştırma Mühendisliği Ana Bilim Dalı

    ASSIST. ASSOCIATE PROF. DR. YUSUF KAĞAN DEMİR