Doğal dil işleme ile İngilizce otomatik sözlük oluşturma

Creating english automatic dictionary with natural language processing

PDF İndir

Tez No: 577004
Yazar: AHMET TOPRAK
Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: İstanbul Ticaret Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 89

Özet

Dil sözlüğü alanındaki çalışmalar, otomatik sözlük oluşturma konusuna yoğunlaşmış durumdadır. Bu makalede başlangıç olarak verilen bir İngilizce doküman referans alınarak, makale konusuna ait sözlüğün otomatik oluşturulması sağlanmıştır. Çalışmada öncelikli olarak, referans dokümanı temsil eden anlamlı kelimeler tespit edilmiştir. Bu amaçla hem Helmholtz Prensibi hem de TF-IDF metrikleri uygulanmıştır. İlk sözlük kelimeleri bu tohum dediğimiz referans dokümanına ait anlamlı kelimelerden oluşmaktadır. Daha sonra bir döngü ile, en son işlenen dokümana ait anlamlı kelimeler kullanılarak Azure Web Cognitive Web Search sisteminde Web araması yapılmaktadır. Arama sonucu gelen ilk dokümanın, referans dokümanına da uygulandığı üzere Helmholtz Prensibi ve TF-IDF metrikleri ile anlamlı kelimeleri bulunmaktadır. Döngü esnasında bulunan anlamlı kelimeler bu sefer sözlüğe doğrudan eklenmemekte, sapmaları önlemek üzere WordNet sözlüğü kullanılarak her anlamlı kelimenin oluşmuş sözlük ile benzerliği hesaplanmaktadır. Benzerlik değerleri, belirli bir eşik değerinden yüksek olan anlamlı kelimeler sözlüğe eklenmekte ve bu kelimeler kullanılarak Web'te arama döngüsü tekrarlanmakta, nihai olarak sözlük için istenilen kelime sayısına ulaşıldığında ise sonlanmaktadır. Sözlüğün başarımını ölçmek üzere, Hash Similarity benzerlik hesaplaması yöntemi kullanılmıştır. Farklı konularda verilen referans dokümanlarla yapılan sınamalarda, Helmholtz Prensibi uygulanarak yapılan çalışmalarda ortalama % 52,50, TF-IDF metrikleri uygulanarak yapılan çalışmalarda ise % 75,2 oranında benzerliğe sahip sözlükler oluşturulabilmektedir.

Özet (Çeviri)

Studies in the area of language lexicography are focused on automatic dictionary creation. In this article, an English document is given as an initial reference. In the study, meaningful words representing the reference document were identified. For this purpose, both the Helmholtz Principle and TF-IDF metrics were applied. The first dictionary words consist of the meaningful words of the reference document we call this seed. Then, with a loop, Web search is performed in the Azure Web Cognitive Web Search system using meaningful words from the most recently processed document. The first document from the search result has meaningful words with the Helmholtz Principle and TF-IDF metrics as applied to the reference document. The meaningful words found during the cycle are not added directly to the dictionary this time, and using the WordNet dictionary to avoid deviations, the similarity of each meaningful word with the dictionary formed is calculated. The meaningful words with similarity values higher than a certain threshold value are added to the dictionary and the search cycle is repeated using these words, and finally, when the desired number of words for the dictionary is reached, it ends. Hash similarity similarity calculation method was used to measure the performance of the dictionary. In the tests carried out with reference documents given in different subjects, in the studies conducted by applying Helmholtz Principle 52,50 %, while TF-IDF metrics are applied, dictionaries with a similarity of 75,2 % can be created in the studies.

Benzer Tezler

Tez No
378406
Corpus-driven semantic relations extraction for Turkish language
Derlem tabanlı anlamsal sözlük oluşturma
TUĞBA YILDIZ
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
Tez No
389371
Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
582356
Essays on estimation methods
Tahmin yöntemleri üzerine makaleler
YASİN KÜTÜK
Doktora
İngilizce
2019
Ekonometri İstanbul Teknik Üniversitesi
İktisat Ana Bilim Dalı
PROF. DR. BÜLENT GÜLOĞLU
Tez No
880263
Turkish spoken question answering: Data generation and performance evaluation
Türkçe sesli soru cevaplama: Veri üretimi ve performans değerlendirmesi
ALİCAN ACAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR
DOÇ. DR. EBRU ARISOY SARAÇLAR
Tez No
415224
Open domain factoid question answering system
Tek yanıtlı sorular için açık alanlı soru yanıtlama sistemi
FARHAD SOLEİMANİAN GHAREHCHOPOGH
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İLYAS ÇİÇEKLİ

Geri Dön