Machine learning methods in natural language processing

Doğal dil işlemede makine öğrenmesi yöntemleri

PDF İndir

Tez No: 459415
Yazar: BETÜL GÜVENÇ
Danışmanlar: YRD. DOÇ. DR. FATİH ECEVİT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2016
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 137

Özet

Doğal dil işleme alanında çok sayıda anahtar kelime çıkarma ve metin özetleme algoritmaları vardır, bunlardan bazılarını bu tezde tartıştık. Methodları anlamak için otomatik metin özetleme üzerinde bir araştırma ile başladık. Ayrıca Word2Vec ve PageRank algoritmalarını kullanarak anahtar kelime çıkartmak için yeni ve etkili bir yöntem önerdik. Bu tezde farklı metin tipleri üzerinde, hem tek metin hem de çoklu metin özetlemede kullanılan iki farklı grafik tabanlı metin özetleme algoritmasını araştırdık, çoklu metin özetlemede LexRank ve tekli metin özetlemede TextRank kullandık. Neredeyse tüm anahtar kelime çıkartma algoritmaları vektör uzayında kelimeleri tanımlamak için yüksek boyutlu vektörler kullanır. Biz metinden otomatik anahtar kelime çıkartma problemine öngörmesiz öğrenme işi olarak yaklaştık ve metindeki her kelimeyi düşük boyutlu vektör olarak ele aldık. Word2Vec ve PageRank algoritmalarını kullanarak yeni bir anahtar kelime çıkartma yöntemi geliştirdik. Bizim sonuçlarımız gösteriyor ki özetleme algoritmalarımız haber metinleri üzerinde en iyi sonuç verirken kısa öyküler için daha az optimal sonuçlar vermektedir. Bunun yanında hukuki metinler üzerindede kullanılabilir sonuçlar elde ettik. Öte yandan, one- hot temsili ve Word2Vec temsili kullanarak bu algoritmaların verdikleri sonuçların farklarını karşılaştırdık ama biz bu yöntemler arasında anlamlı bir farklılık gözlemleyemedik.

Özet (Çeviri)

There is a large number of algorithms for keyword extraction and text summarization in natural language processing, as we discuss some of these in this thesis. We started with a survey on automatic text summarization in order to understand the state of the art methods. Also we proposed a new and efficient method for keyword extraction task using Word2Vec and PageRank algorithms. In this thesis, we investigated two different graph based text summarization algorithms for both single and multi-document settings on different types of texts where we used LexRank for multi-document summarization and TextRank for single document summarization. We also investigated a number of keyword extraction methods. Almost every keyword extraction method use high dimensional vectors to define words in a vector space. We approached the problem of automatic extraction of keywords from text as a unsupervised learning task and we treat each word in the document as a low dimensional vector. We developed a new keyword extraction method using Word2Vec and PageRank algorithms. Our results show that summarization algorithms give best result on news texts, usable results on legal texts while they give less than optimal results for short stories. On the other hand, we also compared differences in using one-hot-representation and Word2Vec representation but we observed no significant differences between these methods.

Benzer Tezler

Tez No
878867
Doğal dil işlemede makine öğrenme yöntemlerinin şair tanıma problemi üzerinde kıyaslanması
Comparison of machine learning methods in natural language processing on the poet recognition problem
AYKHAN BAGHIROV
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol OSTİM TEKNİK ÜNİVERSİTESİ
Yazılım Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ SEBETCİ
Tez No
824704
Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı
Use of word embedding vectors in text classification through graph conversion
ELİF DORUKBAŞI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. İLKER TÜRKER
Tez No
928432
Doğal dil işlemede destek vektör makineleri
Support vector machines in natural language processing
UĞURCAN DEMİR
Yüksek Lisans
Türkçe
2024
İstatistik Ege Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. ÖZGE ELMASTAŞ GÜLTEKİN
Tez No
199972
İnternet tabanlı bilgi erişimi destekli bir otomatik öğrenme sistemi
An internet-based automatic learning system supported by information retrieval
ERDİNÇ UZUN
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Trakya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. ERDEM UÇAR
Y.DOÇ.DR. YILMAZ KILIÇASLAN
Tez No
883233
Doğal dil işleme alanındaki derin öğrenme modellerinin karşılaştırılması
Comparison of deep learning models in natural language processing
TUNA TOPAÇ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Trakya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALTAN MESUT

Geri Dön