Geri Dön

Machine learning methods in natural language processing

Doğal dil işlemede makine öğrenmesi yöntemleri

  1. Tez No: 459415
  2. Yazar: BETÜL GÜVENÇ
  3. Danışmanlar: YRD. DOÇ. DR. FATİH ECEVİT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 137

Özet

Doğal dil işleme alanında çok sayıda anahtar kelime çıkarma ve metin özetleme algoritmaları vardır, bunlardan bazılarını bu tezde tartıştık. Methodları anlamak için otomatik metin özetleme üzerinde bir araştırma ile başladık. Ayrıca Word2Vec ve PageRank algoritmalarını kullanarak anahtar kelime çıkartmak için yeni ve etkili bir yöntem önerdik. Bu tezde farklı metin tipleri üzerinde, hem tek metin hem de çoklu metin özetlemede kullanılan iki farklı grafik tabanlı metin özetleme algoritmasını araştırdık, çoklu metin özetlemede LexRank ve tekli metin özetlemede TextRank kullandık. Neredeyse tüm anahtar kelime çıkartma algoritmaları vektör uzayında kelimeleri tanımlamak için yüksek boyutlu vektörler kullanır. Biz metinden otomatik anahtar kelime çıkartma problemine öngörmesiz öğrenme işi olarak yaklaştık ve metindeki her kelimeyi düşük boyutlu vektör olarak ele aldık. Word2Vec ve PageRank algoritmalarını kullanarak yeni bir anahtar kelime çıkartma yöntemi geliştirdik. Bizim sonuçlarımız gösteriyor ki özetleme algoritmalarımız haber metinleri üzerinde en iyi sonuç verirken kısa öyküler için daha az optimal sonuçlar vermektedir. Bunun yanında hukuki metinler üzerindede kullanılabilir sonuçlar elde ettik. Öte yandan, one- hot temsili ve Word2Vec temsili kullanarak bu algoritmaların verdikleri sonuçların farklarını karşılaştırdık ama biz bu yöntemler arasında anlamlı bir farklılık gözlemleyemedik.

Özet (Çeviri)

There is a large number of algorithms for keyword extraction and text summarization in natural language processing, as we discuss some of these in this thesis. We started with a survey on automatic text summarization in order to understand the state of the art methods. Also we proposed a new and efficient method for keyword extraction task using Word2Vec and PageRank algorithms. In this thesis, we investigated two different graph based text summarization algorithms for both single and multi-document settings on different types of texts where we used LexRank for multi-document summarization and TextRank for single document summarization. We also investigated a number of keyword extraction methods. Almost every keyword extraction method use high dimensional vectors to define words in a vector space. We approached the problem of automatic extraction of keywords from text as a unsupervised learning task and we treat each word in the document as a low dimensional vector. We developed a new keyword extraction method using Word2Vec and PageRank algorithms. Our results show that summarization algorithms give best result on news texts, usable results on legal texts while they give less than optimal results for short stories. On the other hand, we also compared differences in using one-hot-representation and Word2Vec representation but we observed no significant differences between these methods.

Benzer Tezler

  1. Doğal dil işlemede makine öğrenme yöntemlerinin şair tanıma problemi üzerinde kıyaslanması

    Comparison of machine learning methods in natural language processing on the poet recognition problem

    AYKHAN BAGHIROV

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOSTİM TEKNİK ÜNİVERSİTESİ

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ SEBETCİ

  2. Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı

    Use of word embedding vectors in text classification through graph conversion

    ELİF DORUKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. İLKER TÜRKER

  3. İnternet tabanlı bilgi erişimi destekli bir otomatik öğrenme sistemi

    An internet-based automatic learning system supported by information retrieval

    ERDİNÇ UZUN

    Doktora

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. ERDEM UÇAR

    Y.DOÇ.DR. YILMAZ KILIÇASLAN

  4. Doğal dil işleme alanındaki derin öğrenme modellerinin karşılaştırılması

    Comparison of deep learning models in natural language processing

    TUNA TOPAÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALTAN MESUT

  5. Multiclass analysis of automatic text classification techniques

    Otomatik metin sınıflandırma tekniklerinin çok sınıflı analizi

    SEMUEL FRANKO

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK