Graph-based keyword extraction method for scientific publications
Bilimsel yayınlar için grafik tabanlı anahtar kelime çıkartma yönetemi
- Tez No: 763012
- Danışmanlar: YRD. DOÇ. DR. ARZU KAKIŞIM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Ticaret Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 33
Özet
Her geçen gün artan teknolojik imkanlar nedeniyle üretilen veri hacmi hızla artmaktadır. Bu nedenle, verileri okumak ve analiz etmek çok zaman alan bir iş haline geldi. Birçok metin dosyası metnin içeriğini kısaca açıklayan anahtar kelimeler içermediğinden, metnin içeriğini anlamak için tüm belgeyi incelemek gerekir. Bu doğrultuda, anahtar kelime çıkarma yaklaşımlarını kullanarak metin özetleme sürecini otomatikleştirmeyi amaçlayan birçok yöntem sunulmaktadır. Son zamanlarda makine öğrenmesi, derin öğrenme ve konu modelleri gibi farklı yaklaşımları temel alan denetimli ve denetimsiz olmak üzere iki farklı yaklaşıma sahip olan anahtar kelime çıkarma yöntemleri önerilmiştir. Önerilen bu yöntemlerin çoğu, verilen metinden en alakalı kelimeleri ve cümleleri çıkarmayı amaçlamaktadır. Ancak bilimsel yayınlarda makaleyi sınırlı sayıda anahtar kelime ile ifade etmek çoğu zaman zordur. Bazen içerik olarak benzer iki bilimsel yayının anahtar kelimeleri arasında ortak bir kelime veya kelime öbeği görülmez. Bu durumuda yazıda görünmeyen ancak yazının bağlamıyla ilgili anahtar kelimelerin oluşturulması, yazılar arasındaki bağlamsal benzerliğin ortaya çıkarılması açısından oldukça önemlidir. Bu çalışmada, bilimsel makaleler için graf tabanlı denetimsiz anahtar kelime çıkarma ve önerme yaklaşımı sunulmaktadır. Önerilen yöntem, akademik yayınları girdi olarak almakta ve bu yayınlarda sıklıkla gözlenen n-gramları içeren bir ilişki kelime grafiği oluşturmaktadır. Benzer şekilde yeni gelen bir akademik yayın için n-gramlar üretmekte, ve bu n-gramlarla eşleşen graf düğümleri üzerinden rastgele yürüyüşler gerçekleştirerek, n-gram dizileri elde etmektedir. Yöntemimiz, üretilen farklı sayıda n-gram dizisinde en sık gözlenen n-gramları anahtar sözcükler olarak seçmektedir. Yöntemimize ait deneysel sonuçlar, iki farklı veriseti üzerinde sekiz farklı yöntemle karşılaştırılarak sunulmuştur.
Özet (Çeviri)
Due to the increasing technological possibilities day by day, the volume of data produced is increasing rapidly. Therefore, reading and analyzing data has become a very time-consuming task. Since many text files do not contain keywords that briefly describe the content of the text, it is necessary to examine an entire document to understand the text's content. In this direction, many methods that aim to automate the text summarization process using keyword extraction approaches are presented. Recently, keyword extraction approaches, which are based on different approaches such as machine learning, deep learning, and topic models, and which have two different manners, supervised and unsupervised, have been proposed. Most of these proposed methods aim to extract the most relevant words and phrases from the given text. However, in scientific publications, it is often difficult to express the paper with a limited number of keywords. Sometimes no common words or phrases are observed between the keywords of two scientific publications that are similar in content. In this case, the creation of keywords that are not visible in the paper but related to the context of the paper is very important in terms of revealing the contextual similarity between the papers. In this study, a graph-based unsupervised keyword extraction approach for scientific papers is presented. The proposed method takes academic publications as input and creates an association word graph containing the n-grams that are frequently observed in these publications. It similarly generates n-grams for a newly coming paper, selects the specific nodes from the graph that matches the n-grams generated for the new paper, and performs random walks over these selected nodes to obtain different n-gram sequences. Our method selects the most frequently observed n-grams as keywords from the different number of generated n-gram sequences. Experimental results are presented by comparing our method with eight different methods using three different datasets.
Benzer Tezler
- Bilimsel makaleler üzerinde çıkarımsal metin özetleme yaklaşımlarını ve algoritmalarını analiz etmek ve karşılaştırmak için çok ölçütlü bir model
A multi-metric model for analyzing and comparing extractive text summarization approaches and algorithms on scientific papers
MEHMET ALİ DURSUN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKütahya Dumlupınar ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SOYDAN SERTTAŞ
- Machine learning methods in natural language processing
Doğal dil işlemede makine öğrenmesi yöntemleri
BETÜL GÜVENÇ
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
YRD. DOÇ. DR. FATİH ECEVİT
- Akademik makalelerde anahtar kelime çıkarımı için yeni yaklaşımlar
New approaches for keyword extraction in academic articles
FURKAN GÖZ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALEV MUTLU
- Automating summarizing based on sentence extraction:Two different statistical approaches
Cümle çıkarımı bazında otomatik metin özetleme: İki farklı istatistiksel yaklaşım
ŞAKİR DOLGUN
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TATYANA YAKHNO
- Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Task based management of user queries for effective query suggestions
NURULLAH ATEŞ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN