Akademik makalelerde anahtar kelime çıkarımı için yeni yaklaşımlar
New approaches for keyword extraction in academic articles
- Tez No: 789887
- Danışmanlar: DR. ÖĞR. ÜYESİ ALEV MUTLU
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 111
Özet
Anahtar kelimeler, bir metni en iyi tanımlayan kelime ya da kelime öbekleridir. Anahtar kelimeler birçok Doğal Dil İşleme (DDİ) probleminin çözümünde etkin bir şekilde kullanılmaktadır. Çevrim içi metin sayısındaki artışla beraber metinlerden anahtar kelimelerin otomatik olarak elde edilmesi problemi ortaya çıkmıştır. Anahtar kelime çıkarma yöntemleri denetimli ve denetimsiz öğrenme yaklaşımları olmak üzere iki temel sınıfa ayrılmaktadır. Denetimsiz öğrenmeye dayalı yöntemler etki alanından bağımsız olması ve eğitim verisine ihtiyaç duyulmaması açısından öne çıkmaktadır. Denetimli öğrenmeye dayalı yöntemler denetimsiz öğrenmeye dayalı yöntemlere göre daha güçlü bir öğrenme modeli sunar ve genellikle daha yüksek başarıma sahiptir. Bu tez kapsamında anahtar kelime çıkarma probleminin çözümü için üç farklı yöntem önerilmiştir. Geliştirilen ilk yöntemde denetimsiz öğrenmeye dayalı çizge tabanlı bir yaklaşım benimsenmiştir. MGRank olarak adlandırılan bu yöntem çok kenarlı tam çizge model yapısını kullanmaktadır. Çizgede kenar ağırlıkları aday anahtar kelimelerin arasındaki mesafeye, düğüm ağırlıkları aday anahtar kelimelerin metin içerisindeki konumlarına göre belirlenmektedir. SkyWords olarak adlandırılan ikinci yöntem denetimli ve denetimsiz öğrenme modellerini birleştiren hibrit bir anahtar kelime çıkarma yöntemidir. SkyWords, Skyline operatörü ve çoğunluk oylama prensibinden faydalanarak yüksek kalitede aday anahtar kelimelerin belirlenmesini sağlar. SkyWords metin ile aday anahtar kelimelerin arasındaki anlamsal benzerliğe göre anahtar kelimeleri belirler. SkyRank olarak adlandırılan üçüncü yöntem ise denetimsiz öğrenmeye dayalı istatistiksel bir yaklaşıma sahiptir. SkyRank girdi olarak bir metin alır ve Skyline operatörü yardımıyla aday anahtar kelimeleri tespit eder. SkyRank anahtar kelimeleri metne en çok benzeyen aday anahtar kelimelerden seçer. Geliştirilen yöntemler akademik makalelerden oluşturulmuş veri kümeleri ile test edilmiştir. Yöntemlerin başarısı literatürde yer alan çeşitli yöntemlerle karşılaştırılmıştır. Karşılaştırmada kesinlik, duyarlılık, F1-Skor, MRR ve MAP ölçütleri kullanılmıştır. Geliştirilen yöntemlerin diğer yöntemlere göre başarılı olduğu görülmüştür.
Özet (Çeviri)
Keywords are words or phrases that describe a text. Keywords are used effectively in solving many Natural Language Processing (NLP) problems. With the increasing number of online texts, the problem of automatically extracting keywords from texts has emerged. Keyword extraction methods are divided into two basic classes: supervised and unsupervised learning approaches. Unsupervised learning-based methods are characterized by the fact that they are independent of the domain and do not require training data. Supervised learning-based methods provide a stronger learning model and generally perform better than unsupervised learning-based methods. In this thesis, three different methods were proposed to solve the problem of keyword extraction. In the first method developed, a graph-based approach based on unsupervised learning was adopted. This method, called MGRank, uses a parallel complete graph model structure. In the graph, edge weights are determined according to the distance between candidate keywords, and node weights are determined according to the positions of candidate keywords in the text. The second method, called SkyWords, is a hybrid keyword extraction method that combines supervised and unsupervised learning models. SkyWords uses the Skyline operator and the principle of majority voting to identify high-quality candidate keywords. SkyWords determines keywords based on semantic similarity between text and candidate keywords. The third method, SkyRank, uses a statistical approach based on unsupervised learning. SkyRank takes a text as input and identifies candidate keywords using the Skyline operator. SkyRank selects the keywords that are most similar to the text from the candidate keywords. The developed methods were tested with datasets created from academic articles. The success of the methods was compared with different methods from the literature. Precision, recall, F1-Score, MRR and MAP criteria were used for comparison. The methods were found to be successful compared to other methods.
Benzer Tezler
- Derin öğrenme yöntemiyle akademik makaleler için anahtar kelime çıkarımı
Keyword extraction for academic papers by deep learning method
GİZEM ÇAY
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET KAYA
- Türkçe metinlerdeki birliktelik analizi
Analysis of association in Turkish texts
ÖMER FARUK ACAR
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. BURHAN SELÇUK
- İlkokullarda eğitim alan yabancı uyruklu öğrenciler ile ilgili yapılan akademik çalışmalar üzerine bir inceleme
A descriptive study for research on foreign students in primary schools
HİLAL YILMAZ
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimTrabzon ÜniversitesiTemel Eğitim Ana Bilim Dalı
PROF. DR. LALE CERRAH ÖZSEVGEÇ
- Matematik eğitiminde eğitsel oyun kullanımına yönelik çalışmaların ve eğitsel oyun türlerinin sistematik derleme yöntemi ile incelenmesi
Systematic review of studies on the use of educational games in mathematics education and educational game types
ŞEYMA NUR AKAR İNCE
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimNecmettin Erbakan ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. BİLGE PEKER
- Sinecine: Sinema Araştırmaları Dergisi'nin bibliyometrik analizi (2010-2022)
Bibliometric analysis of the sinecine: Journal of Film Studies (2010-2022)
ENİS MELİH ELİAÇIK
Yüksek Lisans
Türkçe
2024
İletişim BilimleriSivas Cumhuriyet ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
DOÇ. OZAN ÖZPAY