Makine öğrenmesi ile Türkçe haber metinlerinde anahtar ifade çıkarımı
Keyphrase extraction for Turkish news text with machine learning methods
- Tez No: 300167
- Danışmanlar: YRD. DOÇ. DR. ERDEM UÇAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: Trakya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Sayısal kaynakların çokluğu ve genel ağda (internet) yaşanan gelişmeler, üretilen bilgi miktarında artış yaşanması sonucunu doğurmaktadır. Bilgi erişimi, ulaşılmak istenen bilgi kaynaklarının düzenlenmesi, istenildiğinde bilgiye en kısa zamanda ve en kolay şekilde ulaşılmasının sağlanması ile ilgilenen bir araştırma konusudur.Metin işleme; bilgi erişiminin önemli konuları arasındadır. Ayrıca, ses ve görüntü gibi bilgi kaynaklarına erişim konuları da ilgili çalışmalar arasında yer almaktadır. Metin işlemenin alt konuları arasında ise, metnin özetlenmesi, metni karakterize edecek anahtar ifadelerin belirlenmesi gibi uygulamalar bulunmaktadır.Anahtar ifade, bir metnin içeriğini özetleyen anlamsal kelime ya da kelimeler topluluğudur. Anahtar ifade ile, bir metnin tamamının okunmasına gerek kalmayacak şekilde metnin içeriği hakkında fikir sahibi olunması amaçlanmaktadır. Otomatik anahtar ifade çıkarımı ise, insan eliyle çıkarılan anahtar ifadelere en yakın anahtar ifadelerin bulunması işlemidir.Otomatik anahtar ifade çıkarımı alanında hâlen açık kaynak kodlu yazılım olan KEA (Keyphrase Extraction Algorithm) algoritması ile İngilizce, İspanyolca ve Fransızca dilleri için yapılmış yazılımlar sıkça kullanılmaktadır. Kea algoritması, bir metin üzerinde sözcüksel yöntemler kullanılarak aday anahtar ifadelerin belirlenmesi, her aday ifade için özellik değerlerinin hesaplanması ve ardından makine öğrenme yöntemlerini kullanarak aday ifadeler arasından uygun olanın seçimi adımlarından oluşur.Bu çalışmada da Türkçe haber metinlerinden elde edilen eğitim ve test verileri kullanılarak, KEA algoritması ile ve ilave bir özellik eklenerek oluşturulan KEA-SPR algoritması ile uygulama geliştirilmiş, ilave edilen özellik için performans karşılaştırılması yapılmıştır.
Özet (Çeviri)
The abundance of digital sources and developments in the general network (internet) have resulted in the increase in the amount of produced information. Information retrieval is a research subject dealing with the organization of information sources to be reached and with providing information easily and as soon as possible if required.Especially text processing and additionally studies about the subjects concerning the access to information sources such as sound and video have taken part among the subjects of information retrieval. In addition, implementations such as summarization of text, determination of the keyphrases to characterize the text have taken part among the sub-questions of text processing.Keyphrase is a semantic word or phrase summarizing the content of a text. By using keyphrases, it is aimed to have an opinion about the content of a text without reading it completely. Automatic keyphrase extraction is deducing the most proximate keyphrases to the one inferred by people.It is still possible to encounter frequently the use of software designed for English, Spanish and French languages with the open source software KEA (Keyphrase Extraction Algorithm) on the subject of automatic keyphrases extraction. The Kea algorithm consists of determining the candidate keyphrases on a text by using lexical methods, calculating the feature value for each candidate and then choosing the most convenient candidate among the candidate phrases by using machine learning methods.In this study, the application has been developed through the KEA algorithm and KEA-SPR algorithm constituted with an additional feature by using the data of education and test obtained from Turkish news texts and also the performance comparison has been made for the additional feature.
Benzer Tezler
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ
- İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Makine öğrenmesi kullanarak doküman sınıflandırma
Document classification using machine learning
GÜLER ALPARSLAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
PROF. DR. MAHİR DURSUN
- COVID-19 salgını sürecinde duygu skorlarının ve teknik indikatörlerin kullanılmasıyla bist 100 endeksi trend tahmini
Predicting bist 100 index movement by using sentiment scores and technical indicators during the COVID-19 pandemic
MELTEM ALACA
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN