Metin madenciliği yöntemi ile araştırma makalesi sınıflandırması
Research article classification with text mining method
- Tez No: 731278
- Danışmanlar: DOÇ. DR. ÇELEBİ ULUYOL
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Bilişim Sistemleri Bilim Dalı
- Sayfa Sayısı: 137
Özet
Bu çalışma kapsamında metin madenciliği yöntemi ile araştırma makalelerinin konularına göre sınıflandırılması amaçlanmaktadır. Çalışma için kullanılan veri seti,“Web Madenciliği”yöntemi ile Python kodu yazılarak elde edilen araştırma makalelerinden oluşmaktadır. Metin koleksiyonu, DergiPark-Akademik internet sitesindeki“Tıp”,“Sosyal”,“Temel Bilimler”ve“Mühendislik”konu başlıklarındaki 16 konu alanındaki makaleleri içermektedir. Makale verileri, yazım dili İngilizce ve Türkçe olan makaleler olmak üzere iki ayrı metin koleksiyonundan oluşturulmuştur. Metin madenciliği süreçlerinin ilk adımı olan metin koleksiyonu oluşturulduktan sonra, her iki metin verilerinin öz (abstract) bölümlerine metin ön işleme ve öz nitelik seçimi adımları uygulanmıştır. Sonrasında veri madenciliğinde kullanılan, denetimli (supervised) makine öğrenmesi sınıflandırma algoritmalarından Naive Bayes, Rastgele Orman ve Destek Vektör Makinesi algoritmaları kullanılarak makaleler konu alanlarına göre sınıflandırılmıştır. Metin madenciliğinin son adımı olan değerlendirme ve yorumlama aşamasında ise, uygulama ile her iki veri seti için algoritmaların çalışma performanslarının değerlendirilmesi ve makale yazım diline göre karşılaştırılması makine öğrenmesi performans ölçütlerine göre yapılmıştır. Araştırma bulgularına göre algoritmaların çalışma süreleri İngilizce ve Türkçe veri setleri için birbirine yakın süreler olup; en hızlı çalışan algoritma Naive Bayes iken en yavaş çalışan algoritma Destek Vektör Makinesi olmuştur. Her iki yazım dilindeki algoritma sonuçları birbirine yakın değerler olmakla birlikte genellikle en iyi sınıflandırma başarısına sahip algoritma Destek Vektör Makinesidir.
Özet (Çeviri)
Within the scope of this thesis, it is aimed to classify the research articles according to their subjects with the text mining method. The data set used for the study consists of research articles that obtained by writing Python code with a state of the art web mining method. The collection of texts includes articles in 16 subject areas under the titles of“Medicine”,“Social”,“Basic Sciences”and“Engineering”on the DergiPark-Academic website. The article data was created from two separate text collections: Articles written in English and Turkish. After creating the text collection, which is the first step of the text mining processes, text preprocessing and feature selection steps were applied to the abstract parts of both text data. Then, the articles were classified according to their subject areas by employing Naive Bayes, Random Forest and Support Vector Machine algorithms from supervised machine learning classification algorithms used in data mining. In the evaluation and interpretation stage, which is the last step of text mining, evaluation of the performance of algorithms for both data sets and comparison according to article writing language was made according to the machine learning performance criteria with the application. According to the research results, the working times of the algorithms were close to each other for the English and Turkish data sets. The fastest running algorithm is Naive Bayes while the slowest running algorithm is Support Vector Machine. On the other hand, Support Vector Machine dominates with the best accuracy result among others. Algorithm performance in both Turkish and English languages do not differ remarkably in terms of accuracy and speed.
Benzer Tezler
- Halkla ilişkiler 2.0 kapsamında hedef belirleme ve ölçme sorunsalına bakış: Alternatif bir yöntem olarak veri madenciliğinin kullanılmasına yönelik örnek bir uygulama
Overview of the goal setting and measurement problem under public relations 2.0: A samle application for using data as an alternative method
HIDIR POLAT
Doktora
Türkçe
2021
Halkla İlişkilerAtatürk ÜniversitesiHalkla İlişkiler ve Tanıtım Ana Bilim Dalı
PROF. DR. DERYA ÖCAL
- COVID-19 pandemi sürecinde Milli Eğitim Bakanı'nın Twitter mesajlarının metin madenciliği yöntemiyle incelenmesi
Examining the Twitter messages of the Minister of National Education with the text mining method during the COVID-19 pandemic process
EMİNE İÇÖZ
Yüksek Lisans
Türkçe
2021
Eğitim ve ÖğretimAkdeniz ÜniversitesiÖlçme ve Değerlendirme Ana Bilim Dalı
DOÇ. DR. ALPER SİNAN
- A text mining analysis of Central Bank communication: An application to emerging market Central Banks
Merkez Bankası iletişiminin metin madenciliği yöntemi ile analizi: Gelişmekte olan ülkelerin Merkez Bankalarına uygulaması
ERSİN GÜVEN
Yüksek Lisans
İngilizce
2022
İşletmeTOBB Ekonomi ve Teknoloji Üniversitesiİşletme Ana Bilim Dalı
PROF. DR. TURALAY KENÇ
- Examination of the postgraduate theses written on education management in Turkey by text mining method
Türkiye'de eğitim yönetimi alanında yazılan lisansüstü tezlerin metin madenciliği yöntemi ile incelenmesi
FİLİZ ŞEN
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimBahçeşehir ÜniversitesiEğitim Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERGÜN AKGÜN
- Pazarlama alanındaki uluslararası akademik dergilerin metin madenciliği yöntemi ile değerlendirilmesi
Evaluation of international academic journals in marketing with text mining method
DİLEK AK
Yüksek Lisans
Türkçe
2019
İşletmeSakarya Üniversitesiİşletme Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HALİL İBRAHİM CEBECİ