Geri Dön

Metin madenciliği yöntemi ile araştırma makalesi sınıflandırması

Research article classification with text mining method

  1. Tez No: 731278
  2. Yazar: TUĞBA GÜRBÜZ
  3. Danışmanlar: DOÇ. DR. ÇELEBİ ULUYOL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Bilişim Sistemleri Bilim Dalı
  13. Sayfa Sayısı: 137

Özet

Bu çalışma kapsamında metin madenciliği yöntemi ile araştırma makalelerinin konularına göre sınıflandırılması amaçlanmaktadır. Çalışma için kullanılan veri seti,“Web Madenciliği”yöntemi ile Python kodu yazılarak elde edilen araştırma makalelerinden oluşmaktadır. Metin koleksiyonu, DergiPark-Akademik internet sitesindeki“Tıp”,“Sosyal”,“Temel Bilimler”ve“Mühendislik”konu başlıklarındaki 16 konu alanındaki makaleleri içermektedir. Makale verileri, yazım dili İngilizce ve Türkçe olan makaleler olmak üzere iki ayrı metin koleksiyonundan oluşturulmuştur. Metin madenciliği süreçlerinin ilk adımı olan metin koleksiyonu oluşturulduktan sonra, her iki metin verilerinin öz (abstract) bölümlerine metin ön işleme ve öz nitelik seçimi adımları uygulanmıştır. Sonrasında veri madenciliğinde kullanılan, denetimli (supervised) makine öğrenmesi sınıflandırma algoritmalarından Naive Bayes, Rastgele Orman ve Destek Vektör Makinesi algoritmaları kullanılarak makaleler konu alanlarına göre sınıflandırılmıştır. Metin madenciliğinin son adımı olan değerlendirme ve yorumlama aşamasında ise, uygulama ile her iki veri seti için algoritmaların çalışma performanslarının değerlendirilmesi ve makale yazım diline göre karşılaştırılması makine öğrenmesi performans ölçütlerine göre yapılmıştır. Araştırma bulgularına göre algoritmaların çalışma süreleri İngilizce ve Türkçe veri setleri için birbirine yakın süreler olup; en hızlı çalışan algoritma Naive Bayes iken en yavaş çalışan algoritma Destek Vektör Makinesi olmuştur. Her iki yazım dilindeki algoritma sonuçları birbirine yakın değerler olmakla birlikte genellikle en iyi sınıflandırma başarısına sahip algoritma Destek Vektör Makinesidir.

Özet (Çeviri)

Within the scope of this thesis, it is aimed to classify the research articles according to their subjects with the text mining method. The data set used for the study consists of research articles that obtained by writing Python code with a state of the art web mining method. The collection of texts includes articles in 16 subject areas under the titles of“Medicine”,“Social”,“Basic Sciences”and“Engineering”on the DergiPark-Academic website. The article data was created from two separate text collections: Articles written in English and Turkish. After creating the text collection, which is the first step of the text mining processes, text preprocessing and feature selection steps were applied to the abstract parts of both text data. Then, the articles were classified according to their subject areas by employing Naive Bayes, Random Forest and Support Vector Machine algorithms from supervised machine learning classification algorithms used in data mining. In the evaluation and interpretation stage, which is the last step of text mining, evaluation of the performance of algorithms for both data sets and comparison according to article writing language was made according to the machine learning performance criteria with the application. According to the research results, the working times of the algorithms were close to each other for the English and Turkish data sets. The fastest running algorithm is Naive Bayes while the slowest running algorithm is Support Vector Machine. On the other hand, Support Vector Machine dominates with the best accuracy result among others. Algorithm performance in both Turkish and English languages do not differ remarkably in terms of accuracy and speed.

Benzer Tezler

  1. Halkla ilişkiler 2.0 kapsamında hedef belirleme ve ölçme sorunsalına bakış: Alternatif bir yöntem olarak veri madenciliğinin kullanılmasına yönelik örnek bir uygulama

    Overview of the goal setting and measurement problem under public relations 2.0: A samle application for using data as an alternative method

    HIDIR POLAT

    Doktora

    Türkçe

    Türkçe

    2021

    Halkla İlişkilerAtatürk Üniversitesi

    Halkla İlişkiler ve Tanıtım Ana Bilim Dalı

    PROF. DR. DERYA ÖCAL

  2. COVID-19 pandemi sürecinde Milli Eğitim Bakanı'nın Twitter mesajlarının metin madenciliği yöntemiyle incelenmesi

    Examining the Twitter messages of the Minister of National Education with the text mining method during the COVID-19 pandemic process

    EMİNE İÇÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimAkdeniz Üniversitesi

    Ölçme ve Değerlendirme Ana Bilim Dalı

    DOÇ. DR. ALPER SİNAN

  3. A text mining analysis of Central Bank communication: An application to emerging market Central Banks

    Merkez Bankası iletişiminin metin madenciliği yöntemi ile analizi: Gelişmekte olan ülkelerin Merkez Bankalarına uygulaması

    ERSİN GÜVEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    İşletmeTOBB Ekonomi ve Teknoloji Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. TURALAY KENÇ

  4. Examination of the postgraduate theses written on education management in Turkey by text mining method

    Türkiye'de eğitim yönetimi alanında yazılan lisansüstü tezlerin metin madenciliği yöntemi ile incelenmesi

    FİLİZ ŞEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimBahçeşehir Üniversitesi

    Eğitim Yönetimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERGÜN AKGÜN

  5. Pazarlama alanındaki uluslararası akademik dergilerin metin madenciliği yöntemi ile değerlendirilmesi

    Evaluation of international academic journals in marketing with text mining method

    DİLEK AK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İşletmeSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HALİL İBRAHİM CEBECİ