Geri Dön

Investigation of text mining methods on Turkish text

Türkçe metinler üzerinde metin madenciliği yöntemlerinin incelenmesi

  1. Tez No: 528739
  2. Yazar: EZGİ PASİN
  3. Danışmanlar: DOÇ. DR. SEDAT ÇAPAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 76

Özet

Günümüzde internetin yaygın kullanılması ile birlikte verilerin boyutu ve değeri artmıştır. Büyük miktarlardaki verilerden anlamlı bilgi çıkarmak kişi ve firmalar için diğerlerinden bir adım öne geçmektir. Verilerden anlamlı bilgilerin elde edilmesi için çeşitli madencilik teknikleri uygulanmalıdır. Veri madenciliği yapısal veriler üzerinde işlem yapar. Veri madenciliğinin, metinler üzerinde çalışan alt çalışma alanı ise metin madenciliğidir. Metin madenciliği, özel amaçlar için metinlerden değerli bilgiler çıkarmak adına metnin analiz edilmesi işlemidir. Metin madenciliği teknikleri uygulanmadan önce verilerin hazırlanması ve ön işlemden geçirilmesi gerekmektedir. Metinlerden anlamlı bilgi çıkarmak, metni sınıflandırmak, aranan bilgiye kısa sürede ulaşmak metin madenciliğinin önemini arttırmıştır. Metin sınıflandırma, önceden tanımlanmış kategorilere eğitim dokümanlarını kullanarak verilen metnin sınıfına karar vermesi işlemidir. Tezde amaç, metin halindeki Türkçe verilerin sınıflandırılmasıdır. Kategoriler“Cinsiyet Tanımlama”,“Yazar Tanımlama”ve“Tür Belirleme”olmak üzere üç kategoride incelenmiştir. Sınıflandırma yapılırken Naive Bayes metot ve bit skor ağırlıklandırılmış k-NN metot kullanılmıştır. İki metodun doğruluk oranları kıyaslanmıştır. Sınıflandırma için R programlama dili kullanılmıştır. Bu tezde metin sınıflandırılması üzerine çalışmak için Türkçe köşe yazılarından oluşan bir veri kümesi oluşturulmuştur.

Özet (Çeviri)

Today, with the widespread use of the internet the size and value of the data have increased. Making meaningful information from large amounts of data is one step ahead for others and for companies. Various mining techniques must be applied to obtain meaningful information from the data. Data mining processes on structured data. Text mining is the sub-study area of data mining that works on texts. Text mining is the process of analyzing text to extract valuable information from text for special purposes. Before the text mining techniques are applied, the data must be prepared and pre-processed. Extracting meaningful information from texts, classifying text, and reaching the desired information in a short time increase the importance of text mining. Text classification is the process of deciding the class of the given text using the training documents for the predefined categories. The aim in thesis is to classify Turkish data as text. The categories were examined in three categories as“Gender Identification”,“Author Identification”and“Species Determination”. Naive Bayes method and the bit-score weighting k-NN method were used for classification. The accuracy rates of the two methods are compared. The R programming language is used for classification. In this thesis, a dataset consisting of Turkish columns was created to work on text classification.

Benzer Tezler

  1. Metin madenciliği yöntemleri ile 1991-2021 yılları arasında zootekni alanında yazılan tezlerin incelenmesi

    Investigation of thesis written in the field of zootechnics between text mining methods and the years of 1991-2021

    FATİH CAMCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    ZiraatVan Yüzüncü Yıl Üniversitesi

    Zootekni Ana Bilim Dalı

    PROF. DR. ABDULLAH YEŞİLOVA

  2. Sağlıkla ilgili sosyal medya forum verilerinde içeriğinin bilgilendirici özellikleri: İlaç yan etkilerinin araştırılması üzerine bir çalışma

    Informational characteristics of health-related social media content: A study on the investigation of drug side effects

    ALKAN KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Okan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR YILDIRIM

  3. Sağlık bilimleri araştırmalarında kullanılan istatistiksel yöntemlerin metin madenciliği ile incelenmesi

    Investigation of statistical methods used in health sciences research using text mining

    ÖZEN TAŞTAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. BÜLENT ÇELİK

  4. Ekonomi haberlerinin BİST 100 Endeksine etkisinin veri madenciliği ile incelenmesi

    Investigation of the effects of economic news on BIST 100 Index by using data mining

    ÖZLEM ALPAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilim ve TeknolojiFırat Üniversitesi

    Teknoloji ve Bilgi Yönetimi Ana Bilim Dalı

    YRD. DOÇ. DR. CEM AYDEN

  5. Sosyal medya ve yatırım araçlarının değeri arasındaki ilişkinin incelenmesi: Bitcoin örneği

    Investigation of the relationship between social media and investing behavior: Bitcoin

    MUSTAFA POLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    EkonometriSakarya Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ADEM AKBIYIK