Geri Dön

Metin madenciliğinde kümeleme algoritmalarının matematiksel analizi üzerine

On mathematical analysis of clustering algorithms in text mining

  1. Tez No: 479618
  2. Yazar: OĞUZCAN ULUDAĞ
  3. Danışmanlar: DOÇ. DR. BURAK ORDİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Matematik, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Veri madenciliği sınıflandırma, kümeleme, özellik çıkarımı gibi yöntemleri içeren çok boyutlu veri analizine imkan veren disiplinlerarası bir araştırma alanıdır. Bu alan içerisinde yer alan kümeleme probleminin amacı birbirleri ile benzer özellikleri olan verileri alt kümelere ayırmaktır. Ele alınan verilerin metinlerden oluştuğu durumlarda kümeleme yöntemlerini uygulamak için öncelikle dökümanların sayısal verilere çevrilmesi gerekir. Her bir dökümanın özellik matrisleri oluşturularak kümeleme algoritmalarında uygulanabilir hale getirilir. Veri boyutu çok büyük olduğunda, algoritmaların çalışma zamanları oldukça uzun olabilir. Bu yüzden doğru seçimler yaparak algoritmaların daha kısa sürede en optimal çözümü vermesi beklenir. Bu tezde metin kümeleme probleminin çözümü için k-means tabanlı kümeleme yaklaşımı kullanılmıştır. Ele alınan k-means kümeleme algoritmasının başlangıç merkez noktaları farklı yöntemlerle seçilerek kümeleme probleminin matematiksel analizi gerçekleştirilmiştir. Her bir algoritmanın uzaklık fonksiyonu hesaplanmış ve birbirleriyle kıyaslaması yapılmıştır. Gerçek veri setleri üzerinde gerçekleştirilen hesaplama denemeleri, farklı başlangıç merkez noktalarının ne şekilde farklı sonuçlar doğurduğunu ortaya koymaktadır.

Özet (Çeviri)

Text mining is an interdisciplinary research field enabling multi-dimensional data analysis including methods such as classification, clustering and feature extraction. The purpose of clustering problem, included in this field, is to sub-cluster data with similar features with each other. In cases where handled data are composed of texts, in order to apply clustering methods, documents should firstly be converted to digital data. Creating feature matrixes of each document, they are made applicable to clustering algorithms. When data size is too large, run-time of algorithms can be too long. Therefore, it is expected from algorithms to provide optimum solutions in a shorter time by making rights choices. In this thesis, the k-means based clustering approach has been used for solving the text clustering problem. The mathematical analysis of clustering problem was done by selecting starting central points of the handled k-means clustering algorithm, with various methods. Distance function of each algorithm was calculated and compared to each other. Calculation tests on real data sets appear that various starting central points lead to how different consequences.

Benzer Tezler

  1. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN

  2. No-SQL veritabanları üzerinde bir metin madenciliği uygulaması

    On NoSQL databases text mining application

    GÜRKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. METİN ZONTUL

  3. Veri madenciliği uygulamaları için veri indirgeme algoritmalarının geliştirilmesi ve resim madenciliğine uygulanması

    Development of data reduction algorithms for data mining applications and implementation of these algorithms to image mining

    ONUR İNAN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NİHAT YILMAZ

  4. Metin madenciliğinin tarımda uygulanması

    Application of text mining in agriculture

    EBRU TEMİZHAN

    Doktora

    Türkçe

    Türkçe

    2024

    BiyoistatistikÇanakkale Onsekiz Mart Üniversitesi

    Zootekni Ana Bilim Dalı

    PROF. DR. MEHMET MENDEŞ

  5. Yabancı dizilerin alt yazı ve twitter yorumlarının metin madenciliği ile incelenmesi

    Text mining of foreign TV series subtitles and twitter commands

    ZAHİDE ÇELİKSU

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. ELİF ÖZGE ÖZDAMAR