Metin madenciliğinde kümeleme algoritmalarının matematiksel analizi üzerine
On mathematical analysis of clustering algorithms in text mining
- Tez No: 479618
- Danışmanlar: DOÇ. DR. BURAK ORDİN
- Tez Türü: Yüksek Lisans
- Konular: Matematik, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Veri madenciliği sınıflandırma, kümeleme, özellik çıkarımı gibi yöntemleri içeren çok boyutlu veri analizine imkan veren disiplinlerarası bir araştırma alanıdır. Bu alan içerisinde yer alan kümeleme probleminin amacı birbirleri ile benzer özellikleri olan verileri alt kümelere ayırmaktır. Ele alınan verilerin metinlerden oluştuğu durumlarda kümeleme yöntemlerini uygulamak için öncelikle dökümanların sayısal verilere çevrilmesi gerekir. Her bir dökümanın özellik matrisleri oluşturularak kümeleme algoritmalarında uygulanabilir hale getirilir. Veri boyutu çok büyük olduğunda, algoritmaların çalışma zamanları oldukça uzun olabilir. Bu yüzden doğru seçimler yaparak algoritmaların daha kısa sürede en optimal çözümü vermesi beklenir. Bu tezde metin kümeleme probleminin çözümü için k-means tabanlı kümeleme yaklaşımı kullanılmıştır. Ele alınan k-means kümeleme algoritmasının başlangıç merkez noktaları farklı yöntemlerle seçilerek kümeleme probleminin matematiksel analizi gerçekleştirilmiştir. Her bir algoritmanın uzaklık fonksiyonu hesaplanmış ve birbirleriyle kıyaslaması yapılmıştır. Gerçek veri setleri üzerinde gerçekleştirilen hesaplama denemeleri, farklı başlangıç merkez noktalarının ne şekilde farklı sonuçlar doğurduğunu ortaya koymaktadır.
Özet (Çeviri)
Text mining is an interdisciplinary research field enabling multi-dimensional data analysis including methods such as classification, clustering and feature extraction. The purpose of clustering problem, included in this field, is to sub-cluster data with similar features with each other. In cases where handled data are composed of texts, in order to apply clustering methods, documents should firstly be converted to digital data. Creating feature matrixes of each document, they are made applicable to clustering algorithms. When data size is too large, run-time of algorithms can be too long. Therefore, it is expected from algorithms to provide optimum solutions in a shorter time by making rights choices. In this thesis, the k-means based clustering approach has been used for solving the text clustering problem. The mathematical analysis of clustering problem was done by selecting starting central points of the handled k-means clustering algorithm, with various methods. Distance function of each algorithm was calculated and compared to each other. Calculation tests on real data sets appear that various starting central points lead to how different consequences.
Benzer Tezler
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN
- No-SQL veritabanları üzerinde bir metin madenciliği uygulaması
On NoSQL databases text mining application
GÜRKAN AYDIN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. METİN ZONTUL
- Veri madenciliği uygulamaları için veri indirgeme algoritmalarının geliştirilmesi ve resim madenciliğine uygulanması
Development of data reduction algorithms for data mining applications and implementation of these algorithms to image mining
ONUR İNAN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİHAT YILMAZ
- Metin madenciliğinin tarımda uygulanması
Application of text mining in agriculture
EBRU TEMİZHAN
Doktora
Türkçe
2024
BiyoistatistikÇanakkale Onsekiz Mart ÜniversitesiZootekni Ana Bilim Dalı
PROF. DR. MEHMET MENDEŞ
- Yabancı dizilerin alt yazı ve twitter yorumlarının metin madenciliği ile incelenmesi
Text mining of foreign TV series subtitles and twitter commands
ZAHİDE ÇELİKSU
Yüksek Lisans
Türkçe
2017
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. ELİF ÖZGE ÖZDAMAR