Büyük veri araçlarından Hadoop kullanarak veri madenciliği

Data mining using Hadoop big data tool

PDF İndir

Tez No: 450617
Yazar: MEHMET UMUT SALUR
Danışmanlar: DOÇ. DR. SEZAİ TOKAT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2016
Dil: Türkçe
Üniversite: Pamukkale Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 102

Özet

Bu tez çalışması kapsamında günümüzde çok önemli bir konu haline gelen büyük verinin işlenmesi incelenmiştir. Büyük veriden anlamlı bilgiler çıkarmak günümüz hem özel sektör hem de kamu alanı için önemli bir konudur. Bu nedenle birçok kuruluş bu alan için ciddi yatırımlar yapmaktadır. Büyük veri genellikle yapısal olmayan verilerden oluşmaktadır. Yapısal olmayan verilerden anlamlı bilgiler elde etmekte doğal dil işleme yöntemleri kullanılmaktadır. Doğal dil işleme yöntemlerini kullanarak duygu analizi yapmak birçok alanda önemli avantajlar sağlamaktadır. Bu tez çalışması kapsamında büyük veri işleme araçlarından olan Hadoop üzerinde veri madenciliği yöntemleriyle duygu analizi yapılması hedeflenmiştir. Veri madenciliği kapsamında metin madenciliği kullanılmıştır. Hadoop üzerinde veri madenciliği yapmak için özelleştirilmiş olan Mahout aracı kullanılmıştır. Mahout makine öğrenmesi algoritmalarının map-reduce formatında yazılmış hallerini içeren bir kütüphanedir. Metin madenciliğinde kullanılan veri kümesi için Türkiye'deki 15 günlük gazetenin Twitter 'da paylaşmış oldukları haber başlıkları kullanılmıştır. Bu haber başlıkları Türkçe doğal dil işleme için geliştirilen Zemberek kütüphanesi yardımıyla ön işlemlerden geçirilmiştir. Bu haber başlıkları olumlu veya olumsuz olarak sınıflandırılmıştır. Sınıflandırma işlemi için Mahout aracıyla birlikte Naive Bayes istatistik tabanlı sınıflandırma algoritması kullanılmıştır. Sınıflandırma işleminden önce Naive Bayes algoritması için eğitim verisi oluşturulmuştur. Eğitim verisi için yaklaşık 105.000 haber başlığı, yazılan bir uygulama yardımıyla kullanıcı tarafından olumlu, olumsuz veya belirsiz olarak işaretlenmiştir. Eğitim verisinin bir kısmı algoritmanın eğitilmesi, bir kısmı ise algoritmanın testi için kullanılmıştır. Naive bayes algoritmasının çalıştırılması için iki farklı Hadoop ortamı oluşturulmuş. Bu ortamlar tek node'luk Hadoop sistemi ve 4 node'luk Hadoop sistemi şeklindedir. Sınıflandırma işlemi her iki ortamda gerçekleştirilmiştir. Sınıflandırma işleminde %80'e yakın başarı elde edilmiştir.

Özet (Çeviri)

This thesis has investigated the big data which has become very popular topic in recent days. Drawing meaningful information from big data is an important topic for both private and public sectors. Thus, many companies have made serious investments. The big data is made of unstructured data. The natural language process methods have been used to obtain meaningful information from unstructured data. Using the natural language process methods to analyze emotion is bringing important advantages to many fields. His study aimed to analyze emotion with data mining method by using Hadoop which is a tool for big data processing. The text mining is used within data mining process. The Mahout tool which is specialized to do data mining on Hadoop is used. Mahout is a library that contains machine learning algorithms its map-reduce formats. The data set used for the text mining has been drawn from the headlines of 15 Turkish daily newspapers Twitter posts. This headlines has been filtered with Zemberek library developed for natural language process of Turkish. These headlines were classified as positive and negative. Mahout and Naive Bayes statistical based classification algorithms tools are used for the classification. The learning data is prepared for the Naive Bayes algorithm prior to the classification process. More than 105 thousands headlines are drawn from twitter with a developed software for the learning data and this data is marked as positive, negative, and uncertain. The part of the learning data has been used for the learning algorithm and the other part has been used for the testing of the algorithm. The type of Hadoop environment was developed in order to run the Naive Bayes algorithm. These environments were single node Hadoop system and 4-node Hadoop system. The classification process has been carried out in the both systems. In the classification, success was achieved close to 80%.

Benzer Tezler

Tez No
597456
Dynamic data replication and distribution in database systems
Veri tabanı sistemlerinde dinamik veri kopyalama ve dağıtımı
SAADI HAMAD THALIJ ALLUHAIBI
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. VELİ HAKKOYMAZ
Tez No
712939
DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster
İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme
YOUSEF ALKHANAFSEH
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHİR ÇETİN AKINCI
Tez No
406541
Büyük veri tabanlarında özniteliklerin etiketlere indirgenmesine dayalı içerik tabanlı görüntü erişimi
Content-based image retrieval based on indexing of code words and metadata attributes in large database
HALİS YILBOĞA
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MİNE ELİF KARSLIGİL YAVUZ
Tez No
887213
Dağıtık hadoop kümelerinde yeni eşle/indirge programlama algoritması modeli
New map/reduce programming algorithm model in distributed hadoop clusters
EMİN ŞEŞEN
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Düzce Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RESUL KARA
Tez No
350674
Gezgin satıcı probleminin hadoop üzerinde çalışan paralel genetik algoritma ile çözümü
Parallel genetic algorithm to solve traveling salesman problem on hadoop cluster
HARUN RAŞİT ER
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NADİA ERDOĞAN

Geri Dön