Derin öğrenme kullanarak büyük boyutlu dokümanlarda içerik tabanlı benzerlik ile kümeleme
Deep learning based large-scale document clustering with content-based similarity
- Tez No: 678945
- Danışmanlar: PROF. DR. MUHAMMET ALİ AKCAYOL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 79
Özet
Günümüzde veri boyutu büyük bir hızla artmaktadır. Çok büyük boyuttaki veri üzerinde günümüz teknolojisiyle bile kısa sürede işlem yapmak mümkün olmamaktadır. Bu yüzden, çok sayıdaki büyük boyutlu dokümanı az sayıda birbiriyle ilişkili ve anlamlı küme halinde düzenleme gerektiren kümeleme önemli bir araştırma konusu haline gelmiştir. Son yıllarda birçok alanda başarılıyla uygulanan derin öğrenme yöntemleri denetimsiz öğrenme uygulamalarında da başarılı bir şekilde kullanılabilmektedir. Bu çalışmada, büyük boyutlu dokümanlarda içerik benzerliğine göre kümeleme için derin öğrenme tabanlı bir model geliştirilmiştir. Geliştirilen derin öğrenme modelinde CNN ve LSTM ağları birlikte kullanılmıştır. Geliştirilen modeli test etmek için 386 adet İngilizce ders kitabından oluşan toplam 7,61 GB boyutundaki bir veri kümesi kullanılmıştır. Deneysel çalışmalarda ortalama doğruluğu %66 olan 18 farklı küme elde edilmiştir. Deneysel sonuçlar, geliştirilen model ile elde edilen kümelerin, literatürde yaygın olarak kullanılmakta olan k-means ve CURE kümeleme algoritmalarına göre daha yüksek başarıya sahip olduklarını göstermiştir. Geliştirilen model ile oluşturulan kümeler, 0,65 NMI ve 0,59 AMI değerlerine sahiptir. Ayrıca, Silhouette ve Davies-Bouldin iç değerlendirme ölçütlerinde de sırasıyla 0,81 ve 0,95 değerleri elde edilmiştir.
Özet (Çeviri)
Nowadays, the size of data is increasing rapidly. It is not possible to process very large data in a short time even with today's technology. Hence, clustering, which requires organizing large numbers of large-scale documents into small numbers of interrelated and meaningful clusters, has become an important research topic. Deep learning methods, which have been successfully applied in many fields in recent years, can also be used successfully in unsupervised learning applications. In this study, a deep learning-based model has been developed for clustering based on content similarity in large-scale documents. CNN and LSTM networks have been used together in the developed deep learning model. A data set consisting of 386 English textbooks with a total size of 7.61 GB has been used to test the developed model. In experimental studies, 18 different clusters with an average accuracy of 66% have been obtained. The experimental results have shown that the clusters obtained with the developed model had higher success than the k-means and CURE clustering algorithms, which are widely used in the literature. The clusters created with the developed model have values of 0.65 NMI and 0.59 AMI. In addition, values of 0.81 and 0.95 have been obtained for the internal evaluation metrics Silhouette and Davies-Bouldin, respectively.
Benzer Tezler
- Educational reforms in Ethiopia: From the imperial era to the present
Etiyopya'da eğitim reformları: Emperyal dönemden günümüze
SALİH AHMED MAHAMMODA
Doktora
İngilizce
2022
Eğitim ve ÖğretimNecmettin Erbakan ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. İSA KORKMAZ
- Osmanlıca el yazması belgeler için derin öğrenme tabanlı karakter tanıma yöntemi
Deep learning based character recognition method for Ottoman manuscript documents
ALİ ALPER DEMİR
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiSüleyman Demirel ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ UFUK ÖZKAYA
- Manipulation of visually recognized objects using deep learning
Görsel tanınan nesnelerin derin öğrenme kullanarak hareket ettirilmesi
ERTUĞRUL BAYRAKTAR
Doktora
İngilizce
2018
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR BOYRAZ
- Derin öğrenme yöntemleri kullanarak hiperspektral imgelerin sınıflandırılmasına yönelik yeni yaklaşımlar
New approaches for hyperspectral image classification using deep learning
HASAN BADEM
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER BAŞTÜRK
- Stock market prediction using sentiment analysis and deep learning
Duygu analizi ve derin öğrenme kullanarak borsa tahmini
AYMANE BENKHALDOUN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBüyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
Prof. Dr. SÜREYYA AKYÜZ