Geri Dön

Derin öğrenme kullanarak büyük boyutlu dokümanlarda içerik tabanlı benzerlik ile kümeleme

Deep learning based large-scale document clustering with content-based similarity

  1. Tez No: 678945
  2. Yazar: KEVSER ÖZDEM
  3. Danışmanlar: PROF. DR. MUHAMMET ALİ AKCAYOL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Günümüzde veri boyutu büyük bir hızla artmaktadır. Çok büyük boyuttaki veri üzerinde günümüz teknolojisiyle bile kısa sürede işlem yapmak mümkün olmamaktadır. Bu yüzden, çok sayıdaki büyük boyutlu dokümanı az sayıda birbiriyle ilişkili ve anlamlı küme halinde düzenleme gerektiren kümeleme önemli bir araştırma konusu haline gelmiştir. Son yıllarda birçok alanda başarılıyla uygulanan derin öğrenme yöntemleri denetimsiz öğrenme uygulamalarında da başarılı bir şekilde kullanılabilmektedir. Bu çalışmada, büyük boyutlu dokümanlarda içerik benzerliğine göre kümeleme için derin öğrenme tabanlı bir model geliştirilmiştir. Geliştirilen derin öğrenme modelinde CNN ve LSTM ağları birlikte kullanılmıştır. Geliştirilen modeli test etmek için 386 adet İngilizce ders kitabından oluşan toplam 7,61 GB boyutundaki bir veri kümesi kullanılmıştır. Deneysel çalışmalarda ortalama doğruluğu %66 olan 18 farklı küme elde edilmiştir. Deneysel sonuçlar, geliştirilen model ile elde edilen kümelerin, literatürde yaygın olarak kullanılmakta olan k-means ve CURE kümeleme algoritmalarına göre daha yüksek başarıya sahip olduklarını göstermiştir. Geliştirilen model ile oluşturulan kümeler, 0,65 NMI ve 0,59 AMI değerlerine sahiptir. Ayrıca, Silhouette ve Davies-Bouldin iç değerlendirme ölçütlerinde de sırasıyla 0,81 ve 0,95 değerleri elde edilmiştir.

Özet (Çeviri)

Nowadays, the size of data is increasing rapidly. It is not possible to process very large data in a short time even with today's technology. Hence, clustering, which requires organizing large numbers of large-scale documents into small numbers of interrelated and meaningful clusters, has become an important research topic. Deep learning methods, which have been successfully applied in many fields in recent years, can also be used successfully in unsupervised learning applications. In this study, a deep learning-based model has been developed for clustering based on content similarity in large-scale documents. CNN and LSTM networks have been used together in the developed deep learning model. A data set consisting of 386 English textbooks with a total size of 7.61 GB has been used to test the developed model. In experimental studies, 18 different clusters with an average accuracy of 66% have been obtained. The experimental results have shown that the clusters obtained with the developed model had higher success than the k-means and CURE clustering algorithms, which are widely used in the literature. The clusters created with the developed model have values of 0.65 NMI and 0.59 AMI. In addition, values of 0.81 and 0.95 have been obtained for the internal evaluation metrics Silhouette and Davies-Bouldin, respectively.

Benzer Tezler

  1. Educational reforms in Ethiopia: From the imperial era to the present

    Etiyopya'da eğitim reformları: Emperyal dönemden günümüze

    SALİH AHMED MAHAMMODA

    Doktora

    İngilizce

    İngilizce

    2022

    Eğitim ve ÖğretimNecmettin Erbakan Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. İSA KORKMAZ

  2. Osmanlıca el yazması belgeler için derin öğrenme tabanlı karakter tanıma yöntemi

    Deep learning based character recognition method for Ottoman manuscript documents

    ALİ ALPER DEMİR

    Doktora

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiSüleyman Demirel Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UFUK ÖZKAYA

  3. Manipulation of visually recognized objects using deep learning

    Görsel tanınan nesnelerin derin öğrenme kullanarak hareket ettirilmesi

    ERTUĞRUL BAYRAKTAR

    Doktora

    İngilizce

    İngilizce

    2018

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR BOYRAZ

  4. Derin öğrenme yöntemleri kullanarak hiperspektral imgelerin sınıflandırılmasına yönelik yeni yaklaşımlar

    New approaches for hyperspectral image classification using deep learning

    HASAN BADEM

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER BAŞTÜRK

  5. Stock market prediction using sentiment analysis and deep learning

    Duygu analizi ve derin öğrenme kullanarak borsa tahmini

    AYMANE BENKHALDOUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    Prof. Dr. SÜREYYA AKYÜZ