Geri Dön

Metin madenciliği ile dokümanlar arasındaki benzerliklerin bulunması

Finding similarities between documents using text mining techniques

  1. Tez No: 365621
  2. Yazar: SELÇUK DÖVEN
  3. Danışmanlar: YRD. DOÇ. DR. MEHMET ALPER TUNGA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Veri Madenciliği, Metin Madenciliği, Benzerlik, Kosinüs, Jaccard, Data Mining, Text Mining, Similar, Cosine, Jaccard
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgi Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 105

Özet

Metin madenciliği, yapısal olmayan kaynaklar (metin, resim vb.) içinde çeşitli yöntemler kullanarak veriler arasında sınıflandırma ve benzerlik gibi işlemler yapan bir uygulama alanıdır. Bu tezde bahsedilen metin madenciliği ile dokümanlar arasındaki benzerliklerin bulunmasını (örüntü tarama) bir uygulama üzerinde anlatmak için masaüstü uygulaması geliştirilmiştir. Uygulama, yalnızca algoritmaların çalışma mantığını gösterecek şekilde basit yapı olarak değil gerçek uygulamalar yapabilecek kapsamlı bir şekilde oluşturulmuştur. Uygulamayı diğer tez uygulamalarından ayıran özelliği, yalnızca iki doküman arasında değil kullanıcının ihtiyacına göre n sayıda doküman arasındaki benzerliklerin karşılaştırılmasını yapılabilmesidir. Uygulamaya yüklenen bir doküman içerisinde bulunan her cümlenin diğer dokümanlar içerisinde bulunan tüm cümleler ile benzerlik hesaplaması yapılmaktadır. Yine uygulama, sonuç kısmında karşılaştırılan cümlelerin sayısal olarak sonuçlarını göstermekte, her karşılaştırılan dosyayı ve karşılaştırılan bütün cümlelerin tamamını sayısal sonuçları ile birlikte sonuç tablosunda göstermektedir. Bu sayede kullanıcının cümlelere bakarak hangi cümlelerin hangi algoritma için nasıl bir sonuç ürettiğinin görülmesi sağlanmıştır. Uygulama için en çok kullanılan metin madenciliği bezerlik hesaplama algoritmaları olan kosinüs (cosine) ve jaccard algoritmaları kullanıp başarıları test edilmiştir.

Özet (Çeviri)

Text mining is a field of application that makes classification and comparison between data in unstructured sources (text, picture, etc.) by using several methods. A desktop application was developed to explain the details of this study with an example that shows the way of finding similarities between documents by using text mining. This application is not only a simple programme that shows working principle of algorithms, but also an extensive programme that can be applied on real applications. The discriminative ability of this application is that it can compare the similar parts of (n) number of documents according to the user?s need. Similarities between every sentence in a document that is installed into the programme and all sentences in other documents can be calculated. Additionally, this application shows all of the folders and sentences that are compared, with the numerical outcomes in the result part. In this way, the user can understand from the outcomes that what kind of sentences and what kind of algorithms may produce results like that. For the application, the most widely used algorithms; cosine and jaccard algorithms are used and their performance are tested.

Benzer Tezler

  1. Plagiarism detection supported by web usage mining for Turkish textual documents

    Türkçe metinsel dökümanlar için web kullanım madenciliği ile desteklenmiş intihal tespiti

    MÜMİNE KAYA

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELMA AYŞE ÖZEL

  2. Metin madenciliği ile doküman demetleme

    Dokument clustering using text mining

    SYOLAİ M.TAHA

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. SUAT ÖZDEMİR

  3. Trigram özellik veri seti kullanılarak sınıflandırma yöntemleriyle dil tanıma

    Language identification with classification methods using trigram feature data set

    ŞENGÜL BAYRAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHaliç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. HİDAYET TAKÇI

    PROF. DR. MÜBARİZ EMİNLİ

  4. Web içerik madenciliği ve konu sınıflandırılması

    Web content mining and subject classification

    FATİH GÜRCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEMAL KÖSE

  5. Ortaokul fen bilimleri ders kitapları ve yardımcı kaynak kitapların metin madenciliği ile analizi: Fiziksel olaylar konu alanı örneği

    Analysis of secondary school science textbooks and auxiliary resource books with text mining: The case of physical events subject area

    MEHMET YALÇIN GÜNGÖR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimNiğde Ömer Halisdemir Üniversitesi

    Matematik ve Fen Bilimleri Ana Bilim Dalı

    DOÇ. DR. AHMET YAVUZ