Geri Dön

Supervised and unsupervised machine learning techniques for text document categorization

Belge sınıflandırma için gözetimli ve gözetimsiz öğrenme algoritmaları

  1. Tez No: 152513
  2. Yazar: ARZUCAN ÖZGÜR
  3. Danışmanlar: PROF. DR. ETHEM ALPAYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2004
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 116

Özet

ÖZET BELGE SINIFLANDIRMA İÇİN GÖZETİMLİ VE GÖZETİMSİZ ÖĞRENME ALGORİTMALARI Bilgisayar ve elektronik teknolojilerinin gelişmesi, İnternet ve Web'in yaygınlaş masıyla elektronik belgelerin miktarı her geçen gün artmaktadır. Bu elektronik veri- tabanlarmda ilgili verilere daha hızlı, kolay, ve doğru bir şekilde erişebilmek için bel gelerin otomatik olarak sınıflandırılması önem kazanmıştır. Otomatik sınıflandırma için temelde iki yapay öğrenme yaklaşımı vardır: gözetimli öğrenme ve gözetimsiz öğrenme. Gözetimli öğrenmede, önceden sınıfların bilinmesi ve bu sınıflara ait belgelerden oluşan bir öğrenme kümesi gerekir. Gözetimsiz öğrenmede ise sınıfların önceden bilinmesine ve herhangi bir aşamada insan yardımına ihtiyaç yoktur. Bu çalışmada otomatik belge sınıflandırma için gözetimli ve gözetimsiz temel yöntemleri ele alıyoruz. Bu temel yöntemlerin beş standart veritabanı üzerindeki başarımlarım farklı kıstaslara dayanarak inceüyor, gözetimli ve gözetimsiz öğrenme yaklaşımlarını birbiriyle kıyaslıyoruz. Bu çalışma sonucunda gözetimsiz yöntemler içinde fc-means ve bisecting A;-means'in belge öbeklenmesi için daha elverişli olduğunu gördük. Gözetimli yöntemler arasında en iyi başarımı destek vektör makinaları elde ediyor. Gözetimsiz yöntemler olmalarına rağmen A;-means ve bisecting fc-means göze timli bir yöntem olan naive Bayes'den daha kaliteli öbekler oluşturuyor. Gözetimsiz yöntemlerin oluşturduğu öbeklerin toplam benzerliği gözetimli yöntemlerininkinden genellikle daha yüksek. Bu sonuç öğrenme kümesinde hatalı bazı belgelerin olmasından kaynaklanıyor olabilir. Bu nedenle sınıfların belirlenmesi ve öğrenme kümesinin oluştu rulması aşamasında gözetimsiz yöntemlerden faydalanılmasını öneriyoruz.

Özet (Çeviri)

IV ABSTRACT SUPERVISED AND UNSUPERVISED MACHINE LEARNING TECHNIQUES FOR TEXT DOCUMENT CATEGORIZATION Automatic organization of documents has become an important research issue since the explosion of digital and online text information. There are mainly two ma chine learning approaches to enhance this task: supervised approach, where pre-defined category labels are assigned to documents based on the likelihood suggested by a train ing set of labelled documents; and unsupervised approach, where there is no need for human intervention or labelled documents at any point in the whole process. In this study we compare and evaluate the performance of the leading supervised and unsupervised techniques for document organization by using different standard performance measures and five standard document corpora. We conclude that among the unsupervised techniques we have evaluated, &-means and bisecting &-means perform the best in terms of time complexity and the quality of the clusters produced. On the other hand, among the supervised techniques support vector machines achieve the highest performance while naive Bayes performs the worst. Finally, we compare the supervised and the unsupervised techniques in terms of the quality of the clusters they produce. In contrast to our expectations, we observe that although &-means and bisecting fc-means are unsupervised they produce clusters of higher quality than the naive Bayes supervised technique. Furthermore, the overall similarities of the clustering solutions obtained by the unsupervised techniques are higher than the supervised ones. We discuss that the reason may be due to the outliers in the training set and we propose to use unsupervised techniques to enhance the task of pre-defining the categories and labelling the documents in the training set.

Benzer Tezler

  1. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Using ladder network for semi-supervised sentiment analysis

    Yarı-denetimli duygu analizi için basamaklı ağ yönteminin kullanılması

    DANIEH ALDAGHSTANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CEMAL OKAN ŞAKAR

  3. Yapay zeka yaklaşımı ile son yıllarda ve geleceğe yönelik mesleki değişimler ve eğilimlerin analizi

    Professional changes and trends in recent years and for the future

    EBRU KARAAHMETOĞLU

    Doktora

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiKırıkkale Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN ERSÖZ

    DOÇ. DR. ADNAN AKTEPE

  4. Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant

    Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi

    DENİZ GÜL ÖZCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT DENİZ ULUŞAR

  5. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ