Geri Dön

Kendinden düzenlenen haritalar ile doküman sınıflandırma

Document classification using self-organizing maps

  1. Tez No: 201067
  2. Yazar: YILMAZ ALPDOĞAN
  3. Danışmanlar: YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

?nternet üzerinde web sayfalarının sayısı, büyük bir hızla artmaktadır. Artık otomatik arama motorları, arama sorgularına isabetli cevaplar vermekte yetersiz kalmaktadırlar. Dizin siteleri, bütün web sayfalarını değerlendirmeye yetisememektedir, dolayısıyla dizinlerin kalitesi ve kapsamı azalmaktadır. Ayrıca, bağlantılar güncelliğini kaybetmektedir. Öte yandan, bilgisayarlarda saklanan dokümanların sayısı ve hiyerarsisi de artmaktadır. Sonuç olarak web sayfalarının ve dokümanların otomatik olarak sınıflandırılması daha fazla önem kazanmaktadır. Bu çalısmanın amacı, dokümanları içeriklerine göre otomatik olarak sınıflandırmaktır. Bu amaçla, özellikle yüksek boyutlu verilerde basarılı olan ve danısmansız öğrenme özelliğine sahip Kendinden Düzenlenen Haritalar (SOM) algoritması kullanılarak bir sınıflandırma sistemi gelistirilmistir. Kendinden düzenlenen haritalar algoritması ile elde edilen sonuçlar etkin bir sınıflandırma yöntemi olan hiyerarsik sınıflandırma ile karsılastırılmıstır. Her iki algoritmada da dokümanı ayırt edici kelimelerin ön plana çıkarılması için uygun bir etiketleme yöntemi uygulanmıstır. Sınıflandırma isleminden önce dokümanlardaki durak kelimelerinin temizlenmesi, çok ve az tekrar eden kelimelerin temizlenmesi, kelimelerin indekslenmesi, ağırlık vektörlerinin bulunması, ağırlık vektörlerinin aynı boyuta getirilmesi, normalizasyon islemleri yapılmıstır. Deneysel çalısmalarda 2 farklı doküman kütüphanesi ele alınmıstır. ?lk çalısmada bir ?nternet haber sitesinden rastgele alınmıs haber içerikleri sınıflandırılırken, ikinci çalısmada ise üniversitelerin web sayfalarından alınan ders içerikleri basarılı bir sekilde sınıflandırılmıstır. Gelistirilen sistemin farklı içeriklere sahip dokümanlarda da basarılı olarak çalısması beklenmektedir.

Özet (Çeviri)

The number of internet web pages are growing at a high rate. Automated search engines are becoming insuffienct in returning appropiate results to the search queries. The directory sites can't keep up with evaluation of all web pages, therefore the quality and scope of their directories are decreased. Furthermore, links are becoming out of date. On the other hand, the number of the documents saved in computers are increasing. As a result, automatic classification of the web pages and documents takes more attention. In this study, it is aimed to classify the documents according to their contents. For this purpose, a classification system is developed that is based on the Self- Organizing Map (SOM) algorithm, which is an effective unsupervised artificial neural network method for high-dimensional data. The results obtained from self-organizing maps are compared with hierarchical classification, an effective classification method. For both methods, the significant and distinctive words within each document are found by using a labeling algorithm. Before the classification process, some preprocessing steps are applied, these are stopword removal, removing very low and very high frequently used words, indexing words, calculating weight vectors, equalizing the dimension of the weight vectors, and normalization. In experimental studies, two different document libraries are being used. The first library is prepared by collecting random news abstracts from an online news site and the second library is prepared by gathering different course contents from web pages of different universities. Both of libraries are being successfully classified. Furthermore, documents with different contents can also be classified by using this developed system.

Benzer Tezler

  1. Eğitim programları ve eğitim felsefesi bağlamında medreseler (Osmanlı Döneminde eğitim)

    Madrasahs in the context of educational programs and educational philosophy (Education during the Ottoman Period)

    OSMAN KARAHAN

    Doktora

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimVan Yüzüncü Yıl Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. AHMET YAYLA

  2. Katı atık depo sahalarında meteorolojik faktörlerin depo gazı oluşumu üzerindeki etkilerinin incelenmesi

    The evaluation of the meteorological factors affecting landfill gas generation in landfills

    İBRAHİM UYANIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Çevre MühendisliğiYıldız Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BESTAMİN ÖZKAYA

  3. Lineer olmayan sinyallerin lokal dinamik modellenmesi ve uygulamaları

    Local dynamic modelling of nonlinear signals and its applications

    EMRAH YÜRÜKLÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    Elektrik ve Elektronik MühendisliğiUludağ Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. OSMAN HİLMİ KOÇAL

  4. An Investigation on the selection of the fine tuning parameters of STC

    Özayarlamalı kontrol edicilerin hassas ayar parametrelerinin seçimi üzerine bir çalışma

    HİKMET İSKENDER

    Doktora

    İngilizce

    İngilizce

    1998

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ALİ ŞAŞMAZ

  5. Türkiye için mutluluk ve memnuniyet haritalarının tasarımı

    The design of the happiness and content maps for Turkey

    ASLI ÜNAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    ÖĞR. GÖR. MEHMET UFUK ÖZERMAN