Kendinden düzenlenen haritalar ile doküman sınıflandırma
Document classification using self-organizing maps
- Tez No: 201067
- Danışmanlar: YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2007
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
?nternet üzerinde web sayfalarının sayısı, büyük bir hızla artmaktadır. Artık otomatik arama motorları, arama sorgularına isabetli cevaplar vermekte yetersiz kalmaktadırlar. Dizin siteleri, bütün web sayfalarını değerlendirmeye yetisememektedir, dolayısıyla dizinlerin kalitesi ve kapsamı azalmaktadır. Ayrıca, bağlantılar güncelliğini kaybetmektedir. Öte yandan, bilgisayarlarda saklanan dokümanların sayısı ve hiyerarsisi de artmaktadır. Sonuç olarak web sayfalarının ve dokümanların otomatik olarak sınıflandırılması daha fazla önem kazanmaktadır. Bu çalısmanın amacı, dokümanları içeriklerine göre otomatik olarak sınıflandırmaktır. Bu amaçla, özellikle yüksek boyutlu verilerde basarılı olan ve danısmansız öğrenme özelliğine sahip Kendinden Düzenlenen Haritalar (SOM) algoritması kullanılarak bir sınıflandırma sistemi gelistirilmistir. Kendinden düzenlenen haritalar algoritması ile elde edilen sonuçlar etkin bir sınıflandırma yöntemi olan hiyerarsik sınıflandırma ile karsılastırılmıstır. Her iki algoritmada da dokümanı ayırt edici kelimelerin ön plana çıkarılması için uygun bir etiketleme yöntemi uygulanmıstır. Sınıflandırma isleminden önce dokümanlardaki durak kelimelerinin temizlenmesi, çok ve az tekrar eden kelimelerin temizlenmesi, kelimelerin indekslenmesi, ağırlık vektörlerinin bulunması, ağırlık vektörlerinin aynı boyuta getirilmesi, normalizasyon islemleri yapılmıstır. Deneysel çalısmalarda 2 farklı doküman kütüphanesi ele alınmıstır. ?lk çalısmada bir ?nternet haber sitesinden rastgele alınmıs haber içerikleri sınıflandırılırken, ikinci çalısmada ise üniversitelerin web sayfalarından alınan ders içerikleri basarılı bir sekilde sınıflandırılmıstır. Gelistirilen sistemin farklı içeriklere sahip dokümanlarda da basarılı olarak çalısması beklenmektedir.
Özet (Çeviri)
The number of internet web pages are growing at a high rate. Automated search engines are becoming insuffienct in returning appropiate results to the search queries. The directory sites can't keep up with evaluation of all web pages, therefore the quality and scope of their directories are decreased. Furthermore, links are becoming out of date. On the other hand, the number of the documents saved in computers are increasing. As a result, automatic classification of the web pages and documents takes more attention. In this study, it is aimed to classify the documents according to their contents. For this purpose, a classification system is developed that is based on the Self- Organizing Map (SOM) algorithm, which is an effective unsupervised artificial neural network method for high-dimensional data. The results obtained from self-organizing maps are compared with hierarchical classification, an effective classification method. For both methods, the significant and distinctive words within each document are found by using a labeling algorithm. Before the classification process, some preprocessing steps are applied, these are stopword removal, removing very low and very high frequently used words, indexing words, calculating weight vectors, equalizing the dimension of the weight vectors, and normalization. In experimental studies, two different document libraries are being used. The first library is prepared by collecting random news abstracts from an online news site and the second library is prepared by gathering different course contents from web pages of different universities. Both of libraries are being successfully classified. Furthermore, documents with different contents can also be classified by using this developed system.
Benzer Tezler
- Eğitim programları ve eğitim felsefesi bağlamında medreseler (Osmanlı Döneminde eğitim)
Madrasahs in the context of educational programs and educational philosophy (Education during the Ottoman Period)
OSMAN KARAHAN
Doktora
Türkçe
2021
Eğitim ve ÖğretimVan Yüzüncü Yıl ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. AHMET YAYLA
- Katı atık depo sahalarında meteorolojik faktörlerin depo gazı oluşumu üzerindeki etkilerinin incelenmesi
The evaluation of the meteorological factors affecting landfill gas generation in landfills
İBRAHİM UYANIK
Yüksek Lisans
Türkçe
2012
Çevre MühendisliğiYıldız Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
DOÇ. DR. BESTAMİN ÖZKAYA
- Lineer olmayan sinyallerin lokal dinamik modellenmesi ve uygulamaları
Local dynamic modelling of nonlinear signals and its applications
EMRAH YÜRÜKLÜ
Yüksek Lisans
Türkçe
2004
Elektrik ve Elektronik MühendisliğiUludağ ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. OSMAN HİLMİ KOÇAL
- An Investigation on the selection of the fine tuning parameters of STC
Özayarlamalı kontrol edicilerin hassas ayar parametrelerinin seçimi üzerine bir çalışma
HİKMET İSKENDER
Doktora
İngilizce
1998
Kimya Mühendisliğiİstanbul Teknik ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ALİ ŞAŞMAZ
- Türkiye için mutluluk ve memnuniyet haritalarının tasarımı
The design of the happiness and content maps for Turkey
ASLI ÜNAL
Yüksek Lisans
Türkçe
2016
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. MEHMET UFUK ÖZERMAN