Categorization in a hierarchically structured text database
Hiyerarşik yapıda olan bir veritabanının kategorizasyonu
- Tez No: 112337
- Danışmanlar: DOÇ. DR. HALİL ALTAY GÜVENİR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: öğrenme, kategorizasyon, bölümleme, hiyerarşi, Usenet, haber grubu, üst seviye, başlık satırı, postalama, frekans, norm ölçekleme, benzerlik ölçütü, mesafe ölçütü, birleştirici, aşağıdan yukarı, eklerinden ayırma, yaygın kelime, indeks iv, learning, categorization, clustering, hierarchy, Usenet, newsgroup, top-level, header-line, posting, frequency, norm-scaling, similarity measure, dis tance measure, agglomerative, bottom-up, stemming, stopword, index iii
- Yıl: 2001
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 77
Özet
ÖZET Hiyerarşik Yapıda Olan Bir Veritabanının Kategorizasyonu Ferhat Kutlu Bilgisayar Mühendisliği, Yüksek Lisans Programı Tez Yöneticisi: Doç. Dr. H. Altay Güvenir Şubat 2001 Son yirmi yıldır İnternet alanındaki gelişmelerin etkisiyle veritabanlarında saklanan verinin boyutunda ve on-line veri akışında büyük bir artış oldu. Bu artış beraberinde, bu büyüklükteki veri yığınını ve akışını yönetebilecek araçlara olan ihtiyaçları açığa çıkardı. Hiyerarşik yaklaşım, bu ihtiyaçları tat min için en iyi yoldur ve Internet ve veritabanlarıyla uğraşanlar arasında da çok yaygındır. Usenet haber grupları sistemi, içinde yapısal bir hiyerarşi bu lunduran on-line veritabanlarından biridir. Bizim hareket noktamız da katego- rizasyon işlerini daha kolay ve hızlı hale sokan bu hiyerarşik yapıdır. Aslında İnternetteki arama motorlarının çoğu İnternetin yapısal hiyerarşisinden fay dalanmaktadır. Verilerin artan boyutu birçok geleneksel kategorizasyon algo ritmasını kullanılmaz hale sokmuştur. Bu sebeple Usenet haberlerinden oluşan bir veri tabanından indeks çıkartan ve daha sonra bu indeks üzerinden katego rizasyon yaparak yeni bir haberin ilgili haber gruplarını belirleyen yeni bir kate- grizasyon öğrenme algoritması geliştirdik. Bu algoritma öğrenme safhasında birleştirici ve aşağıdan yukarıya hiyerarşik bir yaklaşıma sahiptir. Katego rizasyon safhasında ise örtüşümlü ve denetlemeli bir kategorizasyon yapmak tadır. Algoritmamızın kompleksite ölçütünü ve doğruluğunu kıyaslamak için k En Yakın Komşu kategorizasyon algoritması kullanılmıştır. Bu kıyaslama sadece iki algoritmanın kıyaslanması demek değil, hiyerarşik yaklaşımın düz yaklaşımla, benzerlik ölçütünün mesafe ölçütüyle ve doğruluğun öneminin hızın önemiyle kıyaslanmasıdır. Algoritmamız hiyerarşik yaklaşımı ve benzerlik ölçü tünü benimsemekte ve küçük bir doğruluk kaybıyla k En Yakin Komşu algo ritmasından çok daha hızlı çalışmaktadır.
Özet (Çeviri)
ABSTRACT Categorization in a Hierarchically Structured Text Database Ferhat Kutlu M.S. in Computer Engineering Supervisor: Assoc. Prof. H. Altay Güvenir February 2001 Over the past two decades there has been a huge increase in the amount of data being stored in databases and the on-line flow of data by the effects of improvements in Internet. This huge increase brought out the needs for intelli gent tools to manage that size of data and its flow. Hierarchical approach is the best way to satisfy these needs and it is so widespread among people dealing with databases and Internet. Usenet newsgroups system is one of the on-line databases that have built-in hierarchical structures. Our point of departure is this hierarchical structure which makes categorization tasks easier and faster. In fact most of the search engines in Internet also exploit inherent hierarchy of Internet. Growing size of data makes most of the traditional categorization algorithms obsolete. Thus we developed a brand-new categorization learning algorithm which constructs an index tree out of Usenet news database and then decides the related newsgroups of a new news by categorizing it over the index tree. In learning phase it has an agglomerative and bottom-up hierarchical approach. In categorization phase it does an overlapping and supervised cate gorization, k Nearest Neighbor categorization algorithm is used to compare the complexity measure and accuracy of our algorithm. This comparison does not only mean comparing two different algorithms but also means comparing hier archical approach vs. flat approach, similarity measure vs. distance measure and importance of accuracy vs. importance of speed. Our algorithm prefers hi erarchical approach and similarity measure, and greatly outperforms k Nearest Neighbor categorization algorithm in speed with minimal loss of accuracy.
Benzer Tezler
- Mining metabolic networks and biomedical literature
Başlık çevirisi yok
ALİ ÇAKMAK
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolCase Western Reserve UniversityDR. GÜLTEKİN ÖZSOYOĞLU
- The circularization of the textile and ready-to-wear industry in Turkey: An evaluation in the context of the European green deal
Türk tekstil ve hazır giyim sektöründe döngüselleşmenin Avrupa yeşil mutabakatı bağlamında değerlendirilmesi
İBRAHİM ŞAPALOĞLU
Yüksek Lisans
İngilizce
2022
Ekonomiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. İPEK İLKKARACAN AJAS
DOÇ. DR. NİHAN YILDIRIM
- 2, 4, 6 ve 8.sınıf öğrencilerinde ulamlaştırma eğilim ve becerilerinin gelişimi
Development of categorization tendencies and skills in the 2nd, 4th, 6th and 8th grade students
ÖZAY ÖNAL
- Measuring and evaluating the maintainability of microservices
Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi
RAHİME YILMAZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FEZA BUZLUCA
- Müşterek bir mimarlık imkanı: Herkes İçin Mimarlık Derneği
A common architecture possibility: Architecture for All Association
İBRAHİM EMRE GÜNDOĞDU
Doktora
Türkçe
2022
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. NURBİN PAKER KAHVECİOĞLU