A Method for improving automatic word categorization
otomatik kelime sınıflandırma algoritmasını geliştirmek için yeni bir yöntem
- Tez No: 68472
- Danışmanlar: YRD. DOÇ. DR. GÖKTÜRK ÜÇOLUK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Sınıflama, Bulanık Mantık, Uzaklık Fonksiyonu iv, Word Categorization, Fuzzy Logic, Distance Metric 111
- Yıl: 1997
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
oz OTOMATİK KELİME SINIFLANDIRMA ALGORİTMASINI GELİŞTİRMEK ICIN YENİ BİR YÖNTEM Korkmaz, Emin Erkan Yüksek Lisans, Bilgisayar Mühendisliği Bölümü Tez Yöneticisi: Ass. Prof. Dr. Göktürk Üçoluk Eylül 1997, 57 sayfa Bu tez çalışmasında Otomatik Kelime Sınıflandırma algoritmasını geliştirmeye yönelik bir çalışma yürütülmüştür. Çalışma hem oluşan sınıfların kalitesinin arttırılması hem de algoritmanın hızlandırılmasına yönelik olmuştur. Yaklaşık iki milyon kelimenin bulunduğu İngilizce metinlerden tekli ve çiftli kelime frekansları çeşitli benzerlik fonksiyonları kullanılarak sınıflandırma işlemine tabi tutulmuştur. Küme çekirdekleri, üyelik derecesi gibi bulanık mantığa ait yöntem ve kavramlar bu çalışmada yer almıştır. Doğal dil elemanları arasındaki uzaklığı ölçebilecek en uygun uzaklık fonksiyonunun seçimi üzerine fikirler öne sürülmüştür. Yürütülen tartışmalar algoritma üzerinde denenen değişik uzaklık fonksiyonlarıyla elde edilen sonuçlara göre yapılandırılmıştır. Kullanılan algoritma dışarıdan herhangi bir bilgi almadığı gibi oluşan sınıf sayısı algoritma çalışırken ortaya çıkmaktadır.
Özet (Çeviri)
ABSTRACT A METHOD FOR IMPROVING AUTOMATIC WORD CATEGORIZATION Korkmaz, Emin Erkan MS., Department of Computer Engineering Supervisor: Ass. Prof. Dr. Göktürk Üçoluk September 1997, 57 pages In this thesis study a new approach to automatic word categorization which improves both the efficiency of the algorithm and the quality of the formed clusters is presented. The unigram and the bigram statistics of a corpus of about two million words are used with an efficient distance function to measure the similarities of words, and a greedy algorithm to put the words into clusters. The notions of fuzzy clustering like cluster prototypes, degree of membership are used to form up the clusters. Different distance metrics are analyzed using the algorithm. Empirical comparisons are made in order to support the discussions proposed for the type of distance metric that would be most suitable for measuring the similarity between linguistic elements. The algorithm is of unsupervised type and the number of clusters are determined at run-time.
Benzer Tezler
- Tam zamanında üretim sistemi ve imalat kaynak planlaması (MRP II) sistemi ile ilişkileri
Just-in-time productıon system and its relatıons with MRP II (Material Resource Plannıng)
BAYBARS ELİÇİN
Yüksek Lisans
Türkçe
1993
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. MEHMET TANYAŞ
- Kurumsal kaynak planlaması ve kurumsal kaynak planlaması yazılımlarının Türkiye uygulaması
Enterprise resource planning and enterprise resource planning implementation in Turkish companies
BİRDOĞAN BAKİ
- Tam zamanında üretim sistemleri
Just in time production systems
MURAT BUZER
Yüksek Lisans
Türkçe
1993
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. GÖNÜL YENERSOY
- Motor pistonu ve piston pimi üretiminde kalite güvence sisteminin kurulmasında kalite tekniklerinin uygulanması
Başlık çevirisi yok
MERT GÜNGEN
- IEEE 1149.1 standardı kullanarak test edilebilir lojik devre tasarımı
Testable lojik circit design by using IEEE 1149.1 standard
A.BETÜL TUNCER
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF. DR. AHMET DERVİŞOĞLU