Application of K-NN and FPTC based text categorization algorithms to Turkish news reports

K-NN ve FPTC tabanlı metin kategorizasyon algoritmalarının Türkçe haberlere uygulaması

Tez No: 112336
Yazar: UFUK İLHAN
Danışmanlar: DOÇ. DR. HALİL ALTAY GÜVENİR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: text categorization, classification, feature projections, stemming, wild card matching, stopword. IV
Yıl: 2001
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 81

Özet

ÖZET fc-NN ve FPTC TABANLI METİN KATEGORİZASYON ALGORİTMALARININ TÜRKÇE HABERLERE UYGULAMASI Ufuk ilhan Bilgisayar Mühendisliği, Yüksek Lisans Tez Yöneticisi: Doç. Dr. Halil Altay Güvenir Şubat, 2001 İnternet ulaşım kolaylığı, optik okuyucular, yüksek hızlı ağlar ve pahalı ol mayan yüksek miktardaki bilgi depolama imkanlarındaki teknolojik gelişmeler, on-line metin ve makalelerine, elektronik posta ve teknik raporlara erişim ko- laylığıyla büyük bir artışa neden oldu. On-line bilgi erişimindeki, bu inanılmaz artış, kullanıcı ların bilgileri organize etme ihtiyacını yarattı. Metin sınıflandırması (Text Categorization), gelişen tekniklerin ihtiyaçlarına bir çare olabilir. Metin sınıflandırması, önceden belirlenmiş kategorilere göre, doğal dil metinlerinin sınıflandırılmasıdır. Bu tezde, metin sınıflandırması üzerinde çalışmak için Anadolu Ajansı adlı Türkçe bir veri kümesinin der lenmesi sunulmuştur. Türkçe gibi bitişken dillerde kelimeler, en küçük an lamlı parçasının sınırlarına dair bir belirti göstermez, üstelik, bu parçalar, morfolojik ve fonolojik şartlara bağlı olarak şekil alırlar. Türkçe'de, bir keli menin son ekine bir tane daha ekleyerek, nispeten uzun kelimeler elde edilebilir, üstelik, sadece bir tek Türkçe kelimeden çok miktarda değişik anlamlı kelimeler oluşturulabilir. Bu karmaşık morfolojik yapı yüzünden, Türkçe, ingilizce ve benzer dillerden daha farklı metin özel işlem teknikleri gerektirir. Bu nedenle, bütün kelimelerin küçük harfe çevrilmesi ve noktalama işaretlerinin atılması dışında; gövdeleme, gereksiz kelimelerin atılması ve anahtar kelime listesinin oluşturulması gibi, bazı önhazırlıklar yapılması gereklidir. ivBu tezde, ayrıca, literatürde yaygın olarak bilinen k en yakın komşu sınıflandırma algoritması (k-NN) ile k-NN'in bir değişiği olan FPTC algoritmasının Türkçe veri kümesi üzerinde değerlemesi ve karşılaştırılması da sunulmuştur. k-NN, bir örnek tabanlı öğrenme metodudur. k-NN, tahmin ve test örnekleri arasındaki benzerliği hesaplar ve girdi kategorilerini tahmin etmek için k adet üst sıranın en yakın örneklerini düşünerek, en benzer kategorileri bulur. FPTC algorit ması ise, tahmin örneklerinin izdüşümlerinin, herbir öznitelik boyutunda ifade edilmesi fikri esasına dayalıdır. Eğer, bir tahmin örneğinin değeri, bir öznitelik için belli değilse, tahmin örneği, öznitelik üzerinde ifade edilmez. Yapılan değerlemeler sonucu, FPTC algoritması, k-NN'le karşılaştırılabilir bir doğruluk oranını başarmıştır, ayrıca, zaman verimliliği açısından, k-NN algoritmasına belirgin bir üstünlük sağlamıştır.

Özet (Çeviri)

ABSTRACT APPLICATION OF fc-NN and FPTC BASED TEXT CATEGORIZATION ALGORITHMS TO TURKISH NEWS REPORTS Ufuk Ilhan M.S. in Computer Engineering Supervisor: Assoc. Prof. Halil Altay Güvenir February, 2001 New technological developments, such as easy access to Internet, optical char acter readers, high-speed networks and inexpensive massive storage facilities, have resulted in a dramatic increase in the availability of on-line text-newspaper articles, incoming (electronic) mail, technical reports, etc. The enormous growth of on-line information has led to a comparable growth in the need for methods that help users organize such information. Text Categorization may be the remedy of increased need for advanced techniques. Text Catego rization is the classification of units of natural language texts with respect to a set of pre-existing categories. Categorization of documents is challenging, as the number of discriminating words can be very large. This thesis presents compilation of a Turkish dataset, called Anadolu Agency Newsgroup in or der to study in Text Categorization. Turkish is an agglutinative languages in which words contain no direct indication where the morpheme boundaries are, furthermore, morphemes take a shape dependent on the morphological and phonological context. In Turkish, the process of adding one suffix to another can result in a relatively long word, furthermore, a single Turkish word can give rise to a very large number of variants. Due to this complex morphologi cal structure, Turkish requires text processing techniques different than English and similar languages. Therefore, besides converting all words to lower case and removing punctuation marks, some preliminary work is required such as stemming, removal of stopwords and formation of a keyword list. iiiThis thesis also presents the evaluation and comparison of the well-known k-NN classification algorithm and a variant of the k-NN, called Feature Projection Text Categorization (FPTC) algorithm. The k-NN classifier is an instance based learning method. It computes the similarity between the test instance and training instance, and considering the k top-ranking nearest instances to predict the categories of the input, finds out the category that is most similar. FPTC algorithm is based on the idea of representing training instances as their projections on each feature dimension. If the value of a training instance is missing for a feature, that instance is not stored on that feature. Experiments show that the FPTC algorithm achieves comparable accuracy with the k-NN algorithm, furthermore, the time efficiency of FPTC outperforms the k-NN significantly.

Benzer Tezler

Tez No
841509
Tıkayıcı uyku apnesinin konuşma seslerinin doğrusal olmayan zaman serisi analizleri ve akıllı karar verme yöntemleri ile tespiti
Detection of obstructive sleep apnea using nonlinear time series analysis of speech signals and intelligent decision making methods
TUĞÇE KANTAR UĞUR
Doktora
Türkçe
2023
Biyomühendislik Başkent Üniversitesi
Biyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. DERYA YILMAZ
DOÇ. DR. METİN YILDIZ
Tez No
498114
Akustik ve görsel özellikleri kullanarak müzik tür sınıflandırması uygulaması
Musical genre classification application using both acoustic and visual features
ALİ ÖZKAHRAMAN
Yüksek Lisans
Türkçe
2018
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜRVET KIRCI
Tez No
783274
Hastalık teşhis tahminlerinde veri madenciliği sınıflandırma yöntemleri
Data mining classification methods in disease diagnostic estimates
FATMANUR DAL
Yüksek Lisans
Türkçe
2023
Biyoistatistik Süleyman Demirel Üniversitesi
Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OSMAN GÜRDAL
Tez No
685796
Application of machine learning models and statistical approaches in dexketoprofen pharmaceutical dosage form
Makine öğrenmesi modellerinin ve istatistiksel yaklaşımların deksketoprofen farmasötik dozaj formunda uygulaması
ATAKAN BAŞKOR
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TAMER UÇAR
Tez No
270157
Veri madenciliği süreci ve gerçek bir veri seti üzerinde uygulanması
Data mining process and an application of it on a sample data set
FATMA MELTEM KOCABAŞ
Yüksek Lisans
Türkçe
2010
İstatistik Hacettepe Üniversitesi
İstatistik Ana Bilim Dalı
YRD. DOÇ. DR. CANAN HAMURKAROĞLU

Geri Dön