Geri Dön

Application of K-NN and FPTC based text categorization algorithms to Turkish news reports

K-NN ve FPTC tabanlı metin kategorizasyon algoritmalarının Türkçe haberlere uygulaması

  1. Tez No: 112336
  2. Yazar: UFUK İLHAN
  3. Danışmanlar: DOÇ. DR. HALİL ALTAY GÜVENİR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: text categorization, classification, feature projections, stemming, wild card matching, stopword. IV
  7. Yıl: 2001
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

ÖZET fc-NN ve FPTC TABANLI METİN KATEGORİZASYON ALGORİTMALARININ TÜRKÇE HABERLERE UYGULAMASI Ufuk ilhan Bilgisayar Mühendisliği, Yüksek Lisans Tez Yöneticisi: Doç. Dr. Halil Altay Güvenir Şubat, 2001 İnternet ulaşım kolaylığı, optik okuyucular, yüksek hızlı ağlar ve pahalı ol mayan yüksek miktardaki bilgi depolama imkanlarındaki teknolojik gelişmeler, on-line metin ve makalelerine, elektronik posta ve teknik raporlara erişim ko- laylığıyla büyük bir artışa neden oldu. On-line bilgi erişimindeki, bu inanılmaz artış, kullanıcı ların bilgileri organize etme ihtiyacını yarattı. Metin sınıflandırması (Text Categorization), gelişen tekniklerin ihtiyaçlarına bir çare olabilir. Metin sınıflandırması, önceden belirlenmiş kategorilere göre, doğal dil metinlerinin sınıflandırılmasıdır. Bu tezde, metin sınıflandırması üzerinde çalışmak için Anadolu Ajansı adlı Türkçe bir veri kümesinin der lenmesi sunulmuştur. Türkçe gibi bitişken dillerde kelimeler, en küçük an lamlı parçasının sınırlarına dair bir belirti göstermez, üstelik, bu parçalar, morfolojik ve fonolojik şartlara bağlı olarak şekil alırlar. Türkçe'de, bir keli menin son ekine bir tane daha ekleyerek, nispeten uzun kelimeler elde edilebilir, üstelik, sadece bir tek Türkçe kelimeden çok miktarda değişik anlamlı kelimeler oluşturulabilir. Bu karmaşık morfolojik yapı yüzünden, Türkçe, ingilizce ve benzer dillerden daha farklı metin özel işlem teknikleri gerektirir. Bu nedenle, bütün kelimelerin küçük harfe çevrilmesi ve noktalama işaretlerinin atılması dışında; gövdeleme, gereksiz kelimelerin atılması ve anahtar kelime listesinin oluşturulması gibi, bazı önhazırlıklar yapılması gereklidir. ivBu tezde, ayrıca, literatürde yaygın olarak bilinen k en yakın komşu sınıflandırma algoritması (k-NN) ile k-NN'in bir değişiği olan FPTC algoritmasının Türkçe veri kümesi üzerinde değerlemesi ve karşılaştırılması da sunulmuştur. k-NN, bir örnek tabanlı öğrenme metodudur. k-NN, tahmin ve test örnekleri arasındaki benzerliği hesaplar ve girdi kategorilerini tahmin etmek için k adet üst sıranın en yakın örneklerini düşünerek, en benzer kategorileri bulur. FPTC algorit ması ise, tahmin örneklerinin izdüşümlerinin, herbir öznitelik boyutunda ifade edilmesi fikri esasına dayalıdır. Eğer, bir tahmin örneğinin değeri, bir öznitelik için belli değilse, tahmin örneği, öznitelik üzerinde ifade edilmez. Yapılan değerlemeler sonucu, FPTC algoritması, k-NN'le karşılaştırılabilir bir doğruluk oranını başarmıştır, ayrıca, zaman verimliliği açısından, k-NN algoritmasına belirgin bir üstünlük sağlamıştır.

Özet (Çeviri)

ABSTRACT APPLICATION OF fc-NN and FPTC BASED TEXT CATEGORIZATION ALGORITHMS TO TURKISH NEWS REPORTS Ufuk Ilhan M.S. in Computer Engineering Supervisor: Assoc. Prof. Halil Altay Güvenir February, 2001 New technological developments, such as easy access to Internet, optical char acter readers, high-speed networks and inexpensive massive storage facilities, have resulted in a dramatic increase in the availability of on-line text-newspaper articles, incoming (electronic) mail, technical reports, etc. The enormous growth of on-line information has led to a comparable growth in the need for methods that help users organize such information. Text Categorization may be the remedy of increased need for advanced techniques. Text Catego rization is the classification of units of natural language texts with respect to a set of pre-existing categories. Categorization of documents is challenging, as the number of discriminating words can be very large. This thesis presents compilation of a Turkish dataset, called Anadolu Agency Newsgroup in or der to study in Text Categorization. Turkish is an agglutinative languages in which words contain no direct indication where the morpheme boundaries are, furthermore, morphemes take a shape dependent on the morphological and phonological context. In Turkish, the process of adding one suffix to another can result in a relatively long word, furthermore, a single Turkish word can give rise to a very large number of variants. Due to this complex morphologi cal structure, Turkish requires text processing techniques different than English and similar languages. Therefore, besides converting all words to lower case and removing punctuation marks, some preliminary work is required such as stemming, removal of stopwords and formation of a keyword list. iiiThis thesis also presents the evaluation and comparison of the well-known k-NN classification algorithm and a variant of the k-NN, called Feature Projection Text Categorization (FPTC) algorithm. The k-NN classifier is an instance based learning method. It computes the similarity between the test instance and training instance, and considering the k top-ranking nearest instances to predict the categories of the input, finds out the category that is most similar. FPTC algorithm is based on the idea of representing training instances as their projections on each feature dimension. If the value of a training instance is missing for a feature, that instance is not stored on that feature. Experiments show that the FPTC algorithm achieves comparable accuracy with the k-NN algorithm, furthermore, the time efficiency of FPTC outperforms the k-NN significantly.

Benzer Tezler

  1. Tıkayıcı uyku apnesinin konuşma seslerinin doğrusal olmayan zaman serisi analizleri ve akıllı karar verme yöntemleri ile tespiti

    Detection of obstructive sleep apnea using nonlinear time series analysis of speech signals and intelligent decision making methods

    TUĞÇE KANTAR UĞUR

    Doktora

    Türkçe

    Türkçe

    2023

    BiyomühendislikBaşkent Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DOÇ. DR. DERYA YILMAZ

    DOÇ. DR. METİN YILDIZ

  2. Akustik ve görsel özellikleri kullanarak müzik tür sınıflandırması uygulaması

    Musical genre classification application using both acoustic and visual features

    ALİ ÖZKAHRAMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MÜRVET KIRCI

  3. Hastalık teşhis tahminlerinde veri madenciliği sınıflandırma yöntemleri

    Data mining classification methods in disease diagnostic estimates

    FATMANUR DAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyoistatistikSüleyman Demirel Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OSMAN GÜRDAL

  4. Application of machine learning models and statistical approaches in dexketoprofen pharmaceutical dosage form

    Makine öğrenmesi modellerinin ve istatistiksel yaklaşımların deksketoprofen farmasötik dozaj formunda uygulaması

    ATAKAN BAŞKOR

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TAMER UÇAR

  5. Veri madenciliği süreci ve gerçek bir veri seti üzerinde uygulanması

    Data mining process and an application of it on a sample data set

    FATMA MELTEM KOCABAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    İstatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. CANAN HAMURKAROĞLU