Geri Dön

Metasezgisel algoritmalara dayalı öznitelik seçimi yöntemleriyle arapça metinlerin sınıflandırılması

Development of metaheuristic algorithms and classification method of arabic texts

  1. Tez No: 557054
  2. Yazar: SHAMIL JASIM HAMMADI AL-MOHAMMEDI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Özellik secimi, Destek vector makinalari, Yapay ari koloni algoritmasi, Arapca metin siniflandirma, Support Vector Machine, Feature Selection, Data Mining, particle swarm optimization algorithm, text categorization arabic text categorization
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

Veri madenciliği teknikleri, üstün performanslarına göre farklı uygulamalarda yaygın olarak kullanılmaktadır. Arapça Metin Sınıflandırması (ATC), insanlar tarafından yazılan metinleri kategorilerine göre sınıflandırmak için veri madenciliğini kullanan uygulamalardan biridir. Bununla birlikte, bu metinlerdeki büyük miktarda bilgiye göre, daha az alakalı bilgilerin ortadan kaldırılması önemlidir, böylece bu metinleri daha kısa sürede sınıflandırmak için daha az karmaşık teknikler kullanılabilir. Ayrıca, veri madenciliği tekniklerine girdilerin sabit sayıda özellik vektörü olması gerekir. Bu nedenle, en önemli ve alakalı özellikleri seçmek, sınıflandırıcının performansını önemli ölçüde artırabilir. Frekans terimi (TF), külliyattaki farklı kelimelerin önemini ölçmek için yaygın olarak kullanılan tekniklerden biridir. Giriş metni sınıfını ayırt etmek için sınıflandırıcıya önemli bir bilgi sağlayamadıklarından, yüksek frekans terimleri daha az öneme sahiptir. Ek olarak, girdi sınıfını tanımak için nadir terimler kullanma yeteneğine rağmen, bu terimlerin azlığı, çok sınırlı bilgi ile gerekli modelin karmaşıklığını arttırır ve uygulamanın verimliliğini azaltır. Bu nedenle, biyoloji tabanlı optimizasyon algoritmaları, sınıflandırıcının tahminlerinin doğruluğunu ve bu tahminleri hesaplamak için gerekli zamanlayıcı ile ilgili olarak dengeli performans gösteren frekans aralığını seçmek için yaygın olarak kullanılmaktadır. Bununla birlikte, farklı optimizasyon fonksiyonlarına sahip farklı veri kümelerinin kullanımına göre, bu optimizasyon fonksiyonlarının performansı arasında makul bir karşılaştırma yapılamaz. Bu çalışmada, Destek Vektör Makinesi (SVM) sınıflandırıcısının performansı, Parçacık Sürüsü Optimizasyonu (PSO), Yapay Arı Koloni (ABC), Gri Kurt (GW) ve Ateşböceği Algoritması (FA)'ndan oluşan dört biyoloji tabanlı optimizasyon algoritmaları tarafından seçilen frekans aralığına dayalı metinlerden çıkarılan özellikler kullanılarak değerlendirilmiştir. Değerlendirme için 10 farklı kategoriden 7310 tane Arapça dijital belgenin metnini içeren Yeni Arapça Veri Kümesi (NADA) kullanılmıştır. Sonuçlar, Gri Kurt Optimizasyonu, her bir metni temsil etmek için kullanılan sayım vektörlerinin boyutunu önemli ölçüde azaltmasıyla Lineer SVM sınıflandırıcısının performansını arttırarak dengeli bir performans elde ettiğini, göstermektedir. Gri Kurt Optimizasyon Algoritması tarafından kullanılan 2395 tane özelliğe kıyasla, Yapay Arı Kolonisi Optimizasyon Algoritması, her vektörde 4706 özellik kullanarak % 98.91 F1 –Skorlu Lineer SVM sınıflandırıcısıyla aynı performansı elde etmeyi başardı. Ek olarak, PSO, her bir vektör için sadece 1440 tane özellikle en kısa vektörleri kullanarak, optimizasyon olmadan, sınıflandırıcının performansını % 98.77'den , % 98.84 F1 –Skoruna çıkararak az oranda iyileştirebildi. En düşük performans ise sınıflandırıcının performansında herhangi bir iyileşme sağlamayan ve sayım vektörlerindeki özelliklerin sadece ikisini ortadan kaldırabilen Yapay Arı Kolonisi Optimizasyon Algoritması ile elde edilir.

Özet (Çeviri)

Data mining techniques are being widely used in different applications according to their outstanding performance in different applications. Arabic Text Categorization (ATC) is one of the applications that use data mining to classify texts written by humans into their categories. However, according to the huge amount of information in these texts, it is important to eliminate any less-relevant information, so that, less complex techniques can be used to classify these texts in less time. Moreover, inputs to data mining techniques are required to be vectors of fixed number of features. Thus, selecting the most important and relevant features can significantly improve the performance of the classifier. Term Frequency (TF) is one of the widely used techniques to measure the importance of distinct words in the corpus. Terms of high frequency are of less importance as they cannot provide significant knowledge to the classifier to distinguish the category of the input text. Additionally, despite the ability of using rare terms to recognize the category of the input, the rareness of these terms increases the complexity of the required model with very limited knowledge, which reduces the efficiency of the application. Thus, bio-inspired optimization algorithms are being widely used to select the range of the frequencies that produces balanced performance regarding the accuracy of the predictions of the classifier and the timer required to compute these predictions. However, according to the use of different datasets with different optimization functions, a reasonable comparison cannot be conducted among the performance of these optimization functions. In this study, the performance of the Support Vector Machine (SVM) classifier is evaluated using features extracted from the texts based on the range of frequencies selected by four bio-inspired optimization algorithms, which are the Particle Swarm Optimizer (PSO), Artificial Bee Colony (ABC), Gray Wolf (GW) and Firefly Algorithm (FA). The New Arabic Dataset (NADA), which contains text of, 7310 Arabic digital documents from 10 different categories, is used for the evaluation. The results show that the Gray Wolf optimizer has achieved a balanced performance, by improving the performance of the Linear SVM classifier while significantly reduce the size of the count vectors used to represent each text. The Artificial Bee optimizer has also been able to achieve the same performance of the Linear SVM classifier of 98.91% F1-score but using 4706 features in each vector, compared to 2395 by the GW optimizer. Additionally, the PSO has been able to slightly improve the performance of the classifier to 98.84% F1-score, compared to 98.77% without optimization, using the shortest vectors, with only 1440 features per each vector. The lowest performance is achieved by the Artificial Bee optimizer, which has only been able to eliminate two of the features in the count vectors without any improvement in the performance of the classifier.

Benzer Tezler

  1. Parkinson's disease diagnosis by using autoencoder based on deep neural network (DNN) and metaheuristic method

    Derin sinir ağına dayalı otokodlayıcı ve metasezgisel yöntem ile parkinson hastalığının teşhisi

    BEYHAN GERGERLİ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FATİH VEHBİ ÇELEBİ

  2. Görüş sınıflandırma için makine öğrenmesi algoritmalarına dayalı bir yöntem tasarımı ve gerçekleştirimi

    The design and implementation of a method for opinion classification based on machine learning algorithms

    AYTUĞ ONAN

    Doktora

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA SERDAR KORUKOĞLU

    YRD. DOÇ. DR. HASAN BULUT

  3. Otonom araçlar için makine öğrenmesi teknikleri kullanılarak saldırı tespit sistemi geliştirilmesi

    Development of intrusion detection system by using machine learning techniques for autonomous vehicles

    DOĞUKAN AKSU

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED ALİ AYDIN

  4. Evrişimsel sinir ağları ve çekirge optimizasyon algoritması kullanarak kolon kanser hastalığı tesbiti

    Colon cancer disease diagnose with convolutional neural network and grasshopper optimization algorithm

    AMNA ALI A MOHAMED

    Doktora

    Türkçe

    Türkçe

    2024

    Mühendislik BilimleriKastamonu Üniversitesi

    Malzeme Bilimi ve Mühendisliği Ana Bilim Dalı

    PROF. DR. AYBABA HANÇERLİOĞULLARI

  5. A hybrid deep learning metaheuristic model for diagnosis of diabetic retinopathy

    Diyabetik retinopatinin tanısı için hibrit bir derin öğrenme meta-sezgisel modeli

    ÖMER FARUK GÜRCAN

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA