Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması
Efficient arabic text classification using feature selection techniques and genetic algorithm
- Tez No: 788496
- Danışmanlar: DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Yalova Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 133
Özet
Son yıllarda internet kullanıcılarının sayısındaki önemli artışa, özellikle metin verileri olmak üzere her an paylaşılan veri sayısında çok büyük bir artış eşlik etti. Metin verisi sayısındaki bu büyük artış, araştırmacıların bu büyük miktardaki veriyle başa çıkabilmeleri ve önceden tanımlanmış kategoriler halinde sınıflandırabilmeleri için metin sınıflandırma teknikleri geliştirmelerini gerekli kılmaktadır. Sınıflandırıcıları kullanan metin sınıflandırma teknikleri, terim ağırlıklandırma yöntemleri ve özellik seçme yöntemleri tarafından belirlenen özelliklere dayalı olarak metin belgelerinin hangi sınıflara ait olduğunu belirler. Arapça, İngilizce gibi diğer dillere, Almanca ve İspanyolca gibi Avrupa dillerine ve Çince gibi bazı Asya dillerine kıyasla yeterli miktarda metin sınıflandırma çalışması almayan dillerden biri olarak kabul edilmektedir. Arapça, dünyadaki en çok kullanılan dillerden biri olarak kabul edilir ve İnternet'teki Arapça kullanıcılarının sayısı son yirmi yılda çok büyük bir oranda artmıştır. Arapça ile ilgili araştırma eksikliği birkaç nedenden kaynaklanmaktadır, bunlardan en önemlisi, genel olarak Arapça metinlerle uğraşmanın, Arapça konuşanlar için bile İngilizce gibi diğer yaygın kullanılan dillerde yazılmış metinlerle uğraşmaktan çok daha zor olmasıdır. Arapça, dünyadaki en çok türetilmiş dillerden biridir ve bu, onunla uğraşmayı zor bir görev haline getirir ve onu araştırmacılar için büyük bir meydan okuma haline getirir. Çeşitli metin sınıflandırma teknikleri ve optimizasyon algoritmaları kullanılarak veri toplama, veri işleme ve metin sınıflandırma teknikleri ve yöntemleri zaman içinde geliştikçe, metin sınıflandırma ile ilgili çalışmalar uzun zaman önce başlamıştır. Arapça metinlere gelince, Arapça metinlerin tasnifini ele alan pek çok çalışma olmasına rağmen, çalışmalar tam ayrıntılardan yoksundu ve maksimum fayda sağlamak için birçok tekniği tek bir sisteme entegre etmeye yönelik çok fazla girişim yoktu. Etkili bir metin sınıflandırma modeli oluşturmanın ilk adımı, uygun bir veri kümesi seçmektir. Bu tezde, web kazıma teknikleri kullanılarak yeni bir Arapça veri seti oluşturulacaktır. Yeni veri seti, her versiyona uygulanan farklı ön işleme teknikleri seti ile dört farklı versiyon içeriyor. Dört versiyonun tümü test edilir ve aşağıdaki deneylerde kullanılmak üzere uygun veri versiyonu, en iyi performansa sahip veri versiyonu, seçilir. Ortak özellik seçim tekniklerinin, filtreleme özellik seçim yöntemi ve sarmal özellik seçim yöntemi, tek bir yaklaşımda kombinasyonuna dayanan geliştirilmiş bir yaklaşım, seçilen veri sürümden en iyi özellikleri seçmek için dört sınıflandırıcı, 21 terim ağırlıklandırma yöntemleri ve genetik algoritma ile iki yöntemin avantajlarından en iyi şekilde yararlanmak için kullanılacaktır. İlk aşamada, filtreleme özellik seçim yöntemi, terim ağırlıklandırma yöntemleri kullanılarak her terime belirli bir değer verilir ve burada en yüksek değere sahip özelliklerin sınıflandırma sürecinde en önemli olduğu varsayılır. En iyi n özellik, terim ağırlıklandırma yöntemlerinden elde edilen puanla seçilir ve metin sınıflandırması için sınıflandırıcılarla birlikte kullanılır. Filtreleme özellik seçim yöntemi aşamasının amacı, en iyi sınıflandırıcıyı ve terim ağırlıklandırmanın en iyi 5 yöntemleri seçmektir. Kullanılacak yöntemlerin sayısını azaltmak, özelliklerin en iyi alt kümesini bulmak için genetik algoritma ile kullanmak üzere özenle seçilmiş bir yüksek kaliteli özellikler kümesinin seçilmesine yardımcı olacaktır. Filtreleme özelliği seçim yönteminin Sonuçlar tartışıldıktan sonra, her bir yöntem kullanılarak seçilen özellikler kullanılarak elde edilen sonuçlara göre en iyi terim ağırlıklandırma yöntemleri seçilir. En iyi sınıflandırıcıları seçilirken dikkate alınması gereken en önemli noktalardan biri zaman olduğundan, sonuçlara ve elde etmek için gereken süreye bağlı olarak en iyi sınıflandırıcıları seçilir. En iyi yöntemleri seçildikten sonra GA aşaması başlar. Sarmal özellik seçiminde GA, birçok kez en iyi terim ağırlıklandırma yöntemleri kullanılarak seçilen en iyi özellikler üzerinde gerçek biyolojik işlemlere benzer, çaprazlama ve mutasyonlar gibi, işlemler gerçekleştirir; burada özellikler, en iyi özellikleri seçmek için her nesilde değiştirilir ve en iyi özellik alt kümesine ulaşmak için en düşük kaliteli özellikleri azaltır. Genetik algoritma, filtreleme özelliği seçim yönteminden farklı olarak, her denemede seçilen öznitelikleri değiştirir, bu da önerdiğimiz modele daha fazla sayıda iyi öznitelik seçme ve belirli öznitelikler tarafından kısıtlanmama fırsatı verir. Boyut olarak orijinal özellik sayısının %1 ila %90'ı arasında değişen en iyi özellik alt kümesini seçeceğiz. Bu geniş özellik yelpazesinin amacı, mümkün olan en yüksek kalitede mümkün olan en az sayıda özelliği seçmek ve filtre özelliği seçim yöntemi kullanılarak bulunan en iyi sonuçları geride bırakmaktır. Önerilen model, toplam öznitelik sayısının yalnızca %30'una tekabül eden çok daha az sayıda öznitelik kullanarak filtre özelliği seçim yönteminde bulunan en iyi sonuçlardan daha iyi performans gösterebilmiştir. Sonuçlar, önerilen modelin toplam öznitelik sayısının %1-5 kadarını yüksek verimlilikle seçebildiğini göstermiştir. Önerilen sınıflandırma sistemi, toplam özellik sayısının yalnızca %10'unu kullanan sonuçlarının filtreleme özelliği seçim yöntemi kullanılarak elde edilen en iyi sonuçlardan daha iyi olduğu İngilizce gibi diğer dillerle çok etkili olduğunu kanıtlanmış olduğundan, bu iyi sonuçların sadece Arapça ile ilgili olmadığını belirtmekte fayda var. Okuyucunun bu tezde atılan adımların önemini daha geniş ve kolay bir şekilde anlaması için Arapça hakkında genel bir fikir sahibi olması için, bu tür araştırmalarda alışılmadık olan, Arapça dilini açıklayan tam bir bölüm sunuldu. Bu tez, 20'den fazla terim ağırlıklandırma yöntemlerinin örneklerle desteklenen ayrıntılı bir açıklamasını sunmaktadır. Bu tez, yüksek kalitede yeni bir Arapça veri seti sunar ve tüm versiyonlarında, tüm araştırmacılara ve Arapça metin sınıflandırmasıyla ilgilenenlere sunar. Bu tez, Arapça metin sınıflandırma tekniklerini geliştirmeyi amaçlayan gelecekteki araştırmalara yardımcı olmak için her bir metin sınıflandırmasının ve terim ağırlıklandırma yöntemlerinin performansı, 3 değerlendirme metriği kullanılarak değerlendirildi ve en iyi sonuçları elde etmek için gereken çalışma süresi hakkında ayrıntılı bilgi sağlamaya katkıda bulunur. Bu katkılar, önerdiğimiz yaklaşımın büyük üstünlüğüne ek olarak, bu tezin en önemli katkıları arasındadır.
Özet (Çeviri)
The significant growth of the number of Internet users in recent years has been accompanied by a very large increase in the number of data being shared at every moment, specifically text data. This large increase in the number of text data makes it necessary for researchers to try to develop text classification (TC) techniques to be able to deal with this huge amount of data and classify it into pre-defined categories. Arabic is one of the languages that has not received enough TC studies, as dealing with Arabic texts is much more difficult than dealing with texts written in other languages such as English even for Arabic speakers because of its highly derivative nature, which makes it a great challenge for researchers. This thesis aims to establish an effective and integrated Arabic TC system. Web scraping techniques will be used to create a new Arabic dataset that includes many versions. Different pre-processing techniques will be applied to each version before evaluating all versions and selecting the best version to ensure that high quality data is used with the classification system. An improved approach based on the combination of common feature selection (FS) techniques, filter FS method and wrapper FS method, in one approach will be used to make the most of the advantages of the two methods with four classifiers, 21 term weighting (TW) schemes, and genetic algorithm (GA) to select the best features from the selected data version. Filter FS method techniques use the best features found using TW schemes to classify text using classifiers. When all the classifiers and TW schemes have been evaluated, the best classifier and the best 5 TW schemes are selected, which will help to identify a carefully selected set of high-quality features to use with the GA to find the best subset of features. In wrapper FS, the GA performs operations similar to real biological operations, such as crossover and mutations, on the best features selected using best TW schemes many times, where the features are changed in each generation to choose the best features and reduce the lowest quality features to get to the best subset of features. The results show that the proposed approach, hybrid FS- GA approach, can outperform the best results obtained in the filter FS method, a common FS method, using a subset of features with a size of less than 10% of the total feature size and it can also select up to 1% of the original feature size with great efficiency. It is worth noting that these good results are not only related to the Arabic, as the proposed classification system has proven very effective with other languages such as English and Turkish. This thesis presents a new Arabic dataset of high quality and makes it available, in all its versions, to all researchers and those interested in the Arabic TC, and it contributes to provide detailed information about the performance of each TC and TW scheme, and runtime needed to obtain the best results to aid in future research aimed at developing Arabic TC techniques.
Benzer Tezler
- Dimensionality reduction for protein secondary structure prediction
Protein ikincil yapı tahmini için boyut küçültme
YASİN GÖRMEZ
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ZAFER AYDIN
DOÇ. DR. OĞUZ KAYNAR
- Evrişimsel sinir ağları ve çekirge optimizasyon algoritması kullanarak kolon kanser hastalığı tesbiti
Colon cancer disease diagnose with convolutional neural network and grasshopper optimization algorithm
AMNA ALI A MOHAMED
Doktora
Türkçe
2024
Mühendislik BilimleriKastamonu ÜniversitesiMalzeme Bilimi ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYBABA HANÇERLİOĞULLARI
- A comparative evaluation of feature selection algorithms for cancer classification through gene expression data
Gen ifadesi verileri aracılığıyla kanser sınıflandırmasında öznitelik seçme algoritmalarının karşılaştırmalı değerlendirilmesi
ASLI TAŞÇI
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik Mühendisliğiİzmir Ekonomi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TÜRKER İNCE
PROF. DR. CÜNEYT GÜZELİŞ
- Etkin sınıflandırma için genetik algoritma tabanlı öznitelik alt küme seçimi
Feature subset selection method for an effective classification based on genetic algorithm
SHİMA AFZALİ VAHED MOGHADDAM
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. OKTAY YILDIZ
- A detailed analysis of the effects of various combinations of heart rate variability indices in congestive heart failure
Konjestif kalp yetmezliğinde kalp hızı değişkenliği indislerinin çeşitli varyasyonlarınin etkilerinin ayrıntılı analizi
YALÇIN İŞLER
Doktora
İngilizce
2009
Elektrik ve Elektronik MühendisliğiDokuz Eylül ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET KUNTALP