Makine öğrenmesiyle kazak dilinde yeni bir topluluk anahtar kelime çıkarım modeli
A novel ensemble keyword extraction model in the kazakh language with machine learning
- Tez No: 797484
- Danışmanlar: PROF. DR. AYDIN ÇETİN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 104
Özet
Anahtar kelime çıkarımı; otomatik dizin oluşturma, özetleme, sınıflandırma, kümeleme ve otomatik filtreleme gibi birçok uygulama için çözülmesi gereken temel problemlerden biridir. Diğer dillerin yanı sıra, Kazakça'da internet üzerinden bilgiler her geçen gün muazzam bir şekilde artmaktadır. Büyük miktarda metni veya makaleyi işlemek için otomatik bir anahtar kelime çıkarımı sistemi büyük talep görmektedir. Bu tez çalışmasında Kazak haber sayfalarından anahtar kelime çıkarımı için yeni bir model önerilmektedir. Topluluk Token Sınıflandırma modülünde Rastgele Orman (Random Forest), Aşırı Gradyan Artırma (XgBoost), Oylama Sınıflandırması (Voting Classification) topluluk algoritmaları ve Karar Ağacı (Decision Tree) algoritması ayrı ayrı eğitilmiş ve test edilmiştir. Önerilen yöntem, anahtar kelime çıkarımı problemini bir dizi etiketleme problemi olarak çözüyor. Önerilen modelin eğitilmesi ve test edilmesi için Kazak ve Rusça haber sayfalarından veri setleri derlenmiştir. Bu veri kümeleri üzerinde istatistiksel ve grafik öznitelikler kullanılarak yeni Topluluk Anahtar Kelime Çıkarımı (T-AKÇ) modeli önerilmiştir. Modelin başarımını ölçmek için literatürde yaygın olarak kullanılan İngilizce dilinde haber içeriklerinden oluşan 500N-KPCrowd veri kümesi için sonuçlar alınmış ve yeni derlenmiş veri kümelerinden alınan sonuçlarla karşılaştırılmıştır. Önerilen model ile, 500N-KPCrowd ve Rus veri kümelerinde sırasıyla 0,71 ve 0,86 F1 skoru elde edilmiştir. Kazak veri kümesi için 0,97 en iyi F1 skoru ile literatürdeki en yüksek sonuca ulaşılmıştır.
Özet (Çeviri)
Keyword extraction is one of the main problems to be solved for many text mining applications such as automatic indexing, summarization, classification, clustering and automatic filtering. The text data on the Internet in Kazakh is increasing gradually like the other languages daily. Automated keyword extraction is essential when dealing with large amounts of text or articles. In this thesis, a new ensemble model for keyword extraction from Kazakh news pages is proposed. The Ensemble Token Classification module, Random Forest, XgBoost, Voting Classification ensemble algorithms and Decision Tree algorithm are trained and tested separately. The proposed method solves the keyword extraction problem as a sequence labelling problem. Datasets from Kazakh and Russian news were compiled to train and test the proposed model. A new Ensemble Keyword Extraction Model (EnsembleKEM) was proposed using graphical and statistical features for these datasets. To measure the performance of the model, the results for the 500N-KPCrowd dataset, which consists of news content in English widely used in the literature, were used and compared with the results for the newly compiled datasets. Using the proposed model, F1 skors of 0,71 and 0,86 were obtained in the 500N-KPCrowd and Russian datasets, respectively. The highest result in the literature was obtained with the best F1 skor of 0,97 for the Kazakh dataset.
Benzer Tezler
- Warehouse location selection in retail industry using machine learning and multi criteria decision making
Perakende sektöründe makine öğrenmesi ve çok kriterli karar verme ile depo yeri seçimi
NADİ KAZAZ
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri MühendisliğiMarmara ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. CEM ÇAĞRI DÖNMEZ
DR. ÖĞR. ÜYESİ DORUK ŞEN
- Development of a machine learning prediction model for construction safety management
İnşaat iş güvenliği yönetimi için makine öğrenmesine dayalı tahmin modeli geliştirilmesi
KERİM KOÇ
Doktora
İngilizce
2022
İnşaat MühendisliğiYıldız Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. ASLI PELİN GÜRGÜN
- Dolar endeksi, Nasdaq endeksi, altın ve Bitcoin değerlerinin birbirlerine bağlı olarak makine öğrenmesi yöntemleriyle tahmin edilmesi
Estimating the values of dollar index, Nasdaq index, gold and Bitcoin depending on each other by machine learning methods
SAMET KAAN KANAK
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAZİM İŞCAN
- Characterization of time-based degradation effects and machine learning-based modeling of hot carrier injection in 40 NM CMOS transistors
40 NM CSMOS transistörlerde sıcak taşıyıcı enjeksiyonunun zaman bazlı bozulma etkilerinin karakterizasyonu ve makine öğrenimine dayalı modellenmesi
XHESİLA XHAFA
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA BERKE YELTEN
- Real-time crash risk analysis using deep learning
Derin öğrenmeyle gerçek zamanlı kaza risk analizi
SAEID MORADI
Yüksek Lisans
İngilizce
2022
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ OSMAN ATAHAN