Geri Dön

Makine öğrenmesiyle kazak dilinde yeni bir topluluk anahtar kelime çıkarım modeli

A novel ensemble keyword extraction model in the kazakh language with machine learning

  1. Tez No: 797484
  2. Yazar: AIMAN ABIBULLAYEVA
  3. Danışmanlar: PROF. DR. AYDIN ÇETİN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 104

Özet

Anahtar kelime çıkarımı; otomatik dizin oluşturma, özetleme, sınıflandırma, kümeleme ve otomatik filtreleme gibi birçok uygulama için çözülmesi gereken temel problemlerden biridir. Diğer dillerin yanı sıra, Kazakça'da internet üzerinden bilgiler her geçen gün muazzam bir şekilde artmaktadır. Büyük miktarda metni veya makaleyi işlemek için otomatik bir anahtar kelime çıkarımı sistemi büyük talep görmektedir. Bu tez çalışmasında Kazak haber sayfalarından anahtar kelime çıkarımı için yeni bir model önerilmektedir. Topluluk Token Sınıflandırma modülünde Rastgele Orman (Random Forest), Aşırı Gradyan Artırma (XgBoost), Oylama Sınıflandırması (Voting Classification) topluluk algoritmaları ve Karar Ağacı (Decision Tree) algoritması ayrı ayrı eğitilmiş ve test edilmiştir. Önerilen yöntem, anahtar kelime çıkarımı problemini bir dizi etiketleme problemi olarak çözüyor. Önerilen modelin eğitilmesi ve test edilmesi için Kazak ve Rusça haber sayfalarından veri setleri derlenmiştir. Bu veri kümeleri üzerinde istatistiksel ve grafik öznitelikler kullanılarak yeni Topluluk Anahtar Kelime Çıkarımı (T-AKÇ) modeli önerilmiştir. Modelin başarımını ölçmek için literatürde yaygın olarak kullanılan İngilizce dilinde haber içeriklerinden oluşan 500N-KPCrowd veri kümesi için sonuçlar alınmış ve yeni derlenmiş veri kümelerinden alınan sonuçlarla karşılaştırılmıştır. Önerilen model ile, 500N-KPCrowd ve Rus veri kümelerinde sırasıyla 0,71 ve 0,86 F1 skoru elde edilmiştir. Kazak veri kümesi için 0,97 en iyi F1 skoru ile literatürdeki en yüksek sonuca ulaşılmıştır.

Özet (Çeviri)

Keyword extraction is one of the main problems to be solved for many text mining applications such as automatic indexing, summarization, classification, clustering and automatic filtering. The text data on the Internet in Kazakh is increasing gradually like the other languages daily. Automated keyword extraction is essential when dealing with large amounts of text or articles. In this thesis, a new ensemble model for keyword extraction from Kazakh news pages is proposed. The Ensemble Token Classification module, Random Forest, XgBoost, Voting Classification ensemble algorithms and Decision Tree algorithm are trained and tested separately. The proposed method solves the keyword extraction problem as a sequence labelling problem. Datasets from Kazakh and Russian news were compiled to train and test the proposed model. A new Ensemble Keyword Extraction Model (EnsembleKEM) was proposed using graphical and statistical features for these datasets. To measure the performance of the model, the results for the 500N-KPCrowd dataset, which consists of news content in English widely used in the literature, were used and compared with the results for the newly compiled datasets. Using the proposed model, F1 skors of 0,71 and 0,86 were obtained in the 500N-KPCrowd and Russian datasets, respectively. The highest result in the literature was obtained with the best F1 skor of 0,97 for the Kazakh dataset.

Benzer Tezler

  1. Warehouse location selection in retail industry using machine learning and multi criteria decision making

    Perakende sektöründe makine öğrenmesi ve çok kriterli karar verme ile depo yeri seçimi

    NADİ KAZAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiMarmara Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEM ÇAĞRI DÖNMEZ

    DR. ÖĞR. ÜYESİ DORUK ŞEN

  2. Development of a machine learning prediction model for construction safety management

    İnşaat iş güvenliği yönetimi için makine öğrenmesine dayalı tahmin modeli geliştirilmesi

    KERİM KOÇ

    Doktora

    İngilizce

    İngilizce

    2022

    İnşaat MühendisliğiYıldız Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ASLI PELİN GÜRGÜN

  3. Dolar endeksi, Nasdaq endeksi, altın ve Bitcoin değerlerinin birbirlerine bağlı olarak makine öğrenmesi yöntemleriyle tahmin edilmesi

    Estimating the values of dollar index, Nasdaq index, gold and Bitcoin depending on each other by machine learning methods

    SAMET KAAN KANAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAZİM İŞCAN

  4. Characterization of time-based degradation effects and machine learning-based modeling of hot carrier injection in 40 NM CMOS transistors

    40 NM CSMOS transistörlerde sıcak taşıyıcı enjeksiyonunun zaman bazlı bozulma etkilerinin karakterizasyonu ve makine öğrenimine dayalı modellenmesi

    XHESİLA XHAFA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA BERKE YELTEN

  5. Real-time crash risk analysis using deep learning

    Derin öğrenmeyle gerçek zamanlı kaza risk analizi

    SAEID MORADI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ OSMAN ATAHAN