Geri Dön

Geleneksel makine öğrenimi ve derin öğrenme modelleri ile Türkçe metin sınıflandırmada kelime temsil yöntemlerinin etkisi

The effect of word representation methods on Turkish text classification with traditional machine learning and deep learning models

  1. Tez No: 859818
  2. Yazar: NİHAL DUMAN SUNA
  3. Danışmanlar: PROF. DR. OĞUZ KAYNAR
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Sivas Cumhuriyet Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: İşletme Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 157

Özet

Yapay zekânın bir kolu olan doğal dil işleme metin verilerin üretilmesine, işlenmesine, sınıflandırılmasına ve idare edilebilmesine olanak sağlar. Doğal dil işleme büyük metin verilerinin işlenmesi ve farklı amaçlar için kullanılması açısından etkin ve önemlidir. Doğal dil işleme alanlarından metin sınıflandırma metin verilerden anlamlı bilgiler çıkarılmasında önemli bir yere sahiptir. Çalışmada Türkçe metin verileri üzerinde farklı kelime temsil yöntemleri kullanılarak, geleneksel makine öğrenimi algoritmaları, derin öğrenme modelleri ve transformer modelleri ile sınıflandırma işlemi yapılmış ve ortaya koydukları sınıflandırma performansları karşılaştırılmıştır. Literatürde Türkçe metinlerin sınıflandırılmasına yönelik uygulamaların az olması sebebiyle çalışma için Türkçe bir veri seti tercih edilmiştir. Kullanılan veri seti, yaklaşık 25 bin Türkçe haber metninden oluşmaktadır. Veri setinde yer alan haber metinleri, python programlama dili kullanılarak belirtilen yöntem ve modeller ile 9 farklı kategori başlığı altında sınıflandırılmıştır. Sınıflandırma öncesinde, veri önişleme adımları ile normalize edilen metinler, klasik, dağıtılmış ve bağlamsallaştırılmış kelime temsil yöntemleri ile vektörleştirilmiştir. Daha sonra belirlenen kategorilere göre geleneksel makine öğrenimi algoritmaları ve derin öğrenme modelleri ile metin sınıflandırma yapılmıştır. Farklı kelime temsil yöntemlerinin, makine öğrenimi ile metin sınıflandırma sürecine katkıları, farklı dillerde başarılı sınıflandırma performansı göstermiş olan derin öğrenme modellerinin Türkçe metin sınıflandırma performansları ve farklı transformer modellerin sınıflandırma performansları karşılaştırılmıştır.

Özet (Çeviri)

Natural Language Processing, a branch of artificial intelligence, allows the generation, processing, classification and management of text data. Natural language processing is effective and important in processing large text data and using it for different purposes. Text classification, one of the natural language processing fields, has an important place in extracting meaningful information from text data. In the study, classification was carried out on Turkish text data using different word representation methods, traditional machine learning algorithms, deep learning models and transformer models, and their classification performances were compared. Since there are few applications for classifying Turkish texts in the literature, a Turkish data set was preferred for the study. The data set used consists of approximately 25 thousand Turkish news texts. The news texts in the data set were classified under 9 different categories by the specified methods and models using the Python programming language. Before the classification, the texts were normalized with data preprocessing steps and vectorized with classical, distributed and contextualized word representation methods. Then, according to the categories determined, text classification was performed with traditional machine learning algorithms and deep learning models. The contributions of different word representation methods to the text classification process with machine learning, the Turkish text classification performance of deep learning models that have shown successful classification performance in different languages, and the classification performance of different transformer models are compared.

Benzer Tezler

  1. Using traditional and deep machine learning methods on predicting triage level in an emergency room

    Geleneksel makine öğrenmesi ve derin öğrenme yöntemleriyle acil servis triyaj tahminlemesi

    MEHMET YILDIRIM

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Acil TıpBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE UĞUR

    PROF. DR. AYŞE BAŞAR

  2. Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı

    Use of word embedding vectors in text classification through graph conversion

    ELİF DORUKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. İLKER TÜRKER

  3. Deep learning based Turkish video indexing and retrieval system

    Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi

    JAWAD RASHEED

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AKHTAR JAMIL

  4. Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi

    Graph based supervi̇sed data augmentati̇on method for short text classificati̇on

    OMAR BAYRAMLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ARZU KAKIŞIM

  5. Covid-19 hastalığının sınıflandırılmasında derin öğrenme modellerinin performanslarının karşılaştırılması

    Comparison of the performances of deep learning models in classification of Covid-19 disease

    PERVİN SÜRGÜÇOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiKastamonu Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KEMAL AKYOL