Geri Dön

Doğal dil işlemede ileri seviye metin sınıflandırma: Transformer'ın rolü

Advanced text classification in natural languageprocessing: The role of transformer

  1. Tez No: 957473
  2. Yazar: MERT HALİL DURAK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ CENGİZ HARK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: İnönü Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 66

Özet

Bu tez çalışması, doğal dil işleme (Natural Language Processing, NLP) alanında metin sınıflandırma problemlerine yönelik geliştirilmiş geleneksel yöntemler (Naive Bayes ve Destek Vektör Makineleri) ile son yıllarda büyük başarı gösteren Transformer tabanlı modellerin (BERT, RoBERTa, GPT, T5, DistilBERT) karşılaştırmalı analizini kapsamaktadır. Çalışmanın temel amacı, farklı veri setlerinde bu yöntemlerin sınıflandırma performanslarını ölçmek ve elde edilen sonuçları doğruluk, kayıp oranları ve genel model başarısı açısından detaylı şekilde irdelemektir. Tez kapsamında AG News, IMDb ve SST-2 veri setleri kullanılmış; metin verileri uygun ön işleme süreçlerinden geçirilmiş ve hem geleneksel hem de Transformer tabanlı modellere entegre edilmiştir. Naive Bayes ve SVM gibi yöntemler, metin özelliklerini temel istatistiksel özellikler üzerinden değerlendirirken, Transformer tabanlı modeller ise dikkat mekanizması (attention mechanism) ve büyük ölçekli önceden eğitilmiş dil modelleri sayesinde bağlamsal bilgi zenginliğinden yararlanmıştır. Uygulama ve deneyler aşamasında her bir model veri setleri üzerinde eğitilmiş ve test edilmiştir. Sonuçlar, Transformer modellerinin genel olarak geleneksel yöntemlere kıyasla daha yüksek doğruluk oranlarına ulaştığını, ancak hesaplama maliyetleri ve eğitim süresi açısından geleneksel yöntemlerin hala avantajlı olduğunu ortaya koymuştur. Ayrıca, farklı modellerin sınıflandırma başarısı veri setine ve problem türüne göre değişiklik göstermektedir; örneğin, RoBERTa modeli AG News ve SST-2 veri setlerinde en yüksek doğruluk oranını sağlarken, IMDb veri setinde BERT modeli öne çıkmıştır. Bu tezde elde edilen bulgular, gelecekteki NLP uygulamaları için model seçiminde yol gösterici nitelikte olup, hem akademik hem de endüstriyel uygulamalara katkı sağlamayı hedeflemektedir. Sonuçlar, ayrıca Transformer mimarisinin güçlü yanlarının yanı sıra sınırlılıklarına da dikkat çekmekte ve daha verimli ve etkin yöntemler geliştirmek için bir temel sunmaktadır.

Özet (Çeviri)

This thesis covers the comparative analysis of traditional methods (Naive Bayes and Support Vector Machines) developed for text classification problems in the field of Natural Language Processing (NLP) and Transformer-based models (BERT, RoBERTa, GPT, T5, DistilBERT) that have shown great success in recent years. The main purpose of the study is to measure the classification performances of these methods on different data sets and to examine the obtained results in detail in terms of accuracy, loss rates and general model success. Within the scope of the thesis, AG News, IMDb and SST-2 datasets were used; text data was subjected to appropriate pre-processing processes and integrated into both traditional and Transformer-based models. While methods such as Naive Bayes and SVM evaluate text features based on basic statistical properties, Transformer-based models benefit from the richness of contextual information thanks to the attention mechanism and large-scale pre-trained language models. In the implementation and experiment phase, each model was trained and tested on the datasets. The results showed that Transformer models generally achieved higher accuracy rates compared to traditional methods, but traditional methods still had an advantage in terms of computational costs and training time. In addition, the classification success of different models varies according to the dataset and problem type; for example, the RoBERTa model achieved the highest accuracy rate on the AG News and SST-2 datasets, while the BERT model stood out on the IMDb dataset. The findings obtained in this thesis are of a guiding nature in model selection for future NLP applications and aim to contribute to both academic and industrial applications. The results also highlight the strengths as well as limitations of the Transformer architecture and provide a basis for developing more efficient and effective methods.

Benzer Tezler

  1. Hiperspektral görüntü analizinde ileri spektral ve uzamsal yöntemler

    Advanced spectral and spatial methods for hyperspectral image analysis

    İBRAHİM ONUR SIĞIRCI

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN BİLGİN

  2. İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması

    Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems

    EZGİ YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Essays on estimation methods

    Tahmin yöntemleri üzerine makaleler

    YASİN KÜTÜK

    Doktora

    İngilizce

    İngilizce

    2019

    Ekonometriİstanbul Teknik Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. BÜLENT GÜLOĞLU

  4. Design, modelling and control of a nano quadrotor withmicrocontroller based vision system for object tracking

    Nesne takibi için bir nano dört rotorlu helikopterin tasarımı, modellenmesi ve mikrodenetleyici tabanlı görüntü sistemi ile kontrolü

    MUSTAFA ENES KIRMACI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA YALÇIN

    PROF. DR. ERDİNÇ ALTUĞ

  5. Cezanın belirlenmesi ve bireyselleştirilmesi

    Determination and individualization of punishment

    IRMAK KORUCULU

    Doktora

    Türkçe

    Türkçe

    2021

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. VESİLE SONAY EVİK