Geri Dön

Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi

Graph based supervi̇sed data augmentati̇on method for short text classificati̇on

  1. Tez No: 758884
  2. Yazar: OMAR BAYRAMLI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ARZU KAKIŞIM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Ticaret Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 58

Özet

Sosyal mecralarda üretilen ve kullanılan kısa elektronik belge sayısının günden güne artması ile sosyal ağların analizi, olay tespiti, duygu analizi, istenmeyen eposta filtreleme gibi birçok uygulama için kısa metin sınıflandırması önemli bir problem olarak karşımıza çıkmaktadır. Kısa metinler, geleneksel belgelerden farklı olarak, kısalık, seyreklik ve bağlamsal bilgi eksikliği gibi bazı zorluklara sahiptir. Bu zorluklar, geleneksel makine öğrenimi ve derin öğrenme modellerinin performansını olumsuz etkileyebilmektedir. Bu nedenle, son zamanlarda, modellerin başarısını iyileştirmek için yeni veri üretimi ile veri miktarını genişletmeyi amaçlayan veri artırım yaklaşımları geliştirilmektedir. Bu çalışmada, aynı bağlamsal içeriğe sahip olan ama birlikte sıklıkla gözlemlenmeyen kelimeler arasındaki yakınlığı artırmayı amaçlayan graf tabanlı ve gözetimli bir metin veri artırımı yaklaşımı önerilmektedir. Önerilen yöntem, her bir sınıf için bir kelime birlikteliği grafı oluşturmakta ve graf üzerinde rastgele yürüyüşler gerçekleştirerek, sınıf bağlamına özel yeni kısa metinler üretmektedir. Üç farklı veri kümesi üzerinden elde edilen deneysel sonuçlar, önerilen yöntemin temel yöntemlere kıyasla daha iyi performans elde ettiğini göstermektedir.

Özet (Çeviri)

With the increase in the number of short electronic documents produced and used in social media, short text classification emerges as an important problem for many applications such as social network analysis, event detection, sentiment analysis, spam filtering. Short texts, unlike traditional documents, have some challenges such as brevity, sparsity and lack of contextual information. These challenges often negatively affect the performance of traditional machine learning and deep learning models. Therefore, recently, data augmentation approaches have been developed that aim to expand the amount of data with new data generation to improve the success of the models. In this study, a graph-based and supervised text data augmentation approach is proposed, which aims to increase the proximity between words that have the same contextual content but are not frequently observed together. The proposed method creates co-word graph for each class and generates new short texts specific to the class context by performing random walks on the graph. Experimental results obtained on three different datasets show that the proposed method achieves better performance compared to the basic methods.

Benzer Tezler

  1. Energy aware endurance framework for mission critical aerial networks

    Güdümlü havasal ağlar için enerji farkında endürans modeli

    YUSUF ÖZÇEVİK

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BERK CANBERK

  2. Kısa metin sınıflandırma için öznitelik seçimi

    Feature selection for short text classification

    RASIM ÇEKİK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KÜRŞAT UYSAL

  3. Text categorization using syllables and recurrent neural networks

    Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma

    ERSİN YAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN SERDAR KOZAT

  4. Investigation of text mining methods on Turkish text

    Türkçe metinler üzerinde metin madenciliği yöntemlerinin incelenmesi

    EZGİ PASİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    İstatistikDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. SEDAT ÇAPAR

  5. Doğal dil işleme tekniklerini ve derin öğrenme algoritmalarını kullanarak sosyal ağlarda spam tespiti

    Using natural language processing techniques and deep learning algorithms for detecting spam on social networks

    REZAN BAKIR

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırıkkale Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HASAN ERBAY