Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi
Graph based supervi̇sed data augmentati̇on method for short text classificati̇on
- Tez No: 758884
- Danışmanlar: DR. ÖĞR. ÜYESİ ARZU KAKIŞIM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Ticaret Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 58
Özet
Sosyal mecralarda üretilen ve kullanılan kısa elektronik belge sayısının günden güne artması ile sosyal ağların analizi, olay tespiti, duygu analizi, istenmeyen eposta filtreleme gibi birçok uygulama için kısa metin sınıflandırması önemli bir problem olarak karşımıza çıkmaktadır. Kısa metinler, geleneksel belgelerden farklı olarak, kısalık, seyreklik ve bağlamsal bilgi eksikliği gibi bazı zorluklara sahiptir. Bu zorluklar, geleneksel makine öğrenimi ve derin öğrenme modellerinin performansını olumsuz etkileyebilmektedir. Bu nedenle, son zamanlarda, modellerin başarısını iyileştirmek için yeni veri üretimi ile veri miktarını genişletmeyi amaçlayan veri artırım yaklaşımları geliştirilmektedir. Bu çalışmada, aynı bağlamsal içeriğe sahip olan ama birlikte sıklıkla gözlemlenmeyen kelimeler arasındaki yakınlığı artırmayı amaçlayan graf tabanlı ve gözetimli bir metin veri artırımı yaklaşımı önerilmektedir. Önerilen yöntem, her bir sınıf için bir kelime birlikteliği grafı oluşturmakta ve graf üzerinde rastgele yürüyüşler gerçekleştirerek, sınıf bağlamına özel yeni kısa metinler üretmektedir. Üç farklı veri kümesi üzerinden elde edilen deneysel sonuçlar, önerilen yöntemin temel yöntemlere kıyasla daha iyi performans elde ettiğini göstermektedir.
Özet (Çeviri)
With the increase in the number of short electronic documents produced and used in social media, short text classification emerges as an important problem for many applications such as social network analysis, event detection, sentiment analysis, spam filtering. Short texts, unlike traditional documents, have some challenges such as brevity, sparsity and lack of contextual information. These challenges often negatively affect the performance of traditional machine learning and deep learning models. Therefore, recently, data augmentation approaches have been developed that aim to expand the amount of data with new data generation to improve the success of the models. In this study, a graph-based and supervised text data augmentation approach is proposed, which aims to increase the proximity between words that have the same contextual content but are not frequently observed together. The proposed method creates co-word graph for each class and generates new short texts specific to the class context by performing random walks on the graph. Experimental results obtained on three different datasets show that the proposed method achieves better performance compared to the basic methods.
Benzer Tezler
- Energy aware endurance framework for mission critical aerial networks
Güdümlü havasal ağlar için enerji farkında endürans modeli
YUSUF ÖZÇEVİK
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BERK CANBERK
- Kısa metin sınıflandırma için öznitelik seçimi
Feature selection for short text classification
RASIM ÇEKİK
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER KÜRŞAT UYSAL
- Text categorization using syllables and recurrent neural networks
Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma
ERSİN YAR
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN SERDAR KOZAT
- Investigation of text mining methods on Turkish text
Türkçe metinler üzerinde metin madenciliği yöntemlerinin incelenmesi
EZGİ PASİN
Yüksek Lisans
İngilizce
2018
İstatistikDokuz Eylül Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. SEDAT ÇAPAR
- Doğal dil işleme tekniklerini ve derin öğrenme algoritmalarını kullanarak sosyal ağlarda spam tespiti
Using natural language processing techniques and deep learning algorithms for detecting spam on social networks
REZAN BAKIR
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırıkkale ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HASAN ERBAY