Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı
Use of word embedding vectors in text classification through graph conversion
- Tez No: 824704
- Danışmanlar: DOÇ. İLKER TÜRKER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Karabük Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Donanım Bilim Dalı
- Sayfa Sayısı: 76
Özet
Metin sınıflandırma, dijital ortamda sürekli artan miktardaki metin tabanlı belgelerin otomatik sınıflandırılması için yapay zekânın önemli bir uygulama şekli olarak karşımıza çıkmaktadır. Ulaşılabilir verinin üssel biçimde artması, metinleri hızlı biçimde işlemeye olan ihtiyaç, bilgisayarların depolama ve işlem gücünün artması, makine öğrenmesi yöntemlerindeki gelişmeler, bu alanın popülerliğini destekleyen faktörler olarak öne çıkmaktadır. Araştırmacılar metin sınıflandırması için birçok makine öğrenimi yaklaşımı ile doğal dil işlemede üstün sonuçlar elde etmiştir. Bu yaklaşımların başarısı, karmaşık modelleri ve veriler içindeki doğrusal olmayan ilişkileri anlama kapasitelerine bağlıdır. Bu noktada, graf tabanlı yaklaşımlar son yıllarda tercih edilen yöntemler arasında yer almaya başlamıştır. Öte yandan metin gömme (embedding) tekniklerindeki gelişmeler, kelimelerin anlam yükünü taşıyan vektörlerle ifade edilmesini, dolayısıyla yakın anlamlı kelimelerin de benzer sınıflandırma sonuçlarını doğurmasını sağlamış, metin sınıflandırmada önemli bir çığır açmıştır. Bu tez çalışmasında, literatürde sıkça kullanılan metin gömme teknikleri olan Word2Vec, GloVe, FastText ve BERT algoritmaları kullanılarak, değişken öznitelik sayısı altında yapay sinir ağları (YSA) ve derin öğrenme yöntemleri ile metin sınıflandırma yapılmış, ideal metin gömme tekniği ve öznitelik sayısının tespiti sağlanmıştır. Öznitelik belirlenmesinde, ki-kare ağırlık yönteminden yararlanılmıştır. Aynı zamanda sınıflandırma aşaması öncesinde dokümanları temsil eden vektörler görünürlük grafları (visibility graph) yaklaşımı ile graf temsillerine dönüştürülerek evrişimli sinir ağı (CNN) ile sınıflandırılmış, graf tabanlı temsillerin başarısı test edilmiştir. 2 boyutlu graf yapısı kullanılarak CNN ile karşılaştırılan bu model, diğer geleneksel yöntemlere göre daha başarılı olduğu gözlemlenmiştir. Geleneksel yöntemler ve oluşturulan graf temsilli öğrenme yaklaşımı arasında şeffaf bir karşılaştırma yapabilmek için grafları ifade eden bağlantı matrisleri tek boyuta indirgenerek YSA yöntemi ile sınıflandırma yapılmış olup %91.2 oranında bir hassasiyet elde edilmiştir. Sonuçlar, graf temsilli yaklaşımın, geleneksel metin gömme teknikleri ile karşılaştırıldığında daha başarılı olduğunu göstermektedir. Geleneksel yöntemler arasında ise BERT'in diğer yöntemlere göre daha iyi performans gösterdiğini, FastText'in 500 kelimeye kadarki öznitelik sayıları için BERT'e yakın sonuçlar verdiğini, GloVe'un ise en düşük sınıflandırma performansı ile rekabetçi olmaktan uzak olduğunu ortaya koymaktadır. Bu tez çalışması, literatürde değişken öznitelik koşulu altında kelime gömme vektörlerinin görünürlük grafına dönüştürüldüğü ilk çalışma olarak öne çıkmaktadır.
Özet (Çeviri)
Text classification emerges as an important application form of artificial intelligence for the automatic classification of the ever-increasing amount of text-based documents in the digital environment. The exponential increase in accessible data, the need to process texts quickly, the increase in the storage and processing power of computers, and the developments in machine learning methods stand out as the factors supporting the popularity of this field. Researchers have achieved superior results in natural language processing with many machine learning approaches for text classification. The success of these approaches depends on their capacity to understand complex models and nonlinear relationships within data. At this point, graph-based approaches have started to be among the preferred methods in recent years. On the other hand, the developments in text embedding techniques have enabled words to be expressed with vectors that carry semantic load, thus causing similar classification results for words with similar meanings, breaking new ground in text classification. In this thesis, using Word2Vec, GloVe, FastText and BERT algorithms, which are frequently used text embedding techniques in the literature, text classification was made under variable feature count with artificial neural networks (ANN) and deep learning methods, ideal text embedding technique and the number of features were determined. Chi-square weight method was used for feature determination. At the same time, before the classification stage, vectors representing documents were converted into graph representations with the visibility graph approach and classified with a convolutional neural network (CNN), and the success of graph-based representations was tested. This model, which is compared with CNN using 2D graph structure, has been observed to be more successful than other traditional methods. In order to make a transparent comparison between traditional methods and the generated graph representation learning approach, the connection matrices expressing the graphs were reduced to one dimension and the classification was made with the ANN method, and a sensitivity of %91.2 was obtained. The results show that the graph representation approach is more successful compared to traditional text embedding techniques. Among the traditional methods, it reveals that BERT outperforms other methods, FastText gives close results to BERT for attribute counts up to 500 words, while GloVe is far from competitive with the lowest classification performance. This thesis study stands out as the first study in the literature in which word embedding vectors are transformed into visibility graphs under variable attribute condition.
Benzer Tezler
- Predicting software vulnerabilities and vulnerability inducing code changes using deep neural networks
Derin sinir ağlarını kullanarak yazılım güvenlik açıklarını ve güvenlik açığına sebep olan kod değişikliklerini tahmin etme
SEFA EREN ŞAHİN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN
- Aspect-based sentiment analysis for turkish using deep learning model combinations
Türkçe için derin öğrenme modelleri kullanarak özellik bazlı duygu analizi
ALİ ERKAN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Study of word embedding rules and machine learning based text classification
Kelime gömme kuralları ve metin sınıflandırması tabanlı makine öğrenme üzerine bir çalışma
ASMAA AL-GARTANEE
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiMühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı
PROF. DR. ALOK MISHRA
YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR
- Kelime gömme yaklaşımlarının iadesiz torbalanmasına dayanan uzun kısa süreli bellek mimarisi ve metin sınıflandırmasına uygulanması
Long-short term memory architecture based on non-returnable baggigng of word embedding approaches and an application to text classification
MUHAMMET OĞUZHAN YALÇIN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. NEVİN GÜLER DİNCER
- Farklı kelime gömme yaklaşımlarının akademik makalelerden anahtar kelime çıkarımındaki performansının analizi
Performance analysis of various word embeddings for keyword extraction techniques from academic articles
GHAITH M I ASHQAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALEV MUTLU