Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi
Detecting offensive content by performing senti̇ment analysis in turkish texts
- Tez No: 759307
- Danışmanlar: PROF. DR. HADİ GÖKÇEN, DR. ÖĞR. ÜYESİ İLYAS ÖZER
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Yönetim Bilişim Sistemleri Bilim Dalı
- Sayfa Sayısı: 105
Özet
Sosyal medya mecralarının hızlı büyümesiyle birlikte daha fazla kullanıcı, görüşlerini ve fikirlerini çevrimiçi olarak paylaşmaktadır. Bu büyümenin ardından insanların varlıklara yönelik fikirlerini, duygularını, değerlendirmelerini, tutumlarını ve bunların yazılı metinde ifade edilen niteliklerini analiz eden duygu analizi çalışmaları popüler bir çalışma alanı haline gelmiştir. Bununla birlikte popüler sosyal medya platformlarından biri olan Twitter, sunduğu konu çeşitliliği sebebiyle duygu analizi çalışmalarında yaygın olarak kullanılmaktadır. Çeşitli içerik formlarını kullanarak fikirlerin kolayca paylaşılmasını sağlayan bu sosyal medya platformunda kullanıcıların paylaşımları arasında saldırgan dil barındıran içeriklerin önemli oranda arttığı gözlemlenmiştir. Bu durum saldırgan dile maruz kalan kullanıcıların psikolojik iyi oluşlarını olumsuz yönde etkiler. Bununla birlikte sadece insanlar değil kurumsal firmalar da bu saldırgan dile maruz kalmaktadırlar. Bu şiddetin tekrarlanması, bu durumun normalleşme ve daha da artması sonucunu doğurmaktadır. Çalışma Türkçe dilinde bu sorunun otomatik çözümüne katkı sağlamayı amaçlamaktadır. Bu çalışmada Twitter platformundan elde edilen veri seti oluşturulmuştur. 14752 Türkçe tweet metninden oluşan bu veri seti etiketleyiciler tarafından manuel olarak etiketlenmiştir. Etiketlenen verileri sınıflandırma da en popüler derin öğrenme yöntemleri kullanılmıştır. Bu derin öğrenme yöntemleri CNN, LSTM, BiLSTM, GRU, BiGRU ve CNN-LSTM' dir. Bu modellerin sınıflandırma performansları karşılaştırılmıştır. Bununla birlikte makine öğrenmesi yöntemi olan SVM modelinin sınıflandırma performansı da karşılaştırılmıştır. Çalışmada ikili ve çoklu sınıflandırma yapılmıştır. Çalışma saldırgan dil tanımlama ile ilgili Türkçe için çoklu sınıflandırma yapılan ilk çalışmadır. Bunlara ek olarak Twitter platformundan elde edilen 1 milyon 860 bin tweet metninden oluşan genişletilmiş derlem elde edilmiştir. Burada Word2vec yöntemi ile kelime temsilleri elde edilmiştir. Böylelikle genişletilmiş derlem kullanımının sınıflandırma performanslarına katkısı karşılaştırılmıştır. Çalışmada yapılan ikili sınıflandırma da genişletilmiş derlem kullanımıyla en yüksek performans GRU modeli F1-skor değeri %96,65'tir. Bu sebeple çoklu sınıflandırma yapılırken GRU modeli kullanılmıştır. Çoklu sınıflandırmada elde edilen sınıflandırma performans değerleri genişletilmiş derlemin katkısıyla GRU F1-makro değeri %71,97 ve %54,10'dur.
Özet (Çeviri)
Social media channels is growing rapidly, more users share their views and ideas online. After this growth, sentiment analysis studies, which analyze people's ideas, feelings, evaluations, attitudes towards entities and their qualities expressed in written text, have become a popular field of study. However, Twitter, one of the popular social media platforms, is widely used in sentiment analysis studies due to the variety of topics it offers. It has been observed that content containing offensive language has increased significantly among users' posts on this social media platform, which enables easy sharing of ideas by using various content forms. This situation negatively affects the psychological well-being of users who are exposed to offensive language. However, not only people but also corporate companies are exposed to this offensive language. The repetition of this violence results in the normalization and further escalation of this situation. Our study aims to contribute to the automatic solution of this problem in Turkish language.In this study, the data set obtained from the Twitter platform was created. This dataset, consisting of 14752 Turkish tweet texts, was tagged manually by the taggers. The tagged data used the most popular deep learning methods. These deep learning methods are CNN, LSTM, BiLSTM, GRU, BiGRU and CNN- LSTM. The classification performances of these models were compared. In addition the classification performance of SVM model which is a machine learning model was also compared. In our study, binary and multiple classification was made. Our study is the first multi-classification study on offensive language identification. In addition to these, an expanded corpus of 1 million 860 thousand tweets obtained from the Twitter platform was obtained. Here, word representations were obtained with the Word2vec method. Thus, the contribution of the use of extended corpus to the classification performances was compared. Thus, the highest performance GRU model F1- score value is 96.65% with the use of extended corpus in binary classification. For this reason, the GRU model was used while performing multiple classification. The classification performance values obtained, with the contribution of the expanded corpus, are 71,97 % and 54,10 % for the GRU F1-macro value.
Benzer Tezler
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Emotion analysis of Turkish texts by using machine learning methods
Makine öğrenimi teknikleriyle Türkçe metinlerde duygu analizi
ZEYNEP BOYNUKALIN
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR ŞENKUL
- Türkçe metinlerde farklı temsil modelleri ve öğrenme yöntemleri ile duygu analizi karşılaştırması
Comparison of sentiment analysis with different representation models and learning methods in Turkish texts
KADRİYE MARANGOZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA ÖZGÜR CİNGİZ
- 7. sınıf Türkçe ders kitabının bağlaşıklık ve tutarlılık açısından incelenmesi
Examination of the 7th grade Turkish textbook in terms of coherence and cohesion
YUNUS ALPEREN ÖNCEL
Yüksek Lisans
Türkçe
2023
DilbilimBursa Uludağ ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
DOÇ. DR. MİNARA ALİYEVA ÇINAR
- Kısa metinlerden sosyal duygu sınıflandırma için makine öğrenmesi tabanlı yöntemlerin geliştirilmesi
Development of machine learning based methods for social sentiment classification from brief texts
FATMA BAŞKAYA
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN