İngilizce ve Türkçe twitter mesajlarının Word2Vec modeli ile sınıflandırılması
Classification of English and Turkish twitter messages by using Word2Vec model
- Tez No: 512017
- Danışmanlar: DR. ÖĞR. ÜYESİ TOLGA AYDIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Atatürk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 105
Özet
Teknolojinin gelişmesi ve internetin tüm dünyaya yayılmasıyla birlikte insanların dünyada meydana gelen değişimlerden her an haberdar olabilmesi için ve kendi düşüncelerini herkese paylaşabilmesi için sosyal medya platformları zamanla gelişmiş durumdadır. Tüm dünyada en çok kullanılan sosyal medya platformlarından biri olan twitter günlük hayatın en önemli parçalarından biri haline gelmiştir. Twitter ile kullanıcılar kendi duygu ve düşüncelerini paylaşarak veri madenciliği alanında sosyal medyada duygu analizi çalışmalarında kullanılabilecek önemli veri kaynaklarını oluşturmaktadırlar. Python programlama dilinde gerçekleştirilen bu çalışmanın ilk aşamasında, kullanıcıların paylaşmış oldukları türkçe twitter mesajlarında metin temsili yöntemlerini kullanarak duygu analizi çalışması gerçekleştirilmiştir. Amaç, terim frekansı tabanlı Tf-Idf(Bag-of-Words) modeliyle anlamsal ilişki tabanlı Word2Vec modelinin duygu analizi çalışmalarında başarıya olan etkilerinin karşılaştırılmasıdır. 3 farklı modelin uygulandığı çalışmanın ilk aşamasında, 3. modelde Word2Vec modeline Random Forest algoritması uygulanmasıyla %66,40 ile en yüksek başarı yüzdesi elde edilmiştir. Elde edilen sonuçlar scikit-learn kütüphanesine ait makine öğrenmesi algoritmalarını kullanıp performans metrikleri kıyaslanarak türkçe doğal dil işleme çalışmalarına literatür katkı sağlanmıştır. Bu çalışmanın ikinci aşamasında ise, ingilizce ve türkçe twitter mesajlarındaki etiketli verilerin sınıflandırılmasında Word2Vec modelinin uygulanması ve mesajlar üzerinde kök alma işleminin Word2Vec modeline olan etkisi araştırılmaktadır. Çalışmamızın ikinci aşamasında, ingilizce ve türkçe olmak üzere iki farklı veri kümesi bulunmaktadır. Her bir veri setine twitter mesajlarının kökleri alınmamış hali ve kökleri alınmış hallerine öznitelik çıkarma yöntemlerinden kelime torbası (bag of words, BOW) ve Word2Vec modelleri uygulanıldı. Python programlama dilinde uygulanılan bu çalışmada, scikit-learn sınıflandırma algoritmalarından Linear SVM ve Logistic Regression uygulanarak başarı yüzdeleri kıyaslanmıştır ve duygu analizi sınıflandırmasında iyi sonuçlar ürettiği gösterilmiştir.
Özet (Çeviri)
With the development of technology and the spread of the internet all over the world, social media platforms have evolved over time so that people can be aware of the changes happening in the world at any moment, and that everyone can share their own thoughts. Twitter, one of the most used social media platforms around the world, has become one of the most important parts of everyday life. With twitter, users share their own feelings and thoughts to create important data sources that can be used in sentiment analysis work on the social media in the field of data mining. In the first phase of this study, which is implemented in python programming language, sentiment analysis was performed by using text representations in turkish twitter messages that users shared. The aim of the study, the performance effects of the term frequency-based Tf-Idf model(Bag-of-Words) and semantic relation based Word2Vec model are compared on sentiment analysis. In the first phase of this study, which applied 3 different models, in the third model, the highest accuracy percentage was obtained with 66.40% by applying Random Forest algorithm to Word2Vec model. The results obtained using the machine learning algorithms from the scikit-learn library compared the performance metrics and provided the literature contribution to turkish natural language processing studies. In the second phase of this study, the implementation of the Word2Vec model in the classification of labeled data in english and turkish twitter messages and the effect of root retrieval on messages on the Word2Vec model are investigated. In this phase, there are two different data sets: English and Turkish. For each data set, the roots of twitter messages have been unfounded and the roots have been extracted using attribute extraction methods, the bag-of-words(BOW) and the Word2Vec models have been applied. In the second phase of this study, we compared the success percentages by applying Linear SVM and Logistic Regression from the scikit-learn classification algorithms in python programming language and demonstrated that it produces good results in sentiment analysis classification.
Benzer Tezler
- Cross cultural analysis of emotions on social media branding communication with evidence from big data
Büyük veriden elde edilen kanıtlarla sosyal medya marka iletişiminde duyguların kültürler arası analizi
ALTUĞ TANALTAY
Doktora
İngilizce
2023
İşletmeSabancı Üniversitesiİşletme Bilim Dalı
PROF. DR. NİHAT KASAP
PROF. DR. SELCEN ÖZTÜRKCAN
- Is it possible that twitter messages have an influence on stock market when taking action?
Twıtter mesajlarının borsada karar alırken etkisi olabilir mi?
GERÇEK ÖZPARLAK
Doktora
İngilizce
2018
İşletmeBahçeşehir Üniversitesiİşletme (İngilizce) Ana Bilim Dalı
PROF. DR. ÜMİT EROL
- Applying machine learning and natural language processing techniques to twitter sentiment classification for turkish and english
Türkçe ve ingilizce twitter duygu sınıflandırması için makine öğrenmesi ve doğal dil işleme tekniklerinin uygulanması
DEĞER AYATA
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Metin verilerinde içerik tabanlı spam tespiti
Content based spam detection in text data
HAMDULLAH KARAMOLLAOĞLU
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. İBRAHİM ALPER DOĞRU
- Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi
Turkish twitter sentiment analysis using text classification techniques
ÖNDER ÇOBAN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞAH TÜMÜKLÜ ÖZYER