Predicting the june 2019 istanbul mayoral electionwith twitter
Twıtter verisi kullanılarak haziran 2019 İstanbul Belediye Başkanlığı seçim tahmini çalışması
- Tez No: 646931
- Danışmanlar: DR. ÖĞR. ÜYESİ SEFER BADAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilişim Uygulamaları Ana Bilim Dalı
- Bilim Dalı: Bilgi ve Haberleşme Mühendisliği Bilim Dalı
- Sayfa Sayısı: 73
Özet
Günümüzde sosyal medyanın etkisi her alanda kendini göstermektedir. Birçok kişi ve kuruluş farklı amaçlarla sosyal medya platformlarını kullanmaktadır. Pek çok kurum iletişim yatırımlarını sosyal mecralar üzerinden yapmaktadır. Bu sosyal medya platformlarının en popülerlerinden biri Twitter'dır. Bu mecra pek çok kişi ve kuruluşun farklı amaçlarla kullandığı aslında bir mikro blog platformudur. Kimi kurumlar Twitter kanalı ile halkla ilişkiler faaliyetleri yürütürken, bazı bireyler de belli konularda kişisel görüşlerini insanlarla paylaşmak için kullanmaktadır. Twitter ayrıca bir araştırma sahası olarak da kullanılmaktadır. Pek çok farklı alanda Twitter üzerinden toplanan veri ile çalışmalar yapılmıştır ve yapılmaya devam edilmektedir. Bu çalışmada da Twitter'ın sağladığı API'lar üzerinden toplanan verilerle seçim tahmini yapılması amaçlanmıştır. Burada sonucu tahmin edilmeye çalışılan seçim 23 Haziran 2019' da yapılan İstanbul Büyükşehir Belediye Başkanlığı seçimidir. Bu seçim aynı zamanda bir tekrar seçimdir. 31 Mart 2019' da yapılan seçimler 6 Mayıs 2019 tarihinde Yüksek Seçim Kurulu kararı ile 23 Haziran 2019' da tekrar edilmiştir. Bu tekrar seçimin tahmin çalışması için öncelikle veri toplama işlemi yapılmıştır. 7 Mayıs 2019 ile 24 Haziran 2019 tarihleri arasında belirlenen kriterlere göre toplanan veriler üzerinde çalışmalar yapılmıştır. Arama için belirlenen kriterler Twitter'da bu seçim için en çok kullanılan kelimelerden seçilmiştir. Toplanan bu veriler öncelikle ön hazırlık aşamalarından geçirilmiştir. Bu ön hazırlık aşamalarından ilki verileri temizleme aşamasıdır. Öncelikle toplanan bu verilerin içerinden retweet'ler temizlenmiştir. Buradaki amaç her tweet'i yalnızca bir defa değerlendirmektir. Bu retweet'lerin orijinal tweet'leri veri seti içerisinde tutulmuştur. Retweet'ler çıkartıldık sonra kalan tweet'ler üzerinde veri temizleme işlemleri devam etmiştir. Burada sırasıyla web bağlantıları, noktalama işaretleri, bağlaçlar ve duraklama sözcükleri veri içerisinden çıkartılmıştır. Daha sonra grafik tabanlı olmayan işaretler tweet'lerden silinmiştir. Verileri temizleme işlemi tamamlandıktan sonra“tokenization”yani tweet'leri kelimelere bölme işlemine geçilmiştir. Tweet'lerin tamamı kelimelere ayrıldıktan sonra bu kelimelerin kökleri bulunmaya çalışılmıştır. Bu kök bulma işlemi için Python dilindeki“spacy”modülünün“Turkish”sınıfı kullanılmıştır. Kelimelerin kökleri bulunduktan sonra tweet'ler elde edilen bu kelime kökleri ile yeniden oluşturulmuştur. Ön hazırlık aşaması tamamlandıktan sonra verilerin işlenmesi için modeller oluşturulmaya ve bunlar test edilmeye başlanmıştır. Çalışmada eğitim ve test için tüm veri seti içerinden rastgele seçilen bir örneklem oluşturulmuştur. Bu örneklemdeki tweet'ler iki kişi tarafından okunmuş ve sınıflandırılmıştır. Bu okuma sırasında iki adet sınıflandırma yöntemi kullanılmıştır. Bu sınıflandırma tekniklerinden biri ile her bir tweet'in duygusu tespit edilmeye çalışılmıştır. Eğer tweet olumlu ise 1, olumsuz ise 2 nötr ise de 0 olarak değerlendirilmiştir. Bir diğer sınıflandırma yöntemi ile de atılan tweet'in kiminle ilgili olduğu tespit edilmeye çalışılmıştır. Eğer bir tweet Ekrem İmamoğlu ile ilgili ise E, Binali Yıldırım ile ilgili ise de B olarak değerlendirilmiştir. Twitter verileri üzerinden seçim sonuçları tahmin edebilmek için dört farklı makine öğrenmesi yöntemi kullanılmış ve bu yöntemler karşılaştırılmıştır. Bu karşılaştırmalar aynı örneklem veri setiyle iki farklı sınıflandırma için yapılmıştır. Bunlardan ilki 5 sınıflı bir sınıflandırma yöntemidir. Bu beş sınıf değeri etiketleme sırasında her tweet için verilen 2 değer baz alınarak oluşturulmuştur. Eğer bir tweet Ekrem İmamoğlu ile ilgili ve olumlu ise A, Binali yıldırım için ve olumlu ise C olarak değerlendirilmiştir. Bir diğer sınıflandırma yöntemi ise 3 sınıflı sınıflandırmadır. Bu sınıflandırma da ise eğer bir tweet Ekrem İmamoğlu için olum veya Binali Yıldırım için olumsuz ise A, Ekrem İmamoğlu için olumsuz veya Binali Yıldırım için olumlu ise B olarak değerlendirilmiştir. Kullanılan makine öğrenmesi algoritmalarını yürütürken mümkün olabilecek en iyi parametreleri belirlemek için“make_pipeline”ve“GridSearchCV”sınıfları kullanılmıştır. Bu çalışma için“10-fold”bir“cross validation”belirlenmiştir ve GridSearchCV sınıfı bu şekilde yürütülmüştür. Kullanılan makine öğrenmesi metotlarına göre parametre setleri oluşturulmuş ve bu setlere verilen değer aralıkları test edilmiştir. Bu yolla her bir parametre için optimum değerin bulunup gerçek veri seti üzerinde kullanılması amaçlanmıştır. Ek olarak, verilerin belirlenen makine öğrenmesi metotlarında yürütülebilir hale getirilmesi için iki farklı“vectorizer”kullanılmıştır. Bunların biri Count Vectorizer ve bir diğeri ise Tfidf Vectorizer'dır. Örneklem üzerinde algoritmalar koşturulduktan sonra en uygun olduğu belirlenen algoritma ile tüm veri seti tahmin edilmeye çalışılmıştır. Bu sırada farkı iki yöntem uygulanmıştır. Bunlardan ilki tüm veriyi belirlenen algoritma üzerinde yürüttükten sonra tweet'lerin atıldıkları tarihten bağımsız olarak oy oranlarının tahmin edilmeye çalışılmasıdır. Bir diğeri ise son bir ayın tweet'leri üzerinde odaklanıp haftalık bazda tahminler yürütmektir. Bu son yöntem geleneksel yollarla belirli tarihler arasında yapılmış seçim anketleri ile bu çalışmadaki sonuçların karşılaştırılabilmesine olanak sağlamıştır. Veriler belirlenen makine öğrenmesi yönteminde yürütülüp sınıfları tahmin edildikten sonra kullanıcı tekilleştirme işlemi başlatılmıştır. Burada amaç tweet'leri atan kullanıcıların tespiti ve veri setindeki tweet'leri atan tüm kullanıcılara ait yalnızca bir görüşün bu çalışmadaki sonuca yansıtılmasıdır. Bunun için iki farklı yöntem kullanılmıştır. İlk yöntemde her bir kullanıcı için tek bir tweet'e ait sınıf değeri alınmış ve bu tweet de kullanıcı tarafından atılan ilk tweet olarak belirlenmiştir. Bir diğer tekilleştirme yönteminde ise her bir kullanıcıya ait tweet'ler sonuçlarına göre gruplandırılmış ve bu gruplardaki tweet sayıları belirlenmiştir. Daha sonra bu gruplar belirlenen sayılara göre büyükten küçüğe doğru sıralanıp ilk grup sonucu seçilmiştir. Bunlara ek olarak herhangi bir tekilleştirme yöntemi yapmadan, direkt belirlenen sınıf sayıları üzerinden de hesaplamalar yapılmış ve sonuçlar hesaplanmıştır. Daha sonra belirtilen makine öğrenmesi algoritması karşılaştırılmıştır. Bu karşılaştırma hem farklı sınıflar için hem de farklı vectorizer'lar için yapılmıştır. Bu kriterler gereğince aynı örneklem üzerinden sınıflandırma yöntemi ve kullanılan vectorizer'lar bazında farklı sınıflandırma raporları elde edilmiştir. Karşılaştırmalar temelde elde edilen doğruluk oranları üzerinden yapılmıştır. Bu karşılaştırmalar sonucunda hem 5 hem de 3 sınıflı sınıflandırma yöntemleri için“Logistic Regression”yöntemi en uygun yöntem olarak belirlenmiştir. 5 sınıflı sınıflandırma yöntemi için“Count Vectorizer”en iyi sonucu verirken, 3 sınıflı sınıflandırma yöntemi için de“Tf-idf Vectorizer”en iyi sonucu vermiştir. Belirlenen makine öğrenmesi metodu üzerinde tüm veri seti çalıştırılmış ve kullanılan farklı sınıflandırma, tarihlendirme ve kullanıcı tekilleştirme yöntemleri bazında farklı sonuçlar elde edilmiştir. Bu sonuçlar gerçek seçim sonucuna göre hem birbirleri ile hem de araştırma şirketleri tarafından yapılıp, yayınlanan anket sonuçları ile karşılaştırılmıştır. Tüm sonuçlar elde edildikten sonra hem kendi aralarında hem de geleneksel anket sonuçları ile karşılaştırıp bir değerlendirme yapabilmek için Ortalama Mutlak Hata (MAE) yöntemi kullanılmıştır. Bu yöntem ile elde edilen sonuçlar değerlendirilerek bir çıkarım sağlanmıştır. Bu karşılaştırmalara göre anket şirketlerinin hata oranları daha düşük çıkmıştır. Bu çalışma için kullanılan yöntemler karşılaştırıldığında ise sınıflandır yöntemleri açısından 5 sınıflı sınıflandırmalar daha iyi sonuçlar vermiştir. Kullanıcı tekilleştirme yöntemleri karşılaştırıldığın da ise ikinci uygulanan yöntem (her bir kullanıcıya ait tweet'lerin sınıflandırma sonuçlarına göre gruplandırıldığı yöntem) daha iyi sonuçlar vermiştir. Son olarak kullanıcı tekilleştirmesi yapılmadan, her tweet'e ait sınıflandırma sonuçlarının kullanılması ile hesaplanan seçim tahmin oranları ise gerçek seçim sonuçlarına çok yaklaşmışlardır. Hata oranları çok düşük çıkmıştır. Tahmin edilmeye çalışılan son İstanbul yerel seçimi, her ne kadar başka adaylar olsa da iki adaylı bir seçim olarak gerçekleşmiştir. Bu durum seçimin sonuçlarında da görülmüştür. İki aday toplamda tüm oyların yüzde 99,2'sini almıştır. Bu tarz iki adaylı seçimler için yapılacak tahminlerde birinci öncelik kazananı doğru bilmektir. Bu durum dikkate alındığında belirtilen yöntemlerin tümünde kazanan taraf doğru tahmin edilmiştir. Ancak Twitter verisi üzerinden yapılan tahminlerde, bir metodun sonucu hariç, hata geleneksel anketlere göre daha fazla çıkmıştır. Bu durum geleneksel yöntemlerin seçim tahmini yapmada halen daha etkili sonuç verdiğini göstermektedir. Öte yandan Twitter üzerinden elde edilen verilerde kullanıcıların demografik bilgilerinin ve ikamet ettiği yerin bilinmemesi gibi bazı kısıtlar ve eksiklikler vardır. Bu kısıtların giderilebileceği ölçüde Twitter üzerinden yapılan tahminler gelişmeye açıktır.
Özet (Çeviri)
Today, the effect of social media demonstrates itself in every area. Many people and organizations use social media platforms for different purposes. Many institutions make their communication investments through social channels. One of the most popular of these social media platforms is Twitter. While some institutions carry out public relations activities through Twitter, some individuals use it to share their personal opinions with people on certain topics. Twitter is also used as a research area. In this study, it is aimed to predict the election with the data collected through the APIs provided by Twitter. The election, the result of which is tried to be predicted, is the Istanbul Mayoral election which was held on 23 June 2019. This election is also a re-election. The election was held on March 31, 2019 was repeated on June 23, 2019 with the decision of the Supreme Election Council on May 6, 2019. To predict this re-election, data collection was performed first. Studies were conducted on the data which collected between May 7, 2019 and June 24, 2019. After the data collection, preliminary preparation stages were begun. The first of these preliminary preparation stages is the data clearing phase. Firstly,“retweets”were removed from these collected data. After the retweets have been removed, data clearing on the remaining tweets has continued. Web links, punctuation, conjunctions and stop words are excluded from the data, respectively. The non-graphic signs were also deleted from tweets. After clearing the data, the process of“tokenization”was started. All the tweets are divided into words, the roots of these words are determined. Once the roots of the words were found, the tweets obtained were rebuilt with these roots. In the study, a randomly selected sample was created from the entire data set for training and testing. The tweets in this sample were read and classified by two people. Two classification methods were used during this annotation. With one of these classification techniques, the emotion of each tweet was tried to be determined. With another classification method, it was tried to be determined who the tweet was about. Four different machine learning methods were used to predict the election results via Twitter data and these methods were compared. These comparisons were made for two different classifications with the same sample data set. The first of these is 5-class classification method. Another classification method is 3-class classification. After the algorithms were run on the sample, the whole data set was tried to be predicted with the algorithm that was determined to be the most suitable. Two different methods were applied during this process. The first of these is to attempt to predict the voting rates regardless of the date. Another is to focus on the tweets of the last month and predict on a weekly basis. After the data were carried out the determined machine learning method and the classes were predicted, the user deduplication process was started. The specified machine learning algorithm has been compared. This comparison is made for different classes as well as for different vectorizers. According to these criteria, different classification reports were obtained based on the classification method and vectorizers. Comparisons are based on the accuracy rates. As a result of these comparisons,“Logistic Regression”method was determined as the most suitable method for both 5-class and 3-class classification methods. The whole data set was run on the determined machine learning method and different results were obtained based on classification, dating and user deduplication methods. After all the results were obtained, the Mean Absolute Error (MAE) was used to compare both with each other and with the traditional poll results. According to these comparisons, the error rates of the poll companies were lower than the models which were used in this study. However, prediction rates which were calculated without user deduplication are very close to the actual election results. Error rates were very low. As a result, there are some limitations and deficiencies in the data obtained through Twitter data such as the demographic information of the users and the place of residence. To the extent that these constraints can be overcome, predictions made on Twitter are open to improvement.
Benzer Tezler
- Akut biliyer pankreatitlerde mortalite ve morbidite belirlenmesinde immun parametrelerin değerlendirilmesi
Evaluation of Immunological Parameters in the Determination of Acute Biliary Pancreatitis Mortality and Morbidity
UFUK OĞUZ İDİZ
Doktora
Türkçe
2021
Allerji ve İmmünolojiİstanbul Üniversitesiİmmünoloji Ana Bilim Dalı
PROF. DR. ALİ OSMAN GÜROL
- Kannabinoid veya kannabinoid türevleri kullanım bozukluğu olan hastalarda psikotik semptom gelişimini yordayan klinik ve genetik faktörler
Clinical and genetic factors predicting the development of psychotic symptoms in patients with cannabinoid or cannabinoid derivatives use disorder
MİNE ELİF TÜRE SÖZER
Tıpta Uzmanlık
Türkçe
2019
PsikiyatriSağlık Bilimleri ÜniversitesiRuh Sağlığı ve Hastalıkları Ana Bilim Dalı
DOÇ. DR. PINAR ÇETİNAY AYDIN
- Bakteriyemik hastalarda prokalsitonin düzeyi ile enfeksiyon etkeni ve enfeksiyon odağı arasındaki ilişkinin incelenmesi
Investigation of the relationship between theprocalcitonin level and infection agent and infectionregion in bacteraemic patients
BÜŞRA DUTAĞAÇ
Tıpta Uzmanlık
Türkçe
2019
Klinik Bakteriyoloji ve Enfeksiyon HastalıklarıSağlık Bilimleri ÜniversitesiEnfeksiyon Hastalıkları ve Klinik Mikrobiyoloji Ana Bilim Dalı
PROF. DR. İLYAS DÖKMETAŞ
- İnşaat projelerinin satınalma yönetiminde iç kontrol aracı olarak süreç madenciliği
Process mining as an internal control tool in procrument management of construction projects
BURHAN SARAL
Yüksek Lisans
Türkçe
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CEMİL CEYLAN
- Preterm bebeklerin uyku-uyanıklık örüntülerini etkileyen faktörlerin aktigrafi, aEEG, uyku günlükleri ve doğrudan gözlem ile değerlendirilmesi
Assessment of factors affecting sleep-wake patterns in preterm infants by actigraphy and aEEG: Prediction of neurodevelopmental outcome
ÖZGE ÜLGEN
Tıpta Uzmanlık
Türkçe
2020
Çocuk Sağlığı ve HastalıklarıMarmara ÜniversitesiÇocuk Sağlığı ve Hastalıkları Ana Bilim Dalı
PROF. DR. PERRAN BORAN