Kelime yörüngeleri ile metin sınıflandırma
Text classification with word trajectories
- Tez No: 432206
- Danışmanlar: YRD. DOÇ. DR. MEHMET FATİH AMASYALI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Bir kişi tarafından yazılan metinler analiz edilerek, metinlerin yazarına dair hangi çıkarımların yapılabileceği sorusunun popülerliği günümüzde artarak devam etmektedir. İnternetin yaygınlaşmasıyla, elektronik ortamda üretilen ve büyük bölümü metinlerden oluşan verilerin miktarı da çok hızlı bir şekilde artmaktadır. Şimdiye kadar metinden yola çıkarak, yazarın kim olduğunu, cinsiyetini, yaşını, karakterini, hatta politik eğilimini gibi birçok özelliğini tahmin etmeye yönelik çok sayıda çalışma yapılmış ve yapılmaya devam etmektedir. Bu tezde ise iki farklı veri kümesi kullanılarak iki farklı hipotez üzerinde çalışma yapılmıştır. Birinci çalışmadaki amaç metinden yola çıkarak yazarın anksiyete veya depresyon gibi bir psikolojik hastalığının olup olmadığının tahminin yapılmasıdır, ancak bu çalışmada istenen başarı oranları elde edilememiştir. İkinci çalışmadaki amaç ise, en popüler mikroblog sitesi olan Twitter'da kimliğini açıklamadan paylaşımlar yapan kullanıcıların kim olduğunun, aday yazarların makaleleri kullanılarak tahmin edilmesidir ve bu çalışmada yüksek başarı oranları elde edilmiştir. Yapılan çalışma sonucunda, bir Twitter hesabının kime ait olduğunu tespit etmeye çalışırken, bu hesaptan paylaşılan tweetlerin her birini birer metin olarak değerlendirmektense, belirli sayıda tweeti birleştirerek oluşturulan daha uzun tweet metinlerini kullanmanın çok daha başarılı sonuçlar verildiği görülmüştür. Metinleri sayısallaştırmada kelimelerin kendilerini, köklerini ve 3-gramları kullanılmıştır. Çeşitli sınıflandırıcılar arasından en başarılı sonuçları destek vektör makineleri ile elde edilmiştir.
Özet (Çeviri)
The popularity of the question,“What can be deduced about the author by analyzing the text written by his/her?”is increasingly continuing in our day. With the proliferation of the Internet, the amount of the data which is generated online and mostly consisted of texts is rapidly increasing. Up to now, numerous studies have been done based on text such as author identification, guessing the gender, age, personality, and even political tendency of the author. In this thesis, two studies were done on two hypothesises by using two different data sets. The aim in the first study was guessing the psychological disorders of the author such as anxiety and depression based on his/her text, however the desired accuracy rates could not been obtained in this study. The aim in the second study was identification of the authors who makes sharing without revealing his/her identity on Twitter which is the most popular microblog web site, by using the articles of the candidate authors, and high accuracy rates were achieved in this study. As a result of the study conducted we perceived that, while trying to identify the author of a Twitter account, using the longer tweet texts which are obtained by concatenating the specific number of tweets gives more accurate results than using each tweet individually. The words themselves, their stems and 3-grams were used for digitizing of the texts. The most successful results were achieved with support vector machines from among several classifiers.
Benzer Tezler
- Envisioning plural futures through narratives and design
Anlatılar ve tasarım ekseninde çoklu gelecek tahayyülleri
ELİF GÖZDE ÖZTOPRAK
Yüksek Lisans
İngilizce
2018
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. PELİN DURSUN ÇEBİ
- Vocabulary development trajectories of an emergent bilingual child: linguistic, instructional, and socio-interactional perspectives in preschool
Çift dillilik gelişim sürecinde olan bir çocuğun kelime gelişimi yörüngeleri: Okul öncesi dönemde dilbilimsel, öğretimsel ve sosyo-etkileşimsel perspektifler
ERSOY ERDEMİR
Doktora
İngilizce
2013
Eğitim ve ÖğretimState University of New York at BuffaloEğitim Ana Bilim Dalı
PROF. DR. JANINA BRUTT-GRIFFLER
PROF. DR. X. CHRİSTİNE WANG
DOÇ. DR. ERİN KEARNEY
- The effects of story telling and role playing on young learners' vocabulary learning and retention
Hikaye anlatım ve rol oynama yöntemlerinin genç öğrenicilerin kelime öğrenimi ve hatırlamasına etkileri
OSMAN ÖZDEMİR
Yüksek Lisans
İngilizce
2012
Eğitim ve ÖğretimNecmettin Erbakan ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
DOÇ. DR. HASAN ÇAKIR
- A corpus study of academic Turkish vocabulary: Implications for teaching Turkish as a foreign language
Akademik Türkçe kelime bilgisi üzerine bir derlem çalışması: Yabancı dil olarak Türkçe öğretimine dair çıkarımlar
MUSTAFA DOLMACI
Doktora
İngilizce
2015
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ABDULLAH ERTAŞ
- Developing spiral teaching model for vocabulary learning: A communicative and social constructivist language teaching perspective
Kelime öğrenimi için spiral öğretim modeli geliştirilmesi: İletişimsel ve sosyal yapılandırmacı bir dil öğretim perspektifi
AHMET DOLMACI
Yüksek Lisans
İngilizce
2015
Eğitim ve ÖğretimGazi ÜniversitesiYabancı Diller Ana Bilim Dalı
DOÇ. DR. İSKENDER HAKKI SARIGÖZ