Kelime yörüngeleri ile metin sınıflandırma
Text classification with word trajectories
- Tez No: 432206
- Danışmanlar: YRD. DOÇ. DR. MEHMET FATİH AMASYALI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Bir kişi tarafından yazılan metinler analiz edilerek, metinlerin yazarına dair hangi çıkarımların yapılabileceği sorusunun popülerliği günümüzde artarak devam etmektedir. İnternetin yaygınlaşmasıyla, elektronik ortamda üretilen ve büyük bölümü metinlerden oluşan verilerin miktarı da çok hızlı bir şekilde artmaktadır. Şimdiye kadar metinden yola çıkarak, yazarın kim olduğunu, cinsiyetini, yaşını, karakterini, hatta politik eğilimini gibi birçok özelliğini tahmin etmeye yönelik çok sayıda çalışma yapılmış ve yapılmaya devam etmektedir. Bu tezde ise iki farklı veri kümesi kullanılarak iki farklı hipotez üzerinde çalışma yapılmıştır. Birinci çalışmadaki amaç metinden yola çıkarak yazarın anksiyete veya depresyon gibi bir psikolojik hastalığının olup olmadığının tahminin yapılmasıdır, ancak bu çalışmada istenen başarı oranları elde edilememiştir. İkinci çalışmadaki amaç ise, en popüler mikroblog sitesi olan Twitter'da kimliğini açıklamadan paylaşımlar yapan kullanıcıların kim olduğunun, aday yazarların makaleleri kullanılarak tahmin edilmesidir ve bu çalışmada yüksek başarı oranları elde edilmiştir. Yapılan çalışma sonucunda, bir Twitter hesabının kime ait olduğunu tespit etmeye çalışırken, bu hesaptan paylaşılan tweetlerin her birini birer metin olarak değerlendirmektense, belirli sayıda tweeti birleştirerek oluşturulan daha uzun tweet metinlerini kullanmanın çok daha başarılı sonuçlar verildiği görülmüştür. Metinleri sayısallaştırmada kelimelerin kendilerini, köklerini ve 3-gramları kullanılmıştır. Çeşitli sınıflandırıcılar arasından en başarılı sonuçları destek vektör makineleri ile elde edilmiştir.
Özet (Çeviri)
The popularity of the question,“What can be deduced about the author by analyzing the text written by his/her?”is increasingly continuing in our day. With the proliferation of the Internet, the amount of the data which is generated online and mostly consisted of texts is rapidly increasing. Up to now, numerous studies have been done based on text such as author identification, guessing the gender, age, personality, and even political tendency of the author. In this thesis, two studies were done on two hypothesises by using two different data sets. The aim in the first study was guessing the psychological disorders of the author such as anxiety and depression based on his/her text, however the desired accuracy rates could not been obtained in this study. The aim in the second study was identification of the authors who makes sharing without revealing his/her identity on Twitter which is the most popular microblog web site, by using the articles of the candidate authors, and high accuracy rates were achieved in this study. As a result of the study conducted we perceived that, while trying to identify the author of a Twitter account, using the longer tweet texts which are obtained by concatenating the specific number of tweets gives more accurate results than using each tweet individually. The words themselves, their stems and 3-grams were used for digitizing of the texts. The most successful results were achieved with support vector machines from among several classifiers.
Benzer Tezler
- Envisioning plural futures through narratives and design
Anlatılar ve tasarım ekseninde çoklu gelecek tahayyülleri
ELİF GÖZDE ÖZTOPRAK
Yüksek Lisans
İngilizce
2018
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. PELİN DURSUN ÇEBİ
- Vocabulary development trajectories of an emergent bilingual child: linguistic, instructional, and socio-interactional perspectives in preschool
Çift dillilik gelişim sürecinde olan bir çocuğun kelime gelişimi yörüngeleri: Okul öncesi dönemde dilbilimsel, öğretimsel ve sosyo-etkileşimsel perspektifler
ERSOY ERDEMİR
Doktora
İngilizce
2013
Eğitim ve ÖğretimState University of New York at BuffaloEğitim Ana Bilim Dalı
PROF. DR. JANINA BRUTT-GRIFFLER
PROF. DR. X. CHRİSTİNE WANG
DOÇ. DR. ERİN KEARNEY
- Tarık Buğra'nın Ömer, Yarın diye birşey yoktur, Martı adlı hikayelerinin kelime bilgisi bakımından incelenmesi
Vocabulary analysis of the stories named 'Ömer, yarın diye birşey yoktur, Marit' written Tarik Buğra
EDNAN KARADÜZ
Yüksek Lisans
Türkçe
1999
Türk Dili ve EdebiyatıAtatürk ÜniversitesiOrtaöğretim Sosyal Alanlar Eğitimi Ana Bilim Dalı
DOÇ. DR. MUKİM SAĞIR
- An Investigation of vocabulary learning strategies employed by successful freshman students of English
Başarılı İngilizce freshman öğrencilerinin kullandığı kelime öğrenme stratejileri üzerine bir araştırma
ÖZLEM BOZATLI
Yüksek Lisans
İngilizce
1998
Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
PROF. DR. HÜSNÜ ENGİNARLAR
- Enhancing EFL students reading comprehension through concioussness-raising training on contextual guesswork
Kelime anlamlarını tahmin etme yöntemleri konusunda öğrencilerin bilinçlendirilmesiyle okuduklarını anlamalarını arttırma: Afyon Kocatepe Anadolu Lisesi lise II sınıf öğrencileriyle bir uygulama
HÜSEYİN KAFES
Yüksek Lisans
İngilizce
1998
Eğitim ve ÖğretimAnadolu Üniversitesiİngiliz Dili Eğitimi Bilim Dalı
YRD. DOÇ. DR. ÜMİT DENİZ TURAN