Geri Dön

Kelime yörüngeleri ile metin sınıflandırma

Text classification with word trajectories

  1. Tez No: 432206
  2. Yazar: İSLAM MAYDA
  3. Danışmanlar: YRD. DOÇ. DR. MEHMET FATİH AMASYALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Bir kişi tarafından yazılan metinler analiz edilerek, metinlerin yazarına dair hangi çıkarımların yapılabileceği sorusunun popülerliği günümüzde artarak devam etmektedir. İnternetin yaygınlaşmasıyla, elektronik ortamda üretilen ve büyük bölümü metinlerden oluşan verilerin miktarı da çok hızlı bir şekilde artmaktadır. Şimdiye kadar metinden yola çıkarak, yazarın kim olduğunu, cinsiyetini, yaşını, karakterini, hatta politik eğilimini gibi birçok özelliğini tahmin etmeye yönelik çok sayıda çalışma yapılmış ve yapılmaya devam etmektedir. Bu tezde ise iki farklı veri kümesi kullanılarak iki farklı hipotez üzerinde çalışma yapılmıştır. Birinci çalışmadaki amaç metinden yola çıkarak yazarın anksiyete veya depresyon gibi bir psikolojik hastalığının olup olmadığının tahminin yapılmasıdır, ancak bu çalışmada istenen başarı oranları elde edilememiştir. İkinci çalışmadaki amaç ise, en popüler mikroblog sitesi olan Twitter'da kimliğini açıklamadan paylaşımlar yapan kullanıcıların kim olduğunun, aday yazarların makaleleri kullanılarak tahmin edilmesidir ve bu çalışmada yüksek başarı oranları elde edilmiştir. Yapılan çalışma sonucunda, bir Twitter hesabının kime ait olduğunu tespit etmeye çalışırken, bu hesaptan paylaşılan tweetlerin her birini birer metin olarak değerlendirmektense, belirli sayıda tweeti birleştirerek oluşturulan daha uzun tweet metinlerini kullanmanın çok daha başarılı sonuçlar verildiği görülmüştür. Metinleri sayısallaştırmada kelimelerin kendilerini, köklerini ve 3-gramları kullanılmıştır. Çeşitli sınıflandırıcılar arasından en başarılı sonuçları destek vektör makineleri ile elde edilmiştir.

Özet (Çeviri)

The popularity of the question,“What can be deduced about the author by analyzing the text written by his/her?”is increasingly continuing in our day. With the proliferation of the Internet, the amount of the data which is generated online and mostly consisted of texts is rapidly increasing. Up to now, numerous studies have been done based on text such as author identification, guessing the gender, age, personality, and even political tendency of the author. In this thesis, two studies were done on two hypothesises by using two different data sets. The aim in the first study was guessing the psychological disorders of the author such as anxiety and depression based on his/her text, however the desired accuracy rates could not been obtained in this study. The aim in the second study was identification of the authors who makes sharing without revealing his/her identity on Twitter which is the most popular microblog web site, by using the articles of the candidate authors, and high accuracy rates were achieved in this study. As a result of the study conducted we perceived that, while trying to identify the author of a Twitter account, using the longer tweet texts which are obtained by concatenating the specific number of tweets gives more accurate results than using each tweet individually. The words themselves, their stems and 3-grams were used for digitizing of the texts. The most successful results were achieved with support vector machines from among several classifiers.

Benzer Tezler

  1. Envisioning plural futures through narratives and design

    Anlatılar ve tasarım ekseninde çoklu gelecek tahayyülleri

    ELİF GÖZDE ÖZTOPRAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. PELİN DURSUN ÇEBİ

  2. Vocabulary development trajectories of an emergent bilingual child: linguistic, instructional, and socio-interactional perspectives in preschool

    Çift dillilik gelişim sürecinde olan bir çocuğun kelime gelişimi yörüngeleri: Okul öncesi dönemde dilbilimsel, öğretimsel ve sosyo-etkileşimsel perspektifler

    ERSOY ERDEMİR

    Doktora

    İngilizce

    İngilizce

    2013

    Eğitim ve ÖğretimState University of New York at Buffalo

    Eğitim Ana Bilim Dalı

    PROF. DR. JANINA BRUTT-GRIFFLER

    PROF. DR. X. CHRİSTİNE WANG

    DOÇ. DR. ERİN KEARNEY

  3. The effects of story telling and role playing on young learners' vocabulary learning and retention

    Hikaye anlatım ve rol oynama yöntemlerinin genç öğrenicilerin kelime öğrenimi ve hatırlamasına etkileri

    OSMAN ÖZDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Eğitim ve ÖğretimNecmettin Erbakan Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DOÇ. DR. HASAN ÇAKIR

  4. A corpus study of academic Turkish vocabulary: Implications for teaching Turkish as a foreign language

    Akademik Türkçe kelime bilgisi üzerine bir derlem çalışması: Yabancı dil olarak Türkçe öğretimine dair çıkarımlar

    MUSTAFA DOLMACI

    Doktora

    İngilizce

    İngilizce

    2015

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ABDULLAH ERTAŞ

  5. Developing spiral teaching model for vocabulary learning: A communicative and social constructivist language teaching perspective

    Kelime öğrenimi için spiral öğretim modeli geliştirilmesi: İletişimsel ve sosyal yapılandırmacı bir dil öğretim perspektifi

    AHMET DOLMACI

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Eğitim ve ÖğretimGazi Üniversitesi

    Yabancı Diller Ana Bilim Dalı

    DOÇ. DR. İSKENDER HAKKI SARIGÖZ