Geri Dön

Kelime yörüngeleri ile metin sınıflandırma

Text classification with word trajectories

  1. Tez No: 432206
  2. Yazar: İSLAM MAYDA
  3. Danışmanlar: YRD. DOÇ. DR. MEHMET FATİH AMASYALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Bir kişi tarafından yazılan metinler analiz edilerek, metinlerin yazarına dair hangi çıkarımların yapılabileceği sorusunun popülerliği günümüzde artarak devam etmektedir. İnternetin yaygınlaşmasıyla, elektronik ortamda üretilen ve büyük bölümü metinlerden oluşan verilerin miktarı da çok hızlı bir şekilde artmaktadır. Şimdiye kadar metinden yola çıkarak, yazarın kim olduğunu, cinsiyetini, yaşını, karakterini, hatta politik eğilimini gibi birçok özelliğini tahmin etmeye yönelik çok sayıda çalışma yapılmış ve yapılmaya devam etmektedir. Bu tezde ise iki farklı veri kümesi kullanılarak iki farklı hipotez üzerinde çalışma yapılmıştır. Birinci çalışmadaki amaç metinden yola çıkarak yazarın anksiyete veya depresyon gibi bir psikolojik hastalığının olup olmadığının tahminin yapılmasıdır, ancak bu çalışmada istenen başarı oranları elde edilememiştir. İkinci çalışmadaki amaç ise, en popüler mikroblog sitesi olan Twitter'da kimliğini açıklamadan paylaşımlar yapan kullanıcıların kim olduğunun, aday yazarların makaleleri kullanılarak tahmin edilmesidir ve bu çalışmada yüksek başarı oranları elde edilmiştir. Yapılan çalışma sonucunda, bir Twitter hesabının kime ait olduğunu tespit etmeye çalışırken, bu hesaptan paylaşılan tweetlerin her birini birer metin olarak değerlendirmektense, belirli sayıda tweeti birleştirerek oluşturulan daha uzun tweet metinlerini kullanmanın çok daha başarılı sonuçlar verildiği görülmüştür. Metinleri sayısallaştırmada kelimelerin kendilerini, köklerini ve 3-gramları kullanılmıştır. Çeşitli sınıflandırıcılar arasından en başarılı sonuçları destek vektör makineleri ile elde edilmiştir.

Özet (Çeviri)

The popularity of the question,“What can be deduced about the author by analyzing the text written by his/her?”is increasingly continuing in our day. With the proliferation of the Internet, the amount of the data which is generated online and mostly consisted of texts is rapidly increasing. Up to now, numerous studies have been done based on text such as author identification, guessing the gender, age, personality, and even political tendency of the author. In this thesis, two studies were done on two hypothesises by using two different data sets. The aim in the first study was guessing the psychological disorders of the author such as anxiety and depression based on his/her text, however the desired accuracy rates could not been obtained in this study. The aim in the second study was identification of the authors who makes sharing without revealing his/her identity on Twitter which is the most popular microblog web site, by using the articles of the candidate authors, and high accuracy rates were achieved in this study. As a result of the study conducted we perceived that, while trying to identify the author of a Twitter account, using the longer tweet texts which are obtained by concatenating the specific number of tweets gives more accurate results than using each tweet individually. The words themselves, their stems and 3-grams were used for digitizing of the texts. The most successful results were achieved with support vector machines from among several classifiers.

Benzer Tezler

  1. Envisioning plural futures through narratives and design

    Anlatılar ve tasarım ekseninde çoklu gelecek tahayyülleri

    ELİF GÖZDE ÖZTOPRAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. PELİN DURSUN ÇEBİ

  2. Vocabulary development trajectories of an emergent bilingual child: linguistic, instructional, and socio-interactional perspectives in preschool

    Çift dillilik gelişim sürecinde olan bir çocuğun kelime gelişimi yörüngeleri: Okul öncesi dönemde dilbilimsel, öğretimsel ve sosyo-etkileşimsel perspektifler

    ERSOY ERDEMİR

    Doktora

    İngilizce

    İngilizce

    2013

    Eğitim ve ÖğretimState University of New York at Buffalo

    Eğitim Ana Bilim Dalı

    PROF. DR. JANINA BRUTT-GRIFFLER

    PROF. DR. X. CHRİSTİNE WANG

    DOÇ. DR. ERİN KEARNEY

  3. Tarık Buğra'nın Ömer, Yarın diye birşey yoktur, Martı adlı hikayelerinin kelime bilgisi bakımından incelenmesi

    Vocabulary analysis of the stories named 'Ömer, yarın diye birşey yoktur, Marit' written Tarik Buğra

    EDNAN KARADÜZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Türk Dili ve EdebiyatıAtatürk Üniversitesi

    Ortaöğretim Sosyal Alanlar Eğitimi Ana Bilim Dalı

    DOÇ. DR. MUKİM SAĞIR

  4. An Investigation of vocabulary learning strategies employed by successful freshman students of English

    Başarılı İngilizce freshman öğrencilerinin kullandığı kelime öğrenme stratejileri üzerine bir araştırma

    ÖZLEM BOZATLI

    Yüksek Lisans

    İngilizce

    İngilizce

    1998

    Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    PROF. DR. HÜSNÜ ENGİNARLAR

  5. Enhancing EFL students reading comprehension through concioussness-raising training on contextual guesswork

    Kelime anlamlarını tahmin etme yöntemleri konusunda öğrencilerin bilinçlendirilmesiyle okuduklarını anlamalarını arttırma: Afyon Kocatepe Anadolu Lisesi lise II sınıf öğrencileriyle bir uygulama

    HÜSEYİN KAFES

    Yüksek Lisans

    İngilizce

    İngilizce

    1998

    Eğitim ve ÖğretimAnadolu Üniversitesi

    İngiliz Dili Eğitimi Bilim Dalı

    YRD. DOÇ. DR. ÜMİT DENİZ TURAN