Geri Dön

Gender identification of authors of turkish text

Türkçe metinlerde yazarın cinsiyet tahmini

  1. Tez No: 598726
  2. Yazar: CEREN YAŞAR ÖNTÜRK
  3. Danışmanlar: DOÇ. DR. HADİ HAKAN MARAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Çankaya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Geçtiğimiz yıllara baktığımızda, bilgisayar ortamında depolanan belgelerin sayısı her geçen gün daha da artmaktadır. İnternetin yaygınlaşması ile birlikte metin tabanlı sosyal medya uygulamalarındaki kullanıcı sayısı da artış göstermektedir. Sosyal medyanın kullanımının aktif olması nedeniyle, kısa metinlerde yazar cinsiyetinin belirlenmesi, metin sınıflama kapsamında güncel bir araştırma konusu durumuna gelmiştir. İnternet ortamında kişiler cinsiyetlerini sakladıkların dolayı, bu çalışma alanı günümüzde popüler hale gelmiştir. Bu çalışmada, internet üzerinden rastgele seçilmiş ve farklı konulardan oluşan makalelerden yararlanılarak veri seti oluşturulmuştur. Oluşturulan veri setinde sınıflandırma için cinsiyet özelliği kullanılmıştır. Çalışma sırasında oluşturulan veri seti üzerinde cümle özellikleri, kelime özellikleri, karakter özellikleri ve noktalama işaretleri özelliklerinden yararlanılmıştır. Çıkan sonuçlara beş farklı sınıflandırma metodu kullanılarak, performansları birbirleriyle karşılaştırılmıştır. Çıkan sonuçlara göre en başarılı metot Rastgele Orman algoritmasıdır.

Özet (Çeviri)

The number of documents that are stored in a computerized environment is increasing day by day. Following the widespread use of the internet, the number of users of text-based social media applications is also expected to increase. In view of this, the content of text classification and the gender identification of authors of short texts have become an active research subject, due to the use of social media. This field has become popular since users often hide their genders in an internet environment. A dataset is created of articles on different subjects, chosen randomly from the internet. The property of gender is used for classification in this generated dataset. The sentence, word, character and punctuation features of these articles are utilized in a dataset created in this work. Following this, the performance of five different classification methods is compared, and the results show that the most successful method is the random forest algorithm.

Benzer Tezler

  1. Kelime yörüngeleri ile metin sınıflandırma

    Text classification with word trajectories

    İSLAM MAYDA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MEHMET FATİH AMASYALI

  2. Orhan Pamuk'un ?Kar' ve 'Masumiyet Müzesi' adlı romanlarında kadının temsili

    Representation of woman in Orhan Pamuk's novals named 'Kar' and 'Masumiyet Müzesi'

    AYŞE ŞULE SÜZÜK

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Türk Dili ve Edebiyatıİstanbul Üniversitesi

    Kadın Çalışmaları Ana Bilim Dalı

    PROF. DR. ZEYNEP TÜL AKBAL SÜALP

  3. Derin öğrenme algoritmaları kullanarak yazar, tür ve cinsiyet tanıma

    Author, genre and gender identification using deep learning algorithms

    MELİKE BEKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTekirdağ Namık Kemal Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR TÜFEKCİ

  4. Age and gender identification by SMS text messages

    SMS metin mesajları ile yaş ve cinsiyet belirleme

    AHMAD JAMAL KHDR KHDR

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CİHAN VAROL

  5. Investigation of text mining methods on Turkish text

    Türkçe metinler üzerinde metin madenciliği yöntemlerinin incelenmesi

    EZGİ PASİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    İstatistikDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. SEDAT ÇAPAR