Geri Dön

Age and gender identification by SMS text messages

SMS metin mesajları ile yaş ve cinsiyet belirleme

  1. Tez No: 538937
  2. Yazar: AHMAD JAMAL KHDR KHDR
  3. Danışmanlar: DOÇ. DR. CİHAN VAROL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Yazı sınıflandırılıması alanında yaş ve cinsiyet ayrımı yapılması araştırmacılar için popüler bir konu olmuştur. Yakın zamanda, Facebook, Twitter, ve kısa mesajlaşma servisleri gibi yazı tabanlı sosyal iletişim ağlarının kullanımı oldukça artmıştır. Dolayısıyla kısa mesajlaşma Dünya çapında insanların ilgisini çeken en popüler iletişim mekanizması olmuştur. Bu çalışmada, kısa mesajlar üzerinden, mesajı yazan kişinin yaşı ve cinsiyetini tahmin etmeye çalıştık. Bu konunun seçilmesindeki temel neden, bazı insanların bilinçli olarak yazılı mesajlar da yaşını veya cinsiyetini yanlış göstermeye çalışmasıdır. Dil bilimi bazı seçilen kelimelerin ve yazım şeklinin kişinin yaşını ve cinsiyetini tahmin etmede kullanılabileceğini göstermiştir. Eski çalışmalarda yaş ve cinsiyet ayrımı yapılmasında farklı nitelik verileri kullanılmıştır. Nitelik verilerini tespit etmek her zaman araştırmacılar için bir problem olacaktır. Bu çalışmada 25 farklı deney Naive Bayes, Destek Vektör Makinesi (DVM), ve J48 algoritmaları için uygulanarak nitelik verileri yaratılmıştır. Seçilen üç algoritmadan, DVM yazı sınıflandırılması alanında en doğru ve başarılı oldugu için, Naive Bayes en hızlı bir şekilde modeli kurduğu için, J48 ise veriyi kompleks hesaplamalara katmadan, yarım veya gürültülü verinin üstesinden gelebildiği için seçildi. Lakin yine de verinin büyük olmasından dolayı işlem uzun zaman aldı. Bu çalışmanın temelini oluşturan veri kaggle.com sayfasından“The National University of Singapore SMS Corpus”isimli linkten indirilebilir. Yaşı tahmin etme de, en yüksek başarı altıncı deneyde %70.9823 ile DVM tarafından elde edilirken, doğru cinsiyeti tahmini en yüksek başarı oranı 16-20 yaş arası 20,649 örnekli grupta, yine DVM ile %91.3361 ile elde edildi.

Özet (Çeviri)

Age and gender identification from text documents became a popular subject for researchers within the text classification field. Over the last decades, the number of text-based social network applications such as Facebook messenger, Twitter, and short message services, has increased at a rapid space. That is why texting has become the most popular method of communication that has users' attention all around the globe. This research aims to predict the age for 8 different age ranges and to identify the gender of a text sender from their short text messages. The reason behind this research is that some people fake their age and gender in text-based messaging applications. Linguistic psychology shows how certain words and writing styles of different people can be used to identify their age and gender. In recent decades, researchers used different sets of features for age and gender identification of an author. However, feature set identifications will always be a barrier for researchers. In this study, 25 different experiments were applied for the Naïve Bayes, Support Vector Machine (SVM), and J48 algorithms based on changing the parameter settings to prepare a feature for the identification of age according to different age classes and gender. The text that an author used was preprocessed in different stages. To design a module for SVM, Naïve Bayes, and J48, Weka (data mining software) was used. The reason behind using these three algorithms is that SVM is the most accurate and powerful algorithm used in text classification, Naïve Bayes is the fastest at building a module, and J48 has the ability to choose the most biased features, can classify data without complex calculations, and it has ability to handle incomplete or noisy data. However, it still took a long time to create a module. The Short Message Service (SMS) text messages used for the training and testing stages in this study can be found on kaggle.com under the name“The National University of Singapore SMS Corpus”. The highest accuracy for age prediction was in experiment number six, which yielded 70.9823% by SVM, Later, after the whole dataset been used as a training set and one of the age classes been used as a testing set at a time. The highest result recorded for the age between 16 to 20 that included 20649 instances by using the same parameters, it was 91.3361% which recorded by SVM algorithm, while the highest record for gender identification was in experiment number three, also gained by SVM, which it was 79.5869% according to application of different parameter settings.

Benzer Tezler

  1. Hemodiyaliz hastalarına uygulanan progresif gevşeme egzersizinin anksiyete düzeyi ve uyku kalitesine etkisi

    The effect of progressive relaxation exercise to hemodialysis patients on anxiety level and sleep quality

    MERAL AKGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    HemşirelikSivas Cumhuriyet Üniversitesi

    Psikiyatri Hemşireliği Ana Bilim Dalı

    PROF. DR. MERAL KELLECİ

  2. Age and gender detection by face segmentation and modefied cnn algorithm

    Yüz bölümlemesi ve modifiye edilmiş cnn algoritması ile yaş ve cinsiyet tespiti

    AHMED RAED SABAH ALRASHED

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    YRD. DOÇ. DR. TİMUR İNAN

  3. Adli dental antropoloji:Dental antropoloji açısından Minnetpınarı ve Güllüdere toplumlarının dişlerinin karşılaştırmalı analizi

    Forensic dental antropology:In terms of dental antropology the populations of Minnetpinari and Gülldere's teeth constrastive analysis

    ZEHTİYE FÜSUN YAŞAR

    Doktora

    Türkçe

    Türkçe

    2007

    Adli TıpAnkara Üniversitesi

    Antropoloji Ana Bilim Dalı

    PROF. DR. AYLA SEVİM EROL

  4. Sakroiliak eklem morfometrisi ve varyasyon tipleriile makine öğrenme teknikleri kullanılarak cinsiyet ve yaş tayini

    Sex and age deternination using machine learning techniques with sacroiliac joint morphometry and variation types

    ORHAN GAZİ KOCAMIŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Adli TıpNecmettin Erbakan Üniversitesi

    Anatomi Ana Bilim Dalı

    PROF. DR. AYNUR EMİNE ÇİÇEKCİBAŞI

  5. Face identification, gender and age groups classifications for semantic annotation of videos

    Videolara anlamsal açıklama eklemek için yüz tanıma, cinsiyet ve yaş grubu sınıflandırması

    GÖKHAN YAPRAKKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    DOÇ. DR. NİHAN KESİM ÇİÇEKLİ