Age and gender identification by SMS text messages
SMS metin mesajları ile yaş ve cinsiyet belirleme
- Tez No: 538937
- Danışmanlar: DOÇ. DR. CİHAN VAROL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 63
Özet
Yazı sınıflandırılıması alanında yaş ve cinsiyet ayrımı yapılması araştırmacılar için popüler bir konu olmuştur. Yakın zamanda, Facebook, Twitter, ve kısa mesajlaşma servisleri gibi yazı tabanlı sosyal iletişim ağlarının kullanımı oldukça artmıştır. Dolayısıyla kısa mesajlaşma Dünya çapında insanların ilgisini çeken en popüler iletişim mekanizması olmuştur. Bu çalışmada, kısa mesajlar üzerinden, mesajı yazan kişinin yaşı ve cinsiyetini tahmin etmeye çalıştık. Bu konunun seçilmesindeki temel neden, bazı insanların bilinçli olarak yazılı mesajlar da yaşını veya cinsiyetini yanlış göstermeye çalışmasıdır. Dil bilimi bazı seçilen kelimelerin ve yazım şeklinin kişinin yaşını ve cinsiyetini tahmin etmede kullanılabileceğini göstermiştir. Eski çalışmalarda yaş ve cinsiyet ayrımı yapılmasında farklı nitelik verileri kullanılmıştır. Nitelik verilerini tespit etmek her zaman araştırmacılar için bir problem olacaktır. Bu çalışmada 25 farklı deney Naive Bayes, Destek Vektör Makinesi (DVM), ve J48 algoritmaları için uygulanarak nitelik verileri yaratılmıştır. Seçilen üç algoritmadan, DVM yazı sınıflandırılması alanında en doğru ve başarılı oldugu için, Naive Bayes en hızlı bir şekilde modeli kurduğu için, J48 ise veriyi kompleks hesaplamalara katmadan, yarım veya gürültülü verinin üstesinden gelebildiği için seçildi. Lakin yine de verinin büyük olmasından dolayı işlem uzun zaman aldı. Bu çalışmanın temelini oluşturan veri kaggle.com sayfasından“The National University of Singapore SMS Corpus”isimli linkten indirilebilir. Yaşı tahmin etme de, en yüksek başarı altıncı deneyde %70.9823 ile DVM tarafından elde edilirken, doğru cinsiyeti tahmini en yüksek başarı oranı 16-20 yaş arası 20,649 örnekli grupta, yine DVM ile %91.3361 ile elde edildi.
Özet (Çeviri)
Age and gender identification from text documents became a popular subject for researchers within the text classification field. Over the last decades, the number of text-based social network applications such as Facebook messenger, Twitter, and short message services, has increased at a rapid space. That is why texting has become the most popular method of communication that has users' attention all around the globe. This research aims to predict the age for 8 different age ranges and to identify the gender of a text sender from their short text messages. The reason behind this research is that some people fake their age and gender in text-based messaging applications. Linguistic psychology shows how certain words and writing styles of different people can be used to identify their age and gender. In recent decades, researchers used different sets of features for age and gender identification of an author. However, feature set identifications will always be a barrier for researchers. In this study, 25 different experiments were applied for the Naïve Bayes, Support Vector Machine (SVM), and J48 algorithms based on changing the parameter settings to prepare a feature for the identification of age according to different age classes and gender. The text that an author used was preprocessed in different stages. To design a module for SVM, Naïve Bayes, and J48, Weka (data mining software) was used. The reason behind using these three algorithms is that SVM is the most accurate and powerful algorithm used in text classification, Naïve Bayes is the fastest at building a module, and J48 has the ability to choose the most biased features, can classify data without complex calculations, and it has ability to handle incomplete or noisy data. However, it still took a long time to create a module. The Short Message Service (SMS) text messages used for the training and testing stages in this study can be found on kaggle.com under the name“The National University of Singapore SMS Corpus”. The highest accuracy for age prediction was in experiment number six, which yielded 70.9823% by SVM, Later, after the whole dataset been used as a training set and one of the age classes been used as a testing set at a time. The highest result recorded for the age between 16 to 20 that included 20649 instances by using the same parameters, it was 91.3361% which recorded by SVM algorithm, while the highest record for gender identification was in experiment number three, also gained by SVM, which it was 79.5869% according to application of different parameter settings.
Benzer Tezler
- Hemodiyaliz hastalarına uygulanan progresif gevşeme egzersizinin anksiyete düzeyi ve uyku kalitesine etkisi
The effect of progressive relaxation exercise to hemodialysis patients on anxiety level and sleep quality
MERAL AKGÜL
Yüksek Lisans
Türkçe
2019
HemşirelikSivas Cumhuriyet ÜniversitesiPsikiyatri Hemşireliği Ana Bilim Dalı
PROF. DR. MERAL KELLECİ
- Age and gender detection by face segmentation and modefied cnn algorithm
Yüz bölümlemesi ve modifiye edilmiş cnn algoritması ile yaş ve cinsiyet tespiti
AHMED RAED SABAH ALRASHED
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiBilişim Teknolojileri Ana Bilim Dalı
YRD. DOÇ. DR. TİMUR İNAN
- Adli dental antropoloji:Dental antropoloji açısından Minnetpınarı ve Güllüdere toplumlarının dişlerinin karşılaştırmalı analizi
Forensic dental antropology:In terms of dental antropology the populations of Minnetpinari and Gülldere's teeth constrastive analysis
ZEHTİYE FÜSUN YAŞAR
- Sakroiliak eklem morfometrisi ve varyasyon tipleriile makine öğrenme teknikleri kullanılarak cinsiyet ve yaş tayini
Sex and age deternination using machine learning techniques with sacroiliac joint morphometry and variation types
ORHAN GAZİ KOCAMIŞ
Yüksek Lisans
Türkçe
2024
Adli TıpNecmettin Erbakan ÜniversitesiAnatomi Ana Bilim Dalı
PROF. DR. AYNUR EMİNE ÇİÇEKCİBAŞI
- Face identification, gender and age groups classifications for semantic annotation of videos
Videolara anlamsal açıklama eklemek için yüz tanıma, cinsiyet ve yaş grubu sınıflandırması
GÖKHAN YAPRAKKAYA
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
DOÇ. DR. NİHAN KESİM ÇİÇEKLİ