Comparison and analysis of logistic regression, neural networks and naïve bayes machine learning algorithms for predicting child labor in Turkey
Lojistik regresyon, sinir ağları ve naïve bayes makine öğrenimi algoritmalarının karşılaştırılması ve analizi: Türkiye'de çocuk işçiliğinin öngörülmesi örneği
- Tez No: 826798
- Danışmanlar: PROF. DR. AHMET METE ÇİLİNGİRTÜRK
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 83
Özet
Bu tez çalışması, sosyal bilimlerde büyük bir etki yaratan makine öğrenme algoritmalarının önemine odaklanmaktadır. Makine öğrenme, büyük veri analizi, yapay zeka ve sınıflandırma gibi alanlarda önemli bir yer edinmiştir. Sosyal bilimler, karmaşık toplumsal sorunları anlamak ve çözümlemek için veri tabanlı yaklaşımlara dayalı güçlü bir araç sağlamaktadır. Makine öğrenme algoritmaları, büyük miktarda veriye dayalı örüntüleri tanımlama, tahmin yapma ve sınıflandırma gibi görevlerde büyük bir potansiyele sahiptir. Özellikle sınıflandırma algoritmaları, sosyal bilimlerdeki birçok araştırma alanında önemli bir rol oynamaktadır. Lojistik regresyon, Naïve Bayes ve rastgele orman gibi makine öğrenme sınıflandırma algoritmaları, karmaşık veri setlerinde çeşitli kategorilere ayrılmış verileri etkili bir şekilde sınıflandırma yetenekleri ile bilinir. Bu algoritmalar, çocuk işçiliği gibi önemli sosyal sorunların analizinde ve tahmininde kullanıldığında, politika yapıcılarına ve araştırmacılara değerli bilgiler sunabilir. Araştırmada kullanılan veri seti, Türkiye İstatistik Kurumu (TÜİK) tarafından 2019 gerçekleştirilen çocuk işgücü anketinin çıktısı olan çalışan çocuk istatistikleri mikro veri setinden alınmıştır. Türkiye genelinde çocuk işçiliği vakalarının kapsamlı bir görüntüsünü sunmaktadır. Veri seti çocuk işçiliği ile ilişkilendirilebilecek çeşitli özellikler içermektedir, örneğin yaş, cinsiyet, eğitim düzeyi ve hane halkı büyüklüğü gibi. Denetimli öğrenme teknikleri kullanılarak, lojistik regresyon, Naïve Bayes ve rastgele orman algoritmaları üzerinde tahmin modelleri oluşturulmuştur. Bu modeller, çocuk işçiliği vakalarını tahmin etmek için kullanılan veri setini kullanarak eğitilmiş (%80) ve test (%20) edilmiştir. Elde edilen sonuçlar, rastgele orman algoritmasının diğer iki algoritmadan daha yüksek bir tahmin doğruluğuna sahip olduğunu göstermektedir. Lojistik regresyon %92 doğruluk oranı sağlarken, Naïve Bayes %86 doğruluk oranı sunmuş ve rastgele orman %97 doğruluk oranına ulaşmıştır. Bu bulgular, rastgele orman algoritmasının çocuk işçiliği vakalarını tahmin etmede daha etkili olduğunu ve daha güvenilir sonuçlar üretebildiğini göstermektedir. Ayrıca, algoritmaların performansını değerlendirmek için farklı metrikler de kullanılmıştır. Hassasiyet, özgüllük, doğruluk ve F1 puanı gibi metrikler, her bir algoritmanın çocuk işçiliği vakalarını doğru bir şekilde sınıflandırma yeteneklerini değerlendirmek için kullanılmıştır. Bu analizler, rastgele orman algoritmasının en yüksek hassasiyet, özgüllük ve F1 puanı değerlerine sahip olduğunu göstermiştir. Ancak, bu çalışmanın bazı sınırlamaları da göz önünde bulundurulmalıdır. Veri setinde eksik veya eksik olabilecek bazı önemli bilgiler olabilir, örneğin bölge bazlı aile geliri gibi. Bu eksik bilgilerin sonuçları etkileyebileceği ve daha tam bir resim sunabilmek için daha kapsamlı veri toplama çabalarının gerekliliği akılda tutulmalıdır. Sonuç olarak, bu tez çalışması, Türkiye'deki çocuk işçiliğini tahmin etmek için lojistik regresyon, Naïve Bayes ve rastgele orman algoritmalarının performansını karşılaştırarak önemli bir katkı sağlamaktadır. Rastgele orman algoritmasının daha yüksek bir doğruluk oranı ve daha iyi sınıflandırma yetenekleri sergilediği bulunmuştur. Bu çalışma, çocuk işçiliğiyle mücadele etmek için veri odaklı ve etkili stratejilerin geliştirilmesinde bilimsel bir temel sunmaktadır. Gelecekteki çalışmalar, daha kapsamlı veri setleri kullanarak ve diğer gelişmiş makine öğrenme algoritmalarını dahil ederek bu alanda daha ileri araştırmalara yol açabilir.
Özet (Çeviri)
This thesis aims to compare and analyze the performance of three popular machine learning algorithms - logistic regression, Naïve Bayes, and random forest - in predicting child labor in Turkey. The statistics on working children status in Turkey in 2019 were derived from the micro database of the Turkish Statistical Institute (TURKSTAT). The study leverages big data analysis, artificial intelligence, and classification algorithms to gain insights into the complex dynamics of child labor and inform effective interventions. The research explores the intersection of these fields, emphasizing their significance in addressing societal challenges. Using a comprehensive dataset on child labor in Turkey, we apply supervised learning techniques to develop and evaluate predictive models. The findings reveal that while logistic regression and Naïve Bayes offer valuable insights, the random forest algorithm demonstrates superior performance in accurately predicting child labor instances. The model achieves an impressive accuracy rate of 97%, highlighting its ability to capture intricate feature interactions. The Study adds to the body of knowledge by demonstrating the effectiveness of machine learning algorithms in preventing child labor and by offering evidence-based advice to decision-makers. But it's important to identify some restrictions, such the generalizability and quality of the data. To improve prediction accuracy and broaden our understanding of the dynamics of child labor, future study should investigate more sophisticated algorithms and incorporate extra information.
Benzer Tezler
- İstanbul ili Sarıyer ve Şişli bölgelerindetrafik kazalarının yeni veri teknolojileriyle incelenmesi ve trafik kazalarını önleyici model önerileri
Examination of traffic accidents in Sarıyer and Şişli regions of Istanbul with new data technologies and model suggestions for preventing traffic accidents
MERT ERSEN
Doktora
Türkçe
2022
KazalarYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. ALİ HAKAN BÜYÜKLÜ
PROF. DR. SEMRA ERPOLAT TAŞABAT
- Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi
Analysis of container port operations using machine learning methods
ÜSTÜN ATAK
Doktora
Türkçe
2022
Deniz Bilimleriİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
PROF. DR. YASİN ARSLANOĞLU
PROF. DR. TOLGA KAYA
- Saldırı tespit sistemlerinde kullanılan makine öğrenmesi tekniklerinin performans analizi
Performance analysis of machine learning techniques used in attack detection systems
UFUK MURTAZA
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZAFER ASLAN
- Yazılım projelerinde iş gücü tahmini için makine öğrenmesi yöntemlerinin karşılaştırılması
Comparison of machine learning methods for software project effort estimation
VEHBİ YURDAKURBAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TAKUHİ NADİA ERDOĞAN
- Borsa endeksi hareket yönünün tahmininde sınıflandırma yöntemlerinin performanslarının karşılaştırılması: BİST 100 örneği
Performance comparison of classification techniques in stock exchange index direction movement prediction: the case of BIST 100
İSMAİL KARA