Türkiye'de ikinci el araç satış fiyatlarının tahmininde makine öğrenmesi algoritmalarının karşılaştırılması
Comparison of machine learning algorithms in prediction of second hand vehicle sales prices in turkey
- Tez No: 959241
- Danışmanlar: PROF. DR. HALİFE KODAZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Konya Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 91
Özet
Bu tez çalışması, Türkiye'deki ikinci el araç piyasasına ait gerçek veriler üzerinden, araçların satış fiyatlarının makine öğrenmesi algoritmalarıyla tahmin edilmesini amaçlamaktadır. Günümüzde araç fiyatlarının belirlenmesinde birçok değişkenin etkili olması ve fiyat aralıklarının büyük farklılık göstermesi, alıcı ve satıcılar açısından belirsizlik yaratmaktadır. Bu bağlamda, veri odaklı yaklaşımlarla nesnel ve tutarlı fiyat tahmini modellerinin geliştirilmesi, hem sektörel karar süreçlerine destek sunmakta hem de kullanıcı güvenliğini artırmaktadır. Çalışmada veri seti, çevrim içi araç ilan platformlarından bir web kazıma aracı kullanılarak oluşturulmuştur. Kazıma işlemi yalnızca Volkswagen marka araçlara odaklanmış, araçlara ait model yılı, kilometre bilgisi, yakıt türü, vites tipi ve motor hacmi gibi temel öznitelikler toplanmıştır. Toplanan veriler, eksik ve tutarsız gözlemlerden arındırılmış, kategorik değişkenler sayısallaştırılmış ve sayısal veriler normalizasyon işlemine tabi tutulmuştur. Elde edilen veri seti, yaklaşık 44000 satır ve 10-11 öznitelikten oluşan, analiz için temiz ve dengeli bir yapı sunmaktadır. Fiyat tahmini problemi, regresyon tipi bir makine öğrenmesi problemi olarak ele alınmıştır. Bu doğrultuda dört farklı algoritma seçilmiş ve karşılaştırılmıştır: Karar Ağaçları (KA), k-En Yakın Komşu (KEYK), (RO) ve Destek Vektör Makineleri (DVM). Her bir algoritma, hem geleneksel veri bölme stratejileri (%80 eğitim – %20 test, %90 eğitim – %10 test) hem de 5'ten 10'a kadar farklı k değerleriyle k-katlı çapraz doğrulama yöntemiyle test edilmiştir. Model performansları çok boyutlu olarak değerlendirilmiştir. Kullanılan ölçütler arasında R², Ortalama Mutlak Hata (OMH), Ortalama Kare Hata (OKH), Kök Ortalama Kare Hata (KOKH), Ortalama Mutlak Yüzde Hata (OMYH) ve Ortalama İşaretli Sapma (OİS) yer almıştır. Elde edilen bulgular, en yüksek doğruluk ve en düşük hata oranlarının rastgele orman algoritmasında toplandığını göstermiştir. Bu model %95'in üzerinde R² değeri ve yalnızca yaklaşık %6,9'luk OMYH değeriyle tahmin doğruluğunda en iyi sonucu vermiştir. KEYK algoritması da düşük hata metrikleriyle güçlü bir alternatif olarak değerlendirilmiştir. Öte yandan, karar ağaçları algoritmasının anlaşılabilirliğine rağmen istikrarsız sonuçlar ürettiği, DVM algoritmasının ise parametre duyarlılığı nedeniyle bazı veri bölmelerinde performans dalgalanmaları yaşadığı gözlemlenmiştir. Sonuç olarak çalışma, gerçek dünyadan elde edilen verilerle dört farklı algoritmanın karşılaştırmalı analizini yaparak, ikinci el araç fiyat tahmininde en uygun makine öğrenmesi yöntemini ortaya koymuştur. Rastgele orman modeli, istikrar, genellenebilirlik ve doğruluk açısından en başarılı sonuçları verirken, diğer algoritmaların belirli koşullarda avantaj ve dezavantajları ortaya konmuştur. Bu tez hem yöntemsel kapsamı hem de veri işleme süreçleriyle ikinci el araç fiyatlandırma alanında uygulanabilir bir karar destek sistemi tasarımı sunmakta, ayrıca gelecek çalışmalara ışık tutacak nitelikte çok yönlü bir modelleme yaklaşımı önermektedir.
Özet (Çeviri)
This thesis aims to predict the selling prices of vehicles using machine learning algorithms based on real data from the second-hand car market in Turkey. Nowadays, many variables are effective in determining vehicle prices and price ranges vary widely, which creates uncertainty for buyers and sellers. In this context, the development of objective and consistent price prediction models with data-driven approaches both supports sectoral decision-making processes and increases user safety. In the study, the dataset was created using a web scraping tool from online vehicle listing platforms. The scraping process focused only on Volkswagen brand vehicles, and basic attributes such as model year, mileage, fuel type, gear type and engine displacement were collected. The collected data were cleaned from missing and inconsistent observations, categorical variables were digitised and numerical data were subjected to normalisation process. The resulting dataset provides a clean and balanced structure for the analysis, consisting of approximately 1000 rows and 10-11 attributes. The price prediction problem is considered as a regression type machine learning problem. Four different algorithms were selected and compared: decision trees, k-nearest neighbors (KNN), random forest and support vector machines (SVM). Each algorithm was tested with both traditional data splitting strategies (80% training - 20% testing, 90% training - 10% testing) and k-fold cross-validation with different k values from 5 to 10. Model performances were evaluated multidimensionally. The metrics used included R², Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Percentage Error (MAPE) and Mean Deviation Value (MDV). The results showed that the highest accuracy and lowest error rates were obtained in the random forest algorithm. This model gave the best result in prediction accuracy with an R² value of over 95% and a MAPE value of only about 6.9%. The KNN algorithm was also considered as a strong alternative with low error metrics. On the other hand, it was observed that the decision tree algorithm produced unstable results despite its comprehensibility, while the SVM algorithm experienced performance fluctuations in some data bins due to parameter sensitivity. As a result, the study provides a comparative analysis of four different algorithms with real-world data and reveals the most appropriate machine learning method for used car price prediction. While the random forest model gives the most successful results in terms of stability, generalisability and accuracy, the advantages and disadvantages of the other algorithms under certain conditions are revealed. This thesis presents a decision support system design that can be applied in the field of used car pricing with both its methodological scope and data processing processes, and also proposes a versatile modelling approach that will shed light on future studies.
Benzer Tezler
- Yeni otomobil ticaretinin ikinci el otomobil ticaretine etkileri: Türkiye örneği
Impacts of new car sales on second hand car trade: Türkiye as an example
CEVAHİR ULUSCUL
Yüksek Lisans
Türkçe
2023
Ekonomiİstanbul Ticaret ÜniversitesiDijital Ekonomi ve Pazarlama Ana Bilim Dalı
DOÇ. DR. AHMET OĞUZ DEMİR
- Türkiye'de otomobil talebi panel data analizi
Automobile demand in Turkey a panel data analysis
ÇAĞRI GÜRTAN
- La proposition D'Un modéle de direction et de l'organisation pour le secteur de sous industrie de l'automobile Turque
Türk otomotiv yan sanayi için yönetim ve organizasyon modeli önerisi
SERKAN ANDI
Yüksek Lisans
Fransızca
2004
Endüstri ve Endüstri MühendisliğiGalatasaray ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF.DR. ETHEM TOLGA
- Otomotiv sektöründe makine öğrenmesi teknikleri destekli web tabanlı iş zekası uygulaması
Web based business intelligence application supported by machine learning techniques in automotive industry
MELİH ÇENGELLİ
Yüksek Lisans
Türkçe
2022
Bilim ve TeknolojiDokuz Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM TARHAN
- İkinci el otomobil piyasasında e-ticaretin rolüne ilişkin nitel bir değerlendirme
A qualitative assessment of the role of e-commerce in the used cars market
METE GENCER
Yüksek Lisans
Türkçe
2019
İşletmeYalova ÜniversitesiUluslararası Ticaret Ve Finansman Ana Bilim Dalı
DOÇ. DR. FEYYAZ ZEREN