Aykırı değer tespitinde kategorik veri kümeleme
Categorical data clustering to detect outliers
- Tez No: 890310
- Danışmanlar: PROF. DR. MELTEM EKİZ
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Aykırı değer tespiti, veri analizi sürecinde veri setinin güvenilirliğini artırmak için önemli bir adımdır. Aykırı değerler, genel veri yapısından önemli ölçüde farklı olan gözlemlerdir ve analiz sonuçlarını yanıltabilir. Bu nedenle, aykırı değerlerin doğru bir şekilde tespit edilmesi gerekir. Kümeleme algoritmaları, gözlemleri benzerliklerine göre gruplara ayırarak aykırı değer tespitinde kullanılır. Bu algoritmalar, veri setindeki doğal gruplamaları belirleyerek, bu gruplara uymayan veya az sayıda gözlem ile temsil edilen grupları aykırı değer olarak tanımlar. Özellikle k-modes, ROCK, STIRR ve DBSCAN gibi algoritmalar çeşitli yaklaşımlar ve hesaplama teknikleri kullanarak kategorik veri setlerindeki aykırı değerleri etkin bir şekilde tespit edebilir. Her algoritmanın avantajları ve sınırlamaları farklı olduğundan, veri setlerinin gereksinimlerine göre en uygun yöntemin seçilmesi önemlidir. Bu çalışmada, kategorik veri setlerindeki aykırı değerlerin tespiti için bu algoritmaların nasıl kullanılabileceği ve bu sürecin veri analizindeki önemi detaylı bir şekilde incelenmiştir. Ayrıca algoritmaların aykırı değer tespitindeki başarıları, bağımlı ve bağımsız değişken değerlerinin frekanslarıyla karşılaştırılmıştır. Bu yöntem en etkili aykırı değer tespit yönteminin belirlenmesine yardımcı olacaktır.
Özet (Çeviri)
Outlier detection is an important step in the data analysis process to enhance the reliability of the dataset. Outliers are observations that significantly differ from the general data structure and can skew the analysis results. Therefore, it is essential to accurately identify outliers. Clustering algorithms are used in outlier detection by grouping observations based on their similarities. These algorithms identify the natural groupings in the dataset and define the groups that do not fit or are represented by a few observations as outliers. Specifically, algorithms such as k-modes, ROCK, STIRR, and DBSCAN can effectively detect outliers in categorical datasets using various approaches and computational techniques. Each algorithm has different advantages and limitations, making it crucial to select the most suitable method based on the requirements of the datasets. In this study, the use of these algorithms for detecting outliers in categorical datasets and the importance of this process in data analysis are examined in detail. Additionally, the success of these algorithms in outlier detection is compared by analyzing the frequencies of dependent and independent variable values. This method will help in determining the most effective outlier detection technique.
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Stratejik yönetim perspektifinden sigortacılık sektöründe makine öğrenmesi algoritmaları ile anomali tespiti
An application of machine learning to anomaly detection in insurance industry using strategic management approach
AYŞE NURBANU ŞAHAN
Yüksek Lisans
Türkçe
2020
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. TOLGA KAYA
- Fenomen pazarlamasının çevrimiçi satın alma niyetine etkisi üzerine bir araştırma
A study on online purchase intention of phenomenon marketing
HİDAYET KARAMUK
Yüksek Lisans
İngilizce
2022
İşletmeGalatasaray Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. NEVİN KARABIYIK YERDEN
- Predicting stock prices in bist: A reinforcement learning and sentimental analysis approach
Pekiştirmeli derin öğrenme ve duyarlılık analizi yaklaşımı ile bıstteki hisselerin fiyatlarının tahmin edilmesi
ŞEYMA EĞE
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiBüyük Veri ve Veri Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- Aykırı değer tespitinde yoğunluk tabanlı kümeleme yöntemleri
Density-based clustering methods for outlier detection
MENNAN TEKBİR
Yüksek Lisans
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SONGÜL ALBAYRAK