İkili değişkenli verilerde Boole cebri yardımıyla bir sınıflandırma algoritmasının oluşturulması ve dijital reklamcılık üzerine uygulanması
A classification algorithm for binary variable data using Boolean algebra and an application on digital advertising
- Tez No: 811966
- Danışmanlar: PROF. DR. MUSTAFA TEKİN
- Tez Türü: Doktora
- Konular: Ekonometri, İstatistik, Econometrics, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 279
Özet
Bu tez çalışmasında, ikili değer alan değişkenlerin analizi için Boole cebri yardımıyla bir sınıflandırma algoritması (Boole karar tablosu) oluşturulmuş ve diğer karar ağacı algoritmaları ile sınıflandırma performansları karşılaştırılmıştır. Uygulamada kullanılacak veride gözlem ve bağımsız değişken (öznitelik, İngilizcede; feature, attribute, variable) sayısının fazla olması nedeniyle yöntemlerin karşılaştırması sınıflandırma performansları (sınıflandırma doğruluğu, ROC, PR eğri analizleri), eğitim için geçen süre (saniye) ve modellerin yorumlanabilirliği de dikkate alınarak gerçekleştirilmiştir. Karar ağacı algoritmaları olarak CART, Random Forest ve Gradient Boost algoritmasının gelişmiş versiyonu olan XGBoost (Extreme Gradient Boost) yöntemleri kullanılmıştır. Veri kümesindeki bağımsız değişkenlerin (özniteliklerin) temsil edilme durumlarına (sürekli veya kategorik-ikili) göre performans karşılaştırmaları ile kullanılan yöntemlerin avantaj ve dezavantajları araştırılmıştır. Çalışmada kullanılacak veri kümesi internet siteleri için geniş anlamda trafik ölçümü sunan ve bu trafiklerin zamansal olarak kayıtlarını tutan ücretsiz bir Google servisi olan Google Analytics platformundan elde edilmiştir. Bir e-ticaret firmasının Google Analytics platformundan elde edilen veri kümesinde yaklaşık yüz on altı bin kullanıcı verisine ulaşılmıştır. Çalışmada kullanıcıların siteye giriş yaptıkları online yollar (arama motorları, sosyal medya vd.), cihazlar (telefon, masaüstü cihazlar, tablet), konumlar, gün, saat, siteye kaç kez erişim sağladıkları, siteye erişim sağladıklarında sitede geçirilen süre ve e-ticaret sitesinde alışveriş yapılıp yapılmadığı bilgileri yer almaktadır. Bu bilgiler kullanılarak alışveriş yapan ve yapmayan kullanıcıların sınıflandırılması sağlanacaktır. Sınıflandırmada önerilen Boole karar tablosunun kullanılması ile dijital pazarlamada önemli bir yere sahip olan hedef kitleler de belirlenecektir. Örneğin, perşembe günü saat 13:00-15:00 aralığında, mobil cihaz kullanarak arama motoru yolu ile e-ticaret sitesine erişim sağlayan kullanıcıların diğerler kullanıcılara göre sitede daha fazla alışveriş yaptığının belirlenmesi sağlanacaktır. Bu sonuç, reklam veren için önemli bir bilgi olmakla birlikte reklam verme stratejisini bu bilgilere göre belirleyebilecektir. Dijital reklamcılık ve pazarlama sektöründeki ikili değişkenli verilerin analizinin yapılacağı çalışmada öncelikle makine öğrenmesi alanında öznitelik seçimi (future selection) olarak adlandırılan yöntemle önemli değişkenler belirlenmiştir. Önemli değişkenlerin belirlenmesinden sonra Boole cebrinde olduğu gibi değişkenlerin tüm kombinasyonları kullanılarak mümkün olan tüm durumlar belirlenir ve bu durumlara göre karar tablosu oluşturulup sınıflandırma işlemi gerçekleştirilmiştir. Sonrasında CART (Classification and Regression Tree), Random Forest, XGBoost (Extreme Gradient Boost) algoritmaları kullanılacak ve sınıflandırma performansları karşılaştırılıp yöntemlerin yorumlanabilirlik, avantaj ve dezavantajları araştırılmıştır. Çalışmada kullanılan çok kategorili değişkenler, kategorik değişkenlerin Boole cebrine uygun olarak ikili (binary) olarak temsil edilmesini sağlayan bir kodlama yöntemi olan one-hot encoding yöntemi ile ikili (binary) değişkenlere dönüştürülmüştür. Sürekli bir değişken olan sitede kalma süresi için ise üç durum söz konusudur: 1.durumda kantil değerlerine göre 4 kategoriye ayırarak one-hot encoding ile ikili değişkenler olarak temsil edilmesi; ikinci durumda herhangi bir ayrıklaştırma yapılmadan sürekli olarak yer alması; 3.durumda ise oturum süresi değişkenin dahil edilmemesi olarak planlanmıştır. Bu üç duruma göre analiz sonuçları karşılaştırılmıştır.
Özet (Çeviri)
In this thesis, a classification algorithm (Boolean decision table) was created with the help of Boolean algebra for the analysis of binary-valued variables and its classification performances were compared with other decision tree algorithms. Due to the large number of observations and independent variables (features, attributes, and variables in English) in the data to be used in the application, the classification performances (classification accuracy, ROC, PR curve analysis), training time (seconds), and interpretability of the models were taken into account when comparing the methods. As decision tree methods, CART, Random Forest and XGBoost (Extreme Gradient Boost), the advanced version of the Gradient Boost algorithm. The advantages and disadvantages of the methods were investigated by comparing their performance according to the representation of independent variables (attributes) in the dataset (continuous or categorical-binary). The dataset to be used in the study was obtained from the Google Analytics platform, a free Google service that provides a wide range of traffic measurements for websites and keeps temporal records of this traffic. In the dataset obtained from the Google Analytics platform of an e-commerce company, approximately one hundred and sixteen thousand user data were accessed. The study includes information on the online ways users accessed the site (search engines, social media, etc.), devices (phone, desktop devices, tablet), locations, day, time, how many times they accessed the site, the time spent on the site when they accessed the site, and whether they made a purchase on the e-commerce site. This information will be used to classify shoppers and non-shoppers. Target audiences will also be identified by using the proposed Boolean decision table in classification, which is crucial for digital marketing. For example, it will be determined that users who access the e-commerce site via search engine using a mobile device between 13:00-15:00 on Thursday will shop more on the site than other users. In this study, in which bivariate data in the digital advertising and marketing sector will be analyzed, important variables is determined with the method called feature selection in the field of machine learning. After determining the important variables, all possible situations is determined by using all combinations of variables as in Boolean algebra, and a decision table is created according to these situations and classification is performed. Then CART (Classification and Regression Tree), Random Forest, XGBoost (Extreme Gradient Boost) algorithms will be used and their classification performances will be compared and the interpretability, advantages and disadvantages of the methods will be investigated. The multi-categorical variables used in the study were converted into binary variables with the one-hot encoding method, which is a coding method that allows categorical variables to be represented as binary in accordance with Boolean algebra. Session duration, which is a continuous variable, there are three cases: In the 1st case, it was planned to be represented as binary variables with one-hot encoding by dividing it into 4 categories according to quantile values; in the second case, it was planned to be included continuously without any discretization; and in the 3rd case, the session duration variable was not included. Analysis results were compared according to these three cases.
Benzer Tezler
- Kosova'da Türkçe öğretimi
Turkish teaching in Kosovo
RAMAZAN ERYILMAZ
Doktora
Türkçe
2020
Eğitim ve ÖğretimGazi ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
PROF. DR. NECATİ DEMİR
- Öğretmenlere göre ilköğretim 1. kademe (4. ve 5. sınıf) din kültürü ve ahlak bilgisi dersinin problemleri
By teachers; the problems of primary school (fourth & fifth classes) religious culture & moral knowledge lesson
YUSUF KURU
Yüksek Lisans
Türkçe
2001
Eğitim ve ÖğretimErciyes ÜniversitesiFelsefe ve Din Bilimleri Ana Bilim Dalı
PROF.DR. M. ŞEVKİ AYDIN
- An optimization model to control the flow of relief commodities in humanitarian supply chain under uncertainty
Belirsiz koşullarda insani yardım tedarik zinciri malzeme akışını kontrol etmede optimizasyon modeli
ISRAA ISMAIL
Doktora
İngilizce
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ESRA BAŞ
- Örgütsel bağlılığın ölçümü: Kamu hastanesinde çalışan hemşirelere yönelik bir uygulama
Measurement of organizational commitment of: An application for nurses working in public hospital
FİLİZ GÖNCÜ
- Adaptive-predictive control and simulation studies on a distillation column
Distilasyon kolonunda tahminli-ayarlamalı kontrol ve simulasyon çalışmaları
FARİBA KARBASİ
Yüksek Lisans
İngilizce
1993
Kimya MühendisliğiOrta Doğu Teknik ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGİN KISAKÜREK