Geri Dön

Eğilim skorları tahmininde veri madenciliği yöntemleri: Madencilik sektöründe bir uygulama

Data mining methods in estimating propensity scores: An application in the mining industry

  1. Tez No: 797307
  2. Yazar: HAZAL BADEMCİ
  3. Danışmanlar: PROF. DR. HÜLYA OLMUŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 74

Özet

Gözlemsel araştırmalarda nedensel etkiyi tahmin etmek, nedensel çıkarım yapabilmek için araştırmaya dâhil olan birimlerin rastgele seçilmesi ile bu birimlerin işlem ve kontrol gruplarına atanmasında rastgeleliğin sağlanması gerekmektedir. Rastgeleliğin sağlanamadığı yarı deneysel veya gözlemsel çalışmalarda işlem ve kontrol grupları ortak değişkenler bakımından farklılaştığı için işlem gruplarına atama yapmada dengesizlik oluşmaktadır. Bu dengesizlik, işlem etkinliğinin belirlenmesinde yanlılığa sebep olmaktadır. Bu çalışmada, söz konusu dengesizliği ortadan kaldırmak amacıyla lojistik regresyon, CART algoritması, rastgele orman algoritması, yapay sinir ağları, CHAID algoritması ve Naive Bayes algoritmasıyla eğilim skorları tahmin edilmiştir. Kullanılan her bir yöntem için En Yakın Komşu (1:1) eşleştirmesi ve En Yakın Komşu Caliper eşleştirmesi yapılarak yanlılığın olabildiğince azaltılması amaçlanmıştır. Eşleştirmeler yapıldıktan sonra ortak değişkenler arasındaki denge değerlendirilmiştir. Denge değerlendirmesinin ardından yöntemlere göre uygulanan işlemin çıktı değişkeni üzerindeki etkisi incelenmiştir. Araştırmanın uygulama kısmında Maden ve Petrol İşleri Genel Müdürlüğü'nde kayıtlı kömür ruhsatına sahip işletmelerin bilgilerini içeren gerçek bir veri seti kullanılmıştır. Elde edilen sonuçlara göre yanlılık azaltmada CART ve rastgele orman algoritmasıyla elde edilen eğilim skorlarıyla yapılan Caliper eşleştirmesinin etkin olduğu bulunmuştur. Denge değerlendirmesinde lojistik regresyon ile tahmin edilen eğilim skorlarıyla yapılan Caliper eşleştirmesinin en iyi dengeyi sağladığı görülmüştür. Nedensel etki tahmininde ise Caliper eşleştirmesiyle elde edilen yeni veri setlerine göre gruplar karşılaştırılmıştır. Rastgele orman algoritması ve yapay sinir ağları yöntemleriyle elde edilen tahminler, bağımsız örneklem t testine göre istatistiksel olarak anlamlı sonuçlar vermiştir.

Özet (Çeviri)

In observational studies, in order to predict the causal effect and to make causal inferences, random selection of the units included in the research and the assignment of these units to the treatment and control groups must be ensured. In quasi-experimental or observational studies where randomness cannot be achieved, an imbalance occurs in assigning treatment groups because the treatment and control groups differ in terms of common variables. This imbalance causes bias when determining treatment efficiency. In this study, propensity scores were estimated with logistic regression, CART algorithm, random forest algorithm, artificial neural networks, CHAID algorithm and Naive Bayes algorithm in order to eliminate the said imbalance. For each method used, it is aimed to reduce the bias as much as possible by making the nearest neighbor (1:1) matching and the nearest neighbor Caliper matching. After the matching were made, the balance between the covariates was evaluated. After the balance evaluation, the effect of the process applied according to the methods on the output variable was examined. In the application part of the research, a real data set containing the information of the companies with the coal license registered in the General Directorate of Mining and Petroleum Affairs was used. According to the results obtained, Caliper matching with the propensity scores obtained by CART and random forest algorithms was found to be effective in reducing bias. Caliper matching with propensity scores estimated by logistic regression was found to provide the best balance in the balance assessment. In the causal effect estimation, the groups were compared according to the new data sets obtained by Caliper matching. Estimates obtained by random forest and artificial neural networks methods gave statistically significant results according to the independent sample t-test.

Benzer Tezler

  1. User modeling on microblogging web sites

    Mikro-blog web sitelerinde kullanıcı modelleme

    ZEYNEP ZENGİN ALP

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  2. A machine learning model for labor efficiency prediction in construction projects

    İnşaat projelerinde iş gücü verimi tahmini için bir makine öğrenme modeli

    AHMET ESAT KESER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ONUR BEHZAT TOKDEMİR

  3. Bölgesel sel tahmininde kullanılan makine öğrenmesi algoritmalarının performansları ve doğruluk değerleri üzerine değerlendirme: Ordu ili örneği

    Evaluation on the performance and accuracy values of machine learning algorithms used in regional flood prediction: A case study of Ordu province

    HAKAN TEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FARUK BATURALP GÜNAY

  4. Early detection of distributed denial of service attacks

    Dağıtık hizmet engelleme saldırılarının erken tespiti

    KAĞAN ÖZGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYŞE TOSUN KÜHN

    DR. ÖĞR. ÜYESİ MEHMET TAHİR SANDIKKAYA

  5. Prediction of flow rates from different entries using PLT p-T measurements in a horizontal well by machine learning methods

    Makine öğrenmesi teknikleri ile bir yatay kuyunun farklı girişlerin debilerinin PLT p-T ölçümlerinden tahmini

    MUHARREM HİLMİ ÇEVİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT ÇINAR