Big Data yöntemleri ve lojistik regresyon analizi ile internet altyapı kalite değerlendirmesi
Quality assesment of internet infrastructure using Big Data methods and logistic regression analysis
- Tez No: 629133
- Danışmanlar: DOÇ. DR. MEHMET RECEP BOZKURT
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: big data, hdfs, lojistik regresyon analizi, pig script, big data, hdfs, logistic regression analysis, confusion matrix, pig script
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Sakarya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektrik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 46
Özet
Bu çalışmada, internet altyapı sağlayıcılarının (İAS) yatırım yapılacak potansiyel lokasyonları ve arıza oranlarını ay ve/veya yıl düzeyinde belirlemesi amaçlanmıştır. Arıza oranları tekil ve toplam arıza olarak Big Data yöntemiyle belirlenmiş olup Lojistik Regresyon Analizi kullanılarak var olan arıza oranlarından potansiyel ―stabile‖/―unstabile‖ lokasyonlar belirlenmiştir. Farklı veritabanlarından (VT) alınan anlamsız gözüken veriler, Big Data yöntemleri kullanılarak hadoop distributed file system (HDFS) üzerinde depolanmıştır. Depolanmış olan anlamsız verilerle pig script kullanılarak veri analizi yapılmıştır. Pig script, veri analizinde HDFS üzerindeki veri kümelerini ortak kolon isimlerine göre birleştirerek tek bir dosya üzerine kaydedebilmek için kullanılmış, komplike işlemlerin gerçekleştirilmesine olanak sağlamıştır. Komplike işlemler, anlamsız görünen verilerin Big Data mantığı ile değerlendirilip anlamlandırılması ile tahminleme kısmına hazırlanması amaçlanmıştır. Tahminlemenin ikili sonuç şeklinde oluşması hedef alınmış, bu sebeple lojistik regresyon analizi uygulanmaya el verişli son rapor elde edilmiştir. Elde edilen ve HDFS üzerinde tutulan sonuç dosyası python programlama dili ve lojistik regresyon uygulaması ile potansiyel ―stabile‖/―unstabile‖ lokasyonların tespiti için kullanılmıştır. Lojistik regresyon ile daha önceden belirlenmiş arıza sayıları (tekil ve toplam arıza) ve var olan diğer kolonlar bir bütün halinde değerlendirilmiş olup, yeni verilerde potansiyel ―stabile‖/―unstabile‖ lokasyonları tespit edilmiştir. Sonuç olarak yatırım yapılacak lokasyonların önceden tespit edilmesi; elde edilen sonuç verisi ve lokasyonların potansiyel stabilitesi ile çok daha anlaşılır bir şekilde gösterilmiştir. Bu çalışma, Big Data ve Lojistik Regresyon Analizi ortak kullanımı ile anlamlı veriler üzerinden yorum yapabilmeyi kolaylaştırmayı hedeflemiştir.
Özet (Çeviri)
In this study, it is aimed that Internet Infrastructure Providers (IIP) determine the potential locations to be invested and the failure rates are determined at the month and/or year level. The failure rates are determined by the Big Data method as single and total failures and the locations where potential failure will occur from the existing failure rates are determined by using Logistic Regression Analysis. The meaningless data obtained from different databases were stored on Hadoop Distributed File System (HDFS) by using Big Data methods. Data analysis was performed by using pig script with stored meaningless data. Pig script has been used in data analysis to save the data sets on HDFS into a single file by combining them according to common column names, allowing complicated operations to be performed. Complicated cleanup is goal-oriented for the forecasting department by evaluating and interpreting it with Big Data logic in a meaningless view. It is aimed to form a binary result of the estimation, so the last report, which can be applied Logistic Regression Analysis, was obtained. The result file obtained on HDFS was used to determine potential fault locations with python programming language and Logistic Regression Analysis. With the Logistic Regression Analysis, the pre-determined number of failures (single and total failures) and other existing columns are evaluated as a whole and potential fault locations are determined in the new data. As a result, predetermining the locations to be invested; generated result data and potential fault locations will be obtained more clearly. This study aims to facilitate the interpretation of meaningful data through the joint use of Big Data and Logistic Regression Analysis.
Benzer Tezler
- Yaşanan terör olaylarını içeren büyük verinin makine öğrenmesi teknikleri ile analizi
Analysis of big data including terror terms with machine learning techniques
BARIŞ KARABAY
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA ULAŞ
- Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi
Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method
İLKER İLTER
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SAFİYE SENCER
- Cryptocurrency price prediction by using social media data
Makine öğrenmesi teknikleri kullanılarak sosyal medya verileri ile kripto para fiyat tahmini
ÖZLEM GÜL PAMUK
Yüksek Lisans
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. SEFER BADAY
- Yapay zeka yöntemleri ile uzaktan eğitimdeki sorunların tespiti ve öğrencilerin akademik performanslarının tahmin edilmesi
Detecting the problems in distance education and predicting the academic performance of students by using artificial intelligence methods
HALİT IRMAK
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ZÜMRÜT ECEVİT SATI
- Hile riskinin tespitinde f-skor modeli ve hile beşgeni teorisi üzerine BIST'de yapılan bir araştırma
An investigation in BIST on f-score model and pentagon theory for the detection of fraud risk
ECE ÇEVİK