Yapay zeka ve derin öğrenme algoritmaları kullanılarak internet ortamındaki heterojen veri kaynaklarından veri sorgulaması
Data querying from heterogeneous data sources on the internet using artificial intelligence and deep learning algorithms
- Tez No: 894240
- Danışmanlar: PROF. DR. FIRAT HARDALAÇ
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 181
Özet
Günümüzde, internet ortamındaki verilerin birçoğu heterojen bir yapıya sahip olmakla birlikte, bu verilerin miktarı hızla artmaktadır. Heterojen veri kaynakları, standartlaştırılmamış veri formatları, dil farklılıkları ve çeşitli veri tipleri nedeniyle, veri analizi ve sorgulama süreçlerini karmaşıklaştırmaktadır. Bu bağlamda, yapılan çalışma bu karmaşıklığı giderilebilmesi adına yapılmıştır. Bu tez çalışması, internet ortamındaki heterojen veri kaynaklarından veri sorgulama ve analiz sürecini, yapay zeka (YZ) ve derin öğrenme (DÖ) algoritmalarını kullanmayı hedeflemektedir. Çalışmanın temel amacı, YZ ve DÖ tekniklerini kullanarak farklı yapıdaki veri kaynakları arasındaki ilişkileri anlamak, bu verileri anlamlı bir şekilde sorgulamak ve özellikle afet durumları gibi kritik senaryolarda hızlı ve doğru bilgi sağlamaktır. Tez kapsamında, yapay zeka destekli algoritmalarla veri toplama, temizleme, öznitelik çıkarımı ve sorgulama süreçleri hızlandırılarak, kullanıcıların ihtiyaçlarına uygun analizler ve raporlar sunulması amaçlanmıştır. Bu çalışmada, X (eski adıyla Twitter) platformundan elde edilen afetle ilgili tweetlerin doğru bir şekilde sınıflandırılmasına yönelik bir model geliştirilmiştir. Önerilen model, TF-IDF, WordNet, topluluk öğrenme modeli ve çok dilli desteğe dayalı bir mekanizma ile birleştirilmiştir. Model, metinsel verilerin sınıflandırılması için sekiz popüler sınıflandırıcı üzerinde test edilmiş ve bu sınıflandırıcılar arasında MLP, MNB, CNB ve SVC algoritmalarını içeren bir topluluk modeli, %81,36 doğruluk oranı ve 0,80 AUC değeri ile başarılı bir performans sergilemiştir. Model, etiketlenmemiş tweet veri kümeleri üzerinde çalışarak, bir tweetin bir felaketle ilgili olup olmadığını tahmin edebilme yeteneğine sahip olup, çoklu dil desteği sayesinde birden fazla dildeki tweetleri sınıflandırabilmektedir. Bu özellik, bilimsel araştırmaların ve çalışmaların sadece İngilizce dilinde değil, diğer dillerde de yapılmasını olanak sağlayarak dil bariyerini ortadan kaldırmayı hedeflemektedir. Bu tez çalışması, afet durumlarında hızlı ve doğru bilgi sağlamak için kritik bir adım olarak, X platformundaki afetle ilgili tweetleri sorgulama sınıflandırma sürecinde önerilen modelin performansını ortaya koymaktadır. Bu model, afet yönetim süreçlerinde kullanılabilecek pratik bir araç olarak öne çıkmakta ve sahte veya“tık tuzağı”tweetleri filtreleyerek, gerçek afet bilgilerini etkin bir şekilde tanımlamayı amaçlamaktadır.
Özet (Çeviri)
Nowadays, most of the data on the internet is heterogeneous, and the amount of this data is increasing rapidly. Heterogeneous data sources, non-standardized data formats, language differences, and various data types complicate data analysis and querying processes. In this context, this study was carried out to eliminate this complexity. This thesis aims to use artificial intelligence (AI) and deep learning (DL) algorithms to query and analyze data from heterogeneous data sources on the internet. The primary purpose of the study to understand the relationships between data sources with different structures using AI and DO techniques, query these data meaningfully, and provide fast and accurate information, especially in critical scenarios such as disaster situations. Within the scope of the thesis, it aims to provide analyses. It reports suitable for the needs of users by accelerating data collection, cleaning, feature extraction, and querying processes with artificial intelligence-supported algorithms. In this study, a model was developed to accurately classify disaster-related tweets obtained from the X (formerly Twitter) platform. The proposed model combines a mechanism based on TF-IDF, WordNet, an ensemble learning model, and multilingual support. The model is tested on eight popular classifiers for classifying textual data. Among these classifiers, an ensemble model including MLP, MNB, CNB, and SVC algorithms performs well with an accuracy rate of 81.36% and an AUC value of 0.80. The model can predict whether a tweet is related to a disaster by working on unlabelled tweet datasets, and it can classify tweets in multiple languages thanks to its multilingual support. This feature aims to eliminate the language barrier by enabling scientific research and studies to be conducted in English and other languages. This thesis demonstrates the performance of the proposed model in the query classification process of disaster-related tweets on the X platform as a critical step to provide fast and accurate information in disaster situations. This model is a practical tool that can be used in disaster management processes and aims to effectively identify accurate disaster information by filtering fake or 'clickbait' tweets.
Benzer Tezler
- Coğrafyada yapay zeka uygulamaları: YOLO V3 ile gerçek zamanlı kayaç tespit uygulaması örneği
Artificial intelligence applications in geography: Example of real time rock detection application with YOLO V3
SÜLEYMAN SİNAN YASAK
- Dengesiz veri setlerinde aşırı örnekleme teknikleri ile makine öğrenmesi yaklaşımlarının karşılaştırılması
Comparison of machine learning approaches by using oversampling techniques on imbalanced datasets
ÜMİT DİLBAZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Teknik ÜniversitesiAkıllı Mühendislik Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA ÖZGÜR CİNGİZ
- Yapay zeka teknikleri kullanılarak beceri ve yeterlilik belirlemeye dayalı kariyer eşleştirme
Career matching based on determining skills and competencies using artificial intelligence techniques
HİLAL ERİSEV
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
- Yüz tanıma sistemleri için derin öğrenme tabanlı 3 boyutlu yüz sahteciliği önleme sistemi geliştirilmesi
Development of deep learning-based 3D face fraud prevention system for face recognition systems
ZEYNEP KOYUN
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BETÜL AY
- Building sensor-based real-time predictive maintenance system by utilizing artificial intelligent techniques
Yapay akıllı teknikleri kullanarak sensör tabanlı gerçek zaman tahminli bakım sistemi kurulması
RAGHAD MOHAMMED KHORSHEED
Doktora
İngilizce
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA