Web ölçeğinde büyük veri kaynaklarından bilgi çıkarımı ve doğrulanması
Information extraction and verification in web-scale big data sources
- Tez No: 818905
- Danışmanlar: PROF. DR. MUHAMMET ALİ AKCAYOL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 135
Özet
Bilgi tabanları, belirli bir alanda derinleşmiş veya genel bilgiyi kapsayan olguların oluşturduğu bilgi kümelerini ifade etmektedir. Yapay zekâ çalışmalarından karar destek sistemlerine, soru cevap uygulamalarından arama motorlarına birçok alanda altyapının oluşturulması için bilgi tabanları önemli rol oynamaktadır. Bilgi tabanlarının önemi kadar barındırdığı bilgilerin doğruluğu da önemlidir. Bilgi tabanları yaygın kullanıma sahip olmakla birlikte yanlış bilgi içerme konusunda eksikler barındırmaktadır. Bu eksikliği ortadan kaldırmak için literatürde düzeltme ve tamamlamaya yönelik farklı çalışmalar yapılmıştır. Bu çalışmalar üçlüleri, ilişkileri, ilişki türlerini, sayısal değerleri düzeltmeyi veya yeni üçlü ve ilişkileri ortaya çıkararak bilgi tabanını zenginleştirmeyi hedeflemektedir. Bu tez çalışmasında doğrulama işlemi için üçlülerin güven değerlerini temel alan yayılma yaklaşımı önerilmektedir. Bu yöntem güven değerinin etkisinin tek bir üçlü ile sınırlı kalmadan bilgi tabanı üzerinde yayılmasını sağlamaktadır. Bu sayede güçlü bağlantıları daha da güçlendirerek ve zayıf bağlantıları da ortadan kaldırarak bilgi tabanını devamlı olarak daha istikrarlı duruma getirmektedir. Mevcut çalışmaların bir diğer eksikliği arındırma işlemini tek seferlik işlem olarak ele almaları ve işlem performansını ikinci planda tutmalarıdır. Ancak gerçek dünya BT'leri canlı, dinamik ve sürekli gelişen sistemlerdir. Bu nedenle önerilen yaklaşım sürekli arındırmayı desteklemelidir. Bunu ölçebilmek için farklı veri boyutu ve farklı hatalı üçlü oranlarında deneyler hazırlanmıştır. Doğrulama çalışmalarında aktif kullanılan FB15K, NELL, WN18 ve YAGO3-10 veri kümeleri ile yapılan deneylerde veri kümesinden bağımsız olarak veri boyutu ve yanlış bilgi oranının artmasına rağmen ortalama %87 doğruluk ve %98 hassaslık sonuçları elde edilmiştir.
Özet (Çeviri)
Knowledge bases refer to sets of knowledge formed by facts that cover a particular field or commonsense knowledge. Knowledge bases play an essential role in creating infrastructure in various areas, ranging from artificial intelligence studies to decision support systems and from question-and-answer applications to search engines. The accuracy of the information they contain is as crucial as the importance of knowledge bases. Although knowledge bases are widely used, they suffer from incompleteness. In order to address this deficiency, different studies have been carried out in the literature for correction and completion. These studies aim to improve triples, relationships, types of relationships, and literals, or to enrich the knowledge base by revealing new triples and relationships. This thesis proposes a propagation approach based on the confidence values of triples for the verification process. This method ensures that the effect of the confidence value is spread throughout the knowledge base without being limited to a single triple. In this way, it constantly stabilizes the knowledge base by further strengthening the strong links and eliminating the weak ones. Another shortcoming of the current studies is that they treat the verification process as a one-time procedure and neglect the ongoing process performance. However, real-world knowledge bases are live, dynamic, and constantly evolving systems. Therefore, the proposed approach should support continuous verification. To measure this, experiments were conducted with different data sizes and false triple rates. In experiments with FB15K, NELL, WN18, and YAGO3-10 datasets, which are actively used in validation studies, an average 87% accuracy and 98% recall results were obtained. These results were achieved regardless of the increase in data size and false information rate across the datasets.
Benzer Tezler
- Deep learning based road segmentation from multi-source and multi-scale data
Çok kaynaklı ve çok ölçekli veriyle derin öğrenme tabanlı yol bölütlenmesi
OZAN ÖZTÜRK
Doktora
İngilizce
2023
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
- Mekânsal dijital ikizlere yönelik yapı modeli üretiminde prosedürel modelleme yönteminin tasarımı ve geliştirilmesi
Design and development of procedural modeling method in generating structure models for spatial digital twins
GÜÇLÜ ŞENYURDUSEV
Doktora
Türkçe
2024
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET ÖZGÜR DOĞRU
- İklim yönetişimi için yerel yönetim yaklaşımları: Adana Büyükşehir Belediyesi örneği
Local government approaches for climate governance: The case of Adana Metropolitan Municipality
ÇAĞLA ÖZTEMİZ
Yüksek Lisans
Türkçe
2023
Siyasal BilimlerÇukurova ÜniversitesiUluslararası İlişkiler Ana Bilim Dalı
DOÇ. DR. YÜKSEL ALPER ECEVİT
- An uninterrupted urban walk: 3d analysis methods for supporting the design of walkable streets
Kentte kesintisiz bir yürüyüş: Yürünebilir sokakların tasarım desteği için 3b analiz yöntemleri
ELİF ENSARİ SUCUOĞLU
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU
- Profesyonel futbol kulüplerinin rekabetçi istihbarat sistemlerinin araştırılması
Investigating competitive intelligence systems of professional football clubs in turkey
İSKENDER VAROL
Yüksek Lisans
Türkçe
2011
SporErciyes ÜniversitesiSpor Yöneticiliği Ana Bilim Dalı
YRD. DOÇ. DR. ABDUSSELAM KÖSE