Geri Dön

Çoklu modelli üst veri yönetimi temelli anlamsal arama altyapısının geliştirilmesi

Development of semantic search infrastructure based on polyglot metadata management

  1. Tez No: 914726
  2. Yazar: TANER GÜREL
  3. Danışmanlar: PROF. DR. MURAT OSMAN ÜNALIR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 100

Özet

Verinin değerinin sürekli arttığı, büyük miktarda veri üretme, depolama ve paylaşma kapasitesine sahip bir çağdayız. Verinin yoğunluğu ve etkili bir şekilde yönetilememesi, istenen kalitede veriye ulaşamamak şirketlerde kötü içgörüye, dolayısıyla üretim ve planlamada verimsizliğe neden olur. Etkili üst veri yönetimi, veri keşfini, erişilebilirliğini ve kullanılabilirliğini artırma açısından önemlidir. Başka bir deyişle, üst veri, veri kümesinin nereden geldiği, ne tür veriler içerdiği, sahipliği ve diğer veri kümeleriyle nasıl ilişkilendiği gibi bilgileri içerir, bu da veri kümesinin neyle ilgili olduğunun anlaşılmasına yardımcı olarak, nasıl kullanılması gerektiğine dair yol gösterir. Anlamsal arama ise kullanıcıların yalnızca anahtar kelime eşleme yoluyla değil, verilerin bağlamını ve anlamını anlayarak ilgili bilgileri bulmasını sağlar. Bu tez çalışmasında çeşitli veri kaynaklarından elde edilen verilerin üst veri yönetimi yardımı ile anlamsal arama yapılmasına olanak sağlayan bir sistem altyapısı oluşturulması amaçlanmıştır. Temel hedef, farklı türden veri kaynakları arasında anlamlı bağlantılar kurarak, bilgiye hızlı ve etkili bir şekilde erişimi mümkün kılan bir sistem tasarlamaktır. Bahsedilen altyapının gerçekleştirimi için çizge, anahtar-değer, döküman ve ilişkisel veritabanları birlikte kullanılmıştır. Çizge veritabanları veri kaynaklarının birbirleriyle olan ilişkilerini modellemede ve yeni ilişkilerin keşfedilip modelin genişletilmesinde kullanılmıştır. Anahtar-değer veritabanı sistemdeki tüm eşsiz veri ve üst veri varlıklarını depolamaya ve hızlı bir şekilde erişilmesine imkan sağlamıştır. Döküman veritabanı farklı veri kaynaklarından gelen farklı yapıdaki verilerin ortak bir veri havuzunda birleştirilmesini sağlamıştır. İlişkisel veritabanının ters dizin ve trigram (üçlü karakter dizisi) özelikleri ile bulanık arama yapılarak benzer isimde varlıkların keşfedilmesi sağlanmıştır. Sistem altyapısının geliştirilme süresinde veri bütünleştirme önemli bir rol oynamıştır, veriler üst veri yönetimi sayesinde tutarlı bir şekilde bütünleştirilerek doğru ve güvenilir veriye erişim sağlanması hedeflenmiştir. Bu tezin en büyük katkılarından biri farklı veritabanlarının güçlü yönlerinden yararlanılarak en uygun depolama ve erişim yöntemlerinin birbirini tamamlayarak kullanılmasıdır. Bu çalışma özellikle veri yönetimi ve keşfi alanında önemli bir adım olup, şirketlerin ve kurumların karmaşık, benzer karakterlere ve yapıya sahip olmayan veri kümelerinin ortak bağlamda bütünleştirilmesini ve bunlardan değerli içgörüler elde etmesini, daha verimli ve bilinçli kararlar alabilmesini sağlamayı hedeflemektedir. Bağlamsal açıdan zengin veri varlıklarının tüm potansiyeli açığa çıkartılarak veriye dayalı kararların güvenle alınması, veri yönetimine yönelik standartların ve politikaların uygulanması kolaylaşır. Yapay zeka ve makine öğreniminde üst veriler, veri hazırlama, özellik seçimi, model yorumlama ve zaman içindeki model performansını izleme konularında yardımcı olabilir. Veri profesyonellerinin veri uzayına istediği bir noktadan giriş yaparak gezinmesi, veri kümelerini kıyaslaması, amaca yönelik en kaliteli ve doğru veriye ulaşması amaçlanmaktadır. Tezin bulgularının veri yönetimi ve keşfi alanlarında mevcut literatüre önemli katkılar sunması ve gelecekteki çalışmalara katkı sağlaması beklenmektedir.

Özet (Çeviri)

We are in an era where the value of data is constantly increasing and where we have the capacity to produce, store and share large amounts of data. The density of data, its ineffective management and the inability to reach the desired quality of data cause poor insights therefore inefficiency in production and planning in companies. Effective metadata management is important in terms of increasing data discovery, accessibility and usability. In other words, metadata includes information such as where the dataset comes from, what type of data it contains, its ownership and how it relates to other datasets which helps understand what the dataset is about and guides how it should be used. Semantic search, on the other hand, allows users to find relevant information not only through keyword matching but also by understanding the context and meaning of the data. In this thesis, it is aimed to create a system infrastructure that allows semantic search of data obtained from various data sources with the help of metadata management. The main goal is to design a system infrastructure that enables fast and effective access to information by establishing useful connections between different types of data sources. Graph, key-value, document and relational databases were used together for the implementation of the mentioned infrastructure. Graph databases were used to model the relationships between data sources and to expand the model by discovering new relationships. Key-value database allowed the storage and rapid access of all unique data and metadata entities in the system. Document database enabled the merging of data with different structures from different data sources into a common data pool. With the inverse index and 3gram features of the relational database, fuzzy search was performed to discover entities with similar names. Data integration played an important role in the development of the system infrastructure. It was aimed to provide access to accurate and reliable data by integrating data in a consistent manner through metadata management. One of the greatest contributions of this thesis is the use of the most appropriate storage and access methods in a complementary manner by using the strengths of different databases. This study is an important step in the field of data management and discovery and aims to enable companies and institutions to access complex, dissimilar data sets and obtain valuable insights to make more efficient and informed decisions. By revealing the full potential of contextually rich data assets, it becomes easier to make data-based decisions safely and to implement standards and policies for data management. In artificial intelligence and machine learning, metadata can help with data preparation, feature selection, model interpretation and monitoring model performance over time. It is aimed for data professionals to enter the data space from any point they want, navigate, compare data sets and reach highest quality and most accurate data for the purpose. It is expected that the findings of the thesis will make significant contributions to the existing literature in the fields of data management and discovery and contribute to future studies.

Benzer Tezler

  1. Marketing campaign management using machine learning techniques: An uplift modeling approach

    Makine öğrenimi teknikleri kullanılarak pazarlama kampanyası yönetimi: Artımlı modelleme yaklaşımı

    MELTEM SANİSOĞLU

    Doktora

    İngilizce

    İngilizce

    2024

    İşletmeİstanbul Teknik Üniversitesi

    İşletme (İngilizce) Ana Bilim Dalı

    PROF. DR. HURİYE ŞEBNEM BURNAZ

  2. Eğitim yöneticilerinin profesyonelleşmesi: OECD ülkeleri bağlamında bir karşılaştırma

    Professionalization of educational administrators: A comparison in the context of OECD countries

    KÜBRA YENEL

    Doktora

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. NECATİ CEMALOĞLU

  3. Improvıng the predıctıon of oıl and gas productıon usıng artıfıcıal ıntellıgence algorıthms

    Yapay zeka algoritmalarını kullanarak petrol ve gaz üretim tahminlerinin iyileştirilmesi

    AZHAR NAJI MUHAJIR ALYAHYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    EnerjiSakarya Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    PROF. DR. GÜLÜZAR ÇİT

  4. Bankacılık sektöründe yöneticilere sağlanan faydalar ve banka performansı arasındaki ilişki: Borsa İstanbul'da işlem gören bankalar üzerine inceleme

    The relationship between benefits provided to executives and company performance in banking sector: Investigation on banks traded in Borsa Istanbul

    EYLÜL YARDIMCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    BankacılıkGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. OĞUZHAN BAHADIR

  5. Ters yüz edilmiş sınıf modeline dayalı yazma öğretiminin öğrencilerin üstbilişsel farkındalık düzeylerine, yazma başarılarına ve kaygılarına etkisi

    The effect of flipped classroom model-based writing teaching on metacognitive awareness level, writing success and writing anxiety of students

    HASAN BASRİ KANSIZOĞLU

    Doktora

    Türkçe

    Türkçe

    2018

    Eğitim ve ÖğretimGazi Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZLEM BAYRAK CÖMERT