Geri Dön

Advancements in vector retrieval: Analyzing methods and applications in NLP and LLM

Vektör çıkarımındaki gelişmeler: Yöntemlerin ve uygulamaların NLP ve büyük dil modellerinde incelenmesi

  1. Tez No: 880306
  2. Yazar: YAZIM BERİL ULUER
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ALPER ÖNER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstinye Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 215

Özet

Bu tez, transformer mimarisi, doğal dil işleme (NLP), büyük dil modelleri (LLM) ve vektör sorgulama konularında teorik bir analiz sunmaktadır. Metin, transformer mimarisinin ve kendine dikkat mekanizmasının temel prensiplerinin bir açıklamasını sunarak başlar. Daha sonra doğal dil işleme (NLP) alanında büyük dil modellerinin (LLM) gelişimi ve kullanımına genel bir bakış sağlar. Tez, vektör sorgulama için dört ana tekniği incelemektedir: Dallanma ve Sınırlandırma (Branch and Bound), Yerel Hassas Karma (Locality Sensitive Hashing - LSH), Grafik tabanlı yöntemler ve Kümeleme yöntemleri. Dallanma ve Sınırlandırma, veri noktalarını daha küçük bölümlere ayırarak arama alanını azaltan bir tekniktir, LSH (Yerel Hassas Karma) ise düşük boyutlu projeksiyonlar kullanarak en yakın komşuları tanımlayan bir yöntemdir. Grafik tabanlı yöntemler, veri noktaları arasındaki ilişkileri temsil etmek ve analiz etmek için grafik yapıları kullanırken, kümeleme yöntemleri veri noktalarını gruplara ayırarak arama verimliliğini artırır. Bu yöntemlere odaklanan, 2023 ve 2024 yılları arasında yayımlanmış kırk makale üzerinde bir analiz yapılmıştır. Bu makalelerden elde edilen sonuçlar, performans, hesaplama maliyeti, doğruluk ve ölçeklenebilirlik gibi metrikler kullanılarak yöntemlerin karşılaştırılmasını sağladı. Her yöntemin avantaj ve dezavantajlarını değerlendirmek için bir değerlendirme yapılmış ve belirli uygulama senaryoları için en uygun yöntemlere dair öneriler sunulmuştur. Sonuç olarak, bu tez, vektör sorgulama alanında yer alan araştırmacılar ve uygulayıcılar için kapsamlı bir kılavuz işlevi görmektedir. Teorik incelemeler ve literatür taramaları, mevcut yöntemlerin etkinliği ve uygulama alanları hakkında değerli bilgiler sunmaktadır.

Özet (Çeviri)

This thesis offers a theoretical analysis of transformer architecture, natural language processing (NLP), large language models (LLM), and vector retrieval. The text begins by providing an explanation of the fundamental principles behind transformer architecture and the self-attention mechanism. It then proceeds to give an overview of the development and utilization of large language models (LLMs) in the field of natural language processing (NLP). The thesis explores four primary techniques for vector retrieval: Branch and Bound, Locality Sensitive Hashing (LSH), Graph-based methods, and Clustering methods. Branch and Bound is a technique that decreases the search area by dividing data points into smaller sections, while LSH (Locality Sensitive Hashing) is a method that identifies the closest neighbors by using projections in lower dimensions. Graph-based methods utilize graph structures to represent and analyze the relationships between data points, whereas clustering methods group data points into clusters to enhance search efficiency. An analysis was conducted on forty papers published between 2023 and 2024, focusing on these methods. The results from these papers enabled a comparison of the methods using metrics such as performance, computational cost, accuracy, and scalability. An evaluation was conducted to assess the benefits and drawbacks of each method, and recommendations were given regarding the most appropriate method for specific application scenarios. Ultimately, this thesis functions as an all-encompassing manual for researchers and practitioners involved in the domain of vector retrieval. Theoretical examinations and literature reviews offer valuable insights into the efficacy and domains of application of current methods.

Benzer Tezler

  1. Yeryüzü sıcaklıklarının uzaktan algılama tekniği ile belirlenmesi: Tek-kanal yöntemleri

    Retrieval of land surface temperature using remote sensing techniques: Single-channel methods overview

    BAHADIR ÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. HİLAL GONCA COŞKUN

  2. Aiding agricultural practices with the exploration of earth observation data via machine learning

    Yer gözlem uydu verilerinin tarımsal uygulamalara yardımcı olmak amacıya makine öğrenme algoritmaları ile incelenmesi

    MEHMET FURKAN ÇELİK

    Doktora

    İngilizce

    İngilizce

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ESRA ERTEN

  3. Deep learning based Turkish video indexing and retrieval system

    Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi

    JAWAD RASHEED

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AKHTAR JAMIL

  4. Deep learning-based building segmentation using high-resolution aerial images

    Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi

    BATUHAN SARITÜRK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  5. Next-generation MIMO systems: From index modulation to deep learning

    Yeni nesil çok-girişli çok-çıkışlı sistemler: İndis modülasyonundan derin öğrenmeye

    BURAK ÖZPOYRAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERTUĞRUL BAŞAR