Geri Dön

Talking to your data: building a multimodal rag console for real time voice and text interaction

Çok modlu geri getirme destekli sohbet yapay zekâ konsolu: tasarım, uygulama ve değerlendirme

  1. Tez No: 954668
  2. Yazar: MOHAMUD OSMAN HAMUD
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SERPİL AYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Ondokuz Mayıs Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 55

Özet

Büyük dil modelleri (LLM) birkaç saniye içinde akıcı yanıtlar üretebilir, ancak adeta bir vakumda çalışır: eğitim kesitinden sonra yayımlanan içerikleri ve kullanıcının özel belgelerini göremez. Geri Getirme Destekli Üretim (RAG) bu boşluğu, model yanıt vermeden hemen önce güncel pasajlar getirerek doldurur ve modelin somut bilgilere dayanmasını sağlar. Bu tez, RAG yaklaşımını daha da ileri taşıyan tam yığın, açık kaynaklı bir web uygulaması sunar. Kullanıcılar hem yazarak hem konuşarak soru sorabilir, sistem ise metin ve görsel işitsel kaynakları birlikte içeri aktarabilir. React tabanlı arayüz konuşmayı anlık olarak aktarır, Express API iş akışını yönetir, MongoDB meta verileri saklar, Pinecone vektör aramasını yürütür, OpenAI modelleri gömme ve metin üretimini üstlenir. Unstructured io PDF dosalarını ve YouTube transkriptlerini ayrıştırarak her parçayı yoğun vektöre dönüştürür; sistem sesli oturumlarda yanıtları altyazı olarak da gösterir. Kod deposu GitHub'da MIT lisansı ile paylaşılarak topluluk katkısına açılmıştır. Geliştirme ve değerlendirme süreçleri tasarım bilimi araştırma çerçevesiyle yürütülmüştür. Akademik ders notlarından türetilmiş iki yüz elli etiketli soruluk bir kıyaslamada, boru hattı precision at five değerini salt metin temel çizgisine göre yüzde yirmi sekiz artırmıştır. Standart bir dizüstü bilgisayarda sesli yanıtların ortanca gecikmesi altı yüz kırk milisaniyedir ve etkileşimi doğal kılar. On iki gönüllünün katıldığı kullanılabilirlik çalışmasında, ses ve metin arayüzü Sistem Kullanılabilirlik Ölçeğinde temel sohbete göre yüzde otuz daha yüksek puan almıştır; katılımcılar kaynak alıntılarının hem ekranda hem de sesli sunulmasından memnun kalmıştır. Mevcut prototip yalnızca İngilizce içeriği destekler ve bilgi tabanı bir milyonu aşkın vektöre ulaştığında performans sorunları gözlenir. Gelecek çalışmalar çok dilli gömme modelleri, dağıtık indeksleme ve mobil optimizasyonu inceleyerek herkesin her cihazdan verisiyle konuşabilmesini amaçlamaktadır.

Özet (Çeviri)

Large language models (LLMs) generate fluent answers in seconds, yet they work in a vacuum: everything written after their final training snapshot and a user's private documents remain invisible. Retrieval Augmented Generation (RAG) fills that gap by fetching fresh passages moments before the model responds, giving it concrete facts instead of letting it hallucinate. This thesis introduces a full stack, open source web application that pushes RAG further. Users can ask questions by typing or speaking, and the system can absorb both textual and audiovisual sources. A React front end streams the conversation, an Express API directs the workflow, MongoDB stores metadata, Pinecone powers vector search, and the latest OpenAI models handle embeddings and generation. Unstructured io parses PDFs and YouTube transcripts, turning every segment into a dense vector so the model grounds each answer in the most relevant snippet. Source code is released under the MIT license to encourage community reuse and extension. Development and evaluation followed a design science research framework. On a benchmark of two hundred fifty labelled questions drawn from academic lecture notes, the pipeline raised precision at five by twenty eight percent compared with a text only baseline. Spoken answers reached users with a median latency of six hundred forty milliseconds on a standard laptop, keeping the dialogue smooth and natural. Twelve volunteers joined a usability study and rated the voice plus text interface thirty percent higher on the System Usability Scale than the baseline chat. Qualitative feedback highlighted the value of hearing citations read aloud while seeing them linked on screen. The current prototype handles English only and shows strain when the knowledge base grows beyond one million vectors. Future work will explore multilingual embeddings, distributed indexing, and mobile optimisation so that anyone can literally talk to their data from any device.

Benzer Tezler

  1. Bursa pamuk ipliği sanayiindeki bir fabrikada çalışanbir grup kadın işçinin fabrika içi ve aileyle olan sosyal ilişkileri

    Social relationships at work andin the familyamong a group of woman workers at a thread mill in Bursa

    AYGEN ERDENTUĞ

    Doktora

    Türkçe

    Türkçe

    1980

    SosyolojiHacettepe Üniversitesi

    Sosyoloji Ana Bilim Dalı

  2. Enerji verimliliği kriterlerine göre otel tasarımı ve enerji modellemesi

    Design and energy modeling of an hotel building according to energy efficiency criterias

    BERKEM ÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞEN DEMİRÖREN

  3. Oransal sezgisel bulanık EDAS Yöntemi ile bulut hizmet sağlayıcı seçimi

    Proportional intuitionistic fuzzy EDAS Method: Its application to cloud service provider selection

    SEREN KADIKÖYLÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. CENGİZ KAHRAMAN

  4. Bencmarking ve stratejik kalite planlaması

    Bencmarking and strategic quality planning

    HAKAN BUBİK

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET HALUK ERKUT

  5. İnşaat sektöründe Benchmarking yaklaşımının uygulanabilirliği

    Applicabilty of Benchmarking approachnes in the construct on sector

    OYA BAŞAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2001

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. FATMA HEYECAN GİRİTLİ