Talking to your data: building a multimodal rag console for real time voice and text interaction

Çok modlu geri getirme destekli sohbet yapay zekâ konsolu: tasarım, uygulama ve değerlendirme

PDF İndir

Tez No: 954668
Yazar: MOHAMUD OSMAN HAMUD
Danışmanlar: DR. ÖĞR. ÜYESİ SERPİL AYDIN
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Ondokuz Mayıs Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: İstatistik Bilim Dalı
Sayfa Sayısı: 55

Özet

Büyük dil modelleri (LLM) birkaç saniye içinde akıcı yanıtlar üretebilir, ancak adeta bir vakumda çalışır: eğitim kesitinden sonra yayımlanan içerikleri ve kullanıcının özel belgelerini göremez. Geri Getirme Destekli Üretim (RAG) bu boşluğu, model yanıt vermeden hemen önce güncel pasajlar getirerek doldurur ve modelin somut bilgilere dayanmasını sağlar. Bu tez, RAG yaklaşımını daha da ileri taşıyan tam yığın, açık kaynaklı bir web uygulaması sunar. Kullanıcılar hem yazarak hem konuşarak soru sorabilir, sistem ise metin ve görsel işitsel kaynakları birlikte içeri aktarabilir. React tabanlı arayüz konuşmayı anlık olarak aktarır, Express API iş akışını yönetir, MongoDB meta verileri saklar, Pinecone vektör aramasını yürütür, OpenAI modelleri gömme ve metin üretimini üstlenir. Unstructured io PDF dosalarını ve YouTube transkriptlerini ayrıştırarak her parçayı yoğun vektöre dönüştürür; sistem sesli oturumlarda yanıtları altyazı olarak da gösterir. Kod deposu GitHub'da MIT lisansı ile paylaşılarak topluluk katkısına açılmıştır. Geliştirme ve değerlendirme süreçleri tasarım bilimi araştırma çerçevesiyle yürütülmüştür. Akademik ders notlarından türetilmiş iki yüz elli etiketli soruluk bir kıyaslamada, boru hattı precision at five değerini salt metin temel çizgisine göre yüzde yirmi sekiz artırmıştır. Standart bir dizüstü bilgisayarda sesli yanıtların ortanca gecikmesi altı yüz kırk milisaniyedir ve etkileşimi doğal kılar. On iki gönüllünün katıldığı kullanılabilirlik çalışmasında, ses ve metin arayüzü Sistem Kullanılabilirlik Ölçeğinde temel sohbete göre yüzde otuz daha yüksek puan almıştır; katılımcılar kaynak alıntılarının hem ekranda hem de sesli sunulmasından memnun kalmıştır. Mevcut prototip yalnızca İngilizce içeriği destekler ve bilgi tabanı bir milyonu aşkın vektöre ulaştığında performans sorunları gözlenir. Gelecek çalışmalar çok dilli gömme modelleri, dağıtık indeksleme ve mobil optimizasyonu inceleyerek herkesin her cihazdan verisiyle konuşabilmesini amaçlamaktadır.

Özet (Çeviri)

Large language models (LLMs) generate fluent answers in seconds, yet they work in a vacuum: everything written after their final training snapshot and a user's private documents remain invisible. Retrieval Augmented Generation (RAG) fills that gap by fetching fresh passages moments before the model responds, giving it concrete facts instead of letting it hallucinate. This thesis introduces a full stack, open source web application that pushes RAG further. Users can ask questions by typing or speaking, and the system can absorb both textual and audiovisual sources. A React front end streams the conversation, an Express API directs the workflow, MongoDB stores metadata, Pinecone powers vector search, and the latest OpenAI models handle embeddings and generation. Unstructured io parses PDFs and YouTube transcripts, turning every segment into a dense vector so the model grounds each answer in the most relevant snippet. Source code is released under the MIT license to encourage community reuse and extension. Development and evaluation followed a design science research framework. On a benchmark of two hundred fifty labelled questions drawn from academic lecture notes, the pipeline raised precision at five by twenty eight percent compared with a text only baseline. Spoken answers reached users with a median latency of six hundred forty milliseconds on a standard laptop, keeping the dialogue smooth and natural. Twelve volunteers joined a usability study and rated the voice plus text interface thirty percent higher on the System Usability Scale than the baseline chat. Qualitative feedback highlighted the value of hearing citations read aloud while seeing them linked on screen. The current prototype handles English only and shows strain when the knowledge base grows beyond one million vectors. Future work will explore multilingual embeddings, distributed indexing, and mobile optimisation so that anyone can literally talk to their data from any device.

Benzer Tezler

Tez No
160769
Bursa pamuk ipliği sanayiindeki bir fabrikada çalışanbir grup kadın işçinin fabrika içi ve aileyle olan sosyal ilişkileri
Social relationships at work andin the familyamong a group of woman workers at a thread mill in Bursa
AYGEN ERDENTUĞ
Doktora
Türkçe
1980
Sosyoloji Hacettepe Üniversitesi
Sosyoloji Ana Bilim Dalı
Tez No
421259
Enerji verimliliği kriterlerine göre otel tasarımı ve enerji modellemesi
Design and energy modeling of an hotel building according to energy efficiency criterias
BERKEM ÖZ
Yüksek Lisans
Türkçe
2015
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞEN DEMİRÖREN
Tez No
874224
Oransal sezgisel bulanık EDAS Yöntemi ile bulut hizmet sağlayıcı seçimi
Proportional intuitionistic fuzzy EDAS Method: Its application to cloud service provider selection
SEREN KADIKÖYLÜ
Yüksek Lisans
Türkçe
2024
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. CENGİZ KAHRAMAN
Tez No
66816
Bencmarking ve stratejik kalite planlaması
Bencmarking and strategic quality planning
HAKAN BUBİK
Yüksek Lisans
Türkçe
1997
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET HALUK ERKUT
Tez No
104071
İnşaat sektöründe Benchmarking yaklaşımının uygulanabilirliği
Applicabilty of Benchmarking approachnes in the construct on sector
OYA BAŞAR
Yüksek Lisans
Türkçe
2001
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. FATMA HEYECAN GİRİTLİ

Geri Dön