Talking to your data: building a multimodal rag console for real time voice and text interaction
Çok modlu geri getirme destekli sohbet yapay zekâ konsolu: tasarım, uygulama ve değerlendirme
- Tez No: 954668
- Danışmanlar: DR. ÖĞR. ÜYESİ SERPİL AYDIN
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 55
Özet
Büyük dil modelleri (LLM) birkaç saniye içinde akıcı yanıtlar üretebilir, ancak adeta bir vakumda çalışır: eğitim kesitinden sonra yayımlanan içerikleri ve kullanıcının özel belgelerini göremez. Geri Getirme Destekli Üretim (RAG) bu boşluğu, model yanıt vermeden hemen önce güncel pasajlar getirerek doldurur ve modelin somut bilgilere dayanmasını sağlar. Bu tez, RAG yaklaşımını daha da ileri taşıyan tam yığın, açık kaynaklı bir web uygulaması sunar. Kullanıcılar hem yazarak hem konuşarak soru sorabilir, sistem ise metin ve görsel işitsel kaynakları birlikte içeri aktarabilir. React tabanlı arayüz konuşmayı anlık olarak aktarır, Express API iş akışını yönetir, MongoDB meta verileri saklar, Pinecone vektör aramasını yürütür, OpenAI modelleri gömme ve metin üretimini üstlenir. Unstructured io PDF dosalarını ve YouTube transkriptlerini ayrıştırarak her parçayı yoğun vektöre dönüştürür; sistem sesli oturumlarda yanıtları altyazı olarak da gösterir. Kod deposu GitHub'da MIT lisansı ile paylaşılarak topluluk katkısına açılmıştır. Geliştirme ve değerlendirme süreçleri tasarım bilimi araştırma çerçevesiyle yürütülmüştür. Akademik ders notlarından türetilmiş iki yüz elli etiketli soruluk bir kıyaslamada, boru hattı precision at five değerini salt metin temel çizgisine göre yüzde yirmi sekiz artırmıştır. Standart bir dizüstü bilgisayarda sesli yanıtların ortanca gecikmesi altı yüz kırk milisaniyedir ve etkileşimi doğal kılar. On iki gönüllünün katıldığı kullanılabilirlik çalışmasında, ses ve metin arayüzü Sistem Kullanılabilirlik Ölçeğinde temel sohbete göre yüzde otuz daha yüksek puan almıştır; katılımcılar kaynak alıntılarının hem ekranda hem de sesli sunulmasından memnun kalmıştır. Mevcut prototip yalnızca İngilizce içeriği destekler ve bilgi tabanı bir milyonu aşkın vektöre ulaştığında performans sorunları gözlenir. Gelecek çalışmalar çok dilli gömme modelleri, dağıtık indeksleme ve mobil optimizasyonu inceleyerek herkesin her cihazdan verisiyle konuşabilmesini amaçlamaktadır.
Özet (Çeviri)
Large language models (LLMs) generate fluent answers in seconds, yet they work in a vacuum: everything written after their final training snapshot and a user's private documents remain invisible. Retrieval Augmented Generation (RAG) fills that gap by fetching fresh passages moments before the model responds, giving it concrete facts instead of letting it hallucinate. This thesis introduces a full stack, open source web application that pushes RAG further. Users can ask questions by typing or speaking, and the system can absorb both textual and audiovisual sources. A React front end streams the conversation, an Express API directs the workflow, MongoDB stores metadata, Pinecone powers vector search, and the latest OpenAI models handle embeddings and generation. Unstructured io parses PDFs and YouTube transcripts, turning every segment into a dense vector so the model grounds each answer in the most relevant snippet. Source code is released under the MIT license to encourage community reuse and extension. Development and evaluation followed a design science research framework. On a benchmark of two hundred fifty labelled questions drawn from academic lecture notes, the pipeline raised precision at five by twenty eight percent compared with a text only baseline. Spoken answers reached users with a median latency of six hundred forty milliseconds on a standard laptop, keeping the dialogue smooth and natural. Twelve volunteers joined a usability study and rated the voice plus text interface thirty percent higher on the System Usability Scale than the baseline chat. Qualitative feedback highlighted the value of hearing citations read aloud while seeing them linked on screen. The current prototype handles English only and shows strain when the knowledge base grows beyond one million vectors. Future work will explore multilingual embeddings, distributed indexing, and mobile optimisation so that anyone can literally talk to their data from any device.
Benzer Tezler
- Bursa pamuk ipliği sanayiindeki bir fabrikada çalışanbir grup kadın işçinin fabrika içi ve aileyle olan sosyal ilişkileri
Social relationships at work andin the familyamong a group of woman workers at a thread mill in Bursa
AYGEN ERDENTUĞ
- Enerji verimliliği kriterlerine göre otel tasarımı ve enerji modellemesi
Design and energy modeling of an hotel building according to energy efficiency criterias
BERKEM ÖZ
Yüksek Lisans
Türkçe
2015
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞEN DEMİRÖREN
- Oransal sezgisel bulanık EDAS Yöntemi ile bulut hizmet sağlayıcı seçimi
Proportional intuitionistic fuzzy EDAS Method: Its application to cloud service provider selection
SEREN KADIKÖYLÜ
Yüksek Lisans
Türkçe
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. CENGİZ KAHRAMAN
- Bencmarking ve stratejik kalite planlaması
Bencmarking and strategic quality planning
HAKAN BUBİK
Yüksek Lisans
Türkçe
1997
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET HALUK ERKUT
- İnşaat sektöründe Benchmarking yaklaşımının uygulanabilirliği
Applicabilty of Benchmarking approachnes in the construct on sector
OYA BAŞAR
Yüksek Lisans
Türkçe
2001
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. FATMA HEYECAN GİRİTLİ