Geri Dön

Büyük dil modellerinin lisansüstü giriş sınavlarında farklı becerilere yönelik sorularda başarım analizi ve metin madenciliği tabanlı incelenmesi

A performance analysis of large language models on skill-diverse questions in graduate admission exams: a text mining-based investigation

  1. Tez No: 947275
  2. Yazar: PINAR ÇETİN
  3. Danışmanlar: PROF. DR. AYTUĞ ONAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: İzmir Katip Çelebi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 143

Özet

Bu tez çalışması, büyük dil modellerinin (BDM) lisansüstü düzeydeki çoktan seçmeli sınav sorularına verdiği yanıtların doğruluğunu ve gerekçe üretim becerilerini çok boyutlu bir analiz çerçevesinde değerlendirmektedir. ChatGPT-4o, Gemini 1.5 ve Copilot modelleri; sözel mantık, Türkçe, sayısal mantık ve matematik alanlarındaki sorularla test edilmiş; performansları hem sayısal hem de nitel metrikler aracılığıyla karşılaştırılmıştır. Çalışmada, alanında deneyimli insan uzmanlara soruların zorluk düzeylerine (kolay–orta–zor) göre derecelendirme yaptırılmış ve bu sınıflandırma doğrultusunda büyük dil modellerinin başarımı analiz edilmiştir. Elde edilen bulgular, tüm modellerin kolay sorularda görece yüksek doğruluk oranları gösterdiğini; ancak zorluk düzeyi arttıkça özellikle Gemini ve Copilot modellerinde başarı oranlarının belirgin şekilde düştüğünü ortaya koymuştur. ChatGPT ise hem genel doğrulukta hem de zor sorulara verilen yanıtların açıklayıcılığında daha güçlü bir performans sergilemiştir. Gerekçelerin kalitesi Coherence Score (CS) ve Option Comparison Quality (OCQ) gibi ölçütlerle değerlendirilmiş; açıklanabilirlik, hem SHAP tabanlı kelime katkı analizleri hem de yapı haritalama yöntemiyle görselleştirilmiştir. Ayrıca gerekçeler, Bloom taksonomisine göre bilişsel düzeylerine ayrılmış ve insan uzmanlar ile modellerin açıklama kalitesi çok boyutlu biçimde karşılaştırılmıştır. Sonuçlar, ChatGPT-4o'nun özellikle sözel beceri gerektiren alanlarda daha yüksek açıklayıcılık sunduğunu, sayısal içerikli sorularda ise gerekçe üretiminde yüzeysellikler barındırdığını göstermektedir. Araştırma, yapay zekâ temelli sistemlerin eğitim ortamlarında etkili biçimde kullanılabilmesi için gerekçelendirme kalitesinin ve zorluk düzeyine duyarlılığının göz önünde bulundurulması gerektiğine işaret etmektedir.

Özet (Çeviri)

This This thesis investigates the performance and reasoning capabilities of large language models (LLMs) in answering graduate-level multiple-choice exam questions through a multidimensional analysis framework. ChatGPT-4o, Gemini 1.5, and Copilot were evaluated across verbal reasoning, Turkish language, numerical reasoning, and mathematics domains using both quantitative and qualitative metrics. To assess model performance based on question complexity, experienced human experts rated each question by difficulty level (easy–medium–hard), and the models' responses were analyzed accordingly. The findings reveal that all models performed relatively well on easy questions, whereas performance significantly declined—especially for Gemini and Copilot—as difficulty increased. In contrast, ChatGPT-4o demonstrated superior accuracy and explanation quality even on more challenging items. The quality of model-generated justifications was assessed using metrics such as Coherence Score (CS) and Option Comparison Quality (OCQ). Explainability was further examined through SHAP-based word contribution analysis and structural justification mapping. Additionally, the justifications were categorized according to Bloom's Taxonomy, allowing for a multidimensional comparison between human and model-generated responses. Results indicate that ChatGPT-4o exhibited strong explanatory power in verbal tasks but tended to produce shallow justifications in numerical domains. This study highlights the importance of integrating not only accuracy but also reasoning quality and sensitivity to question difficulty when considering the effective use of LLMs in educational settings.

Benzer Tezler

  1. Mevcut derin doğal dil işleme modellerinin Türkçe özelinde performanslarının artırılması

    Improving the performance of existing deep natural language processing models in Turkish

    BİLAL KOBANOĞLU

    Doktora

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolİSTANBUL TOPKAPI ÜNİVERSİTESİ

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. FAZLI YILDIRIM

  2. On real-world face super-resolution and face image synthesis evaluation

    Gerçek dünya yüz süper çözünürlüğü ve yüz görüntüsü sentezi değerlendirmesi üzerine

    ERDİ SARITAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  3. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  4. Oyun karakteri üretimi için üretken modeller

    Generative models for game character generation

    FERDA GÜL AYDIN EMEKLİGİL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLKAY ÖKSÜZ

  5. Presentation attack detection with shuffled patch-wise binary supervision

    Karıştırılmış yama tabanlı ikili gözetim ile sunum saldırı tespiti

    ALPEREN KANTARCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL