Geri Dön

Localizing knowledge in large language model representations

Büyük dil modeli aktivasyonlarında bilginin yerinin tespit edilmesi

  1. Tez No: 836742
  2. Yazar: BATUHAN ÖZYURT
  3. Danışmanlar: PROF. DR. DENİZ YURET
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka Bilim Dalı
  13. Sayfa Sayısı: 88

Özet

Büyük dil modelleri, birçok doğal dil işleme görevinde başarılıdır. Bu çalışmanın ilk kısmında, uzun hikaye ve romanlardaki karakterlerin bulunduğu mekanların tespit edilmesi görevinde büyük dil modellerinin performansını ölçüyoruz. Görevde, bir düzyazı parçası ve bu düzyazıdaki bir karakterin bulunduğu mekanı soran bir soru bulunuyor, büyük dil modelinin amacı ise bu soruya doğru cevap vermek. Bu ölçümü yapmak için, yazılardaki karakterleri ve onların bulunduğu mekanları işeretle-yerek iki yeni veri kümesi oluşturduk: Andersen ve Persuasion. Makine öğrenmesi kullanmayan basit bir modelin sonuçlarıyla karşılaştırdığımızda, büyük dil modellerinin bu veri kümeleri üzerinde yetersiz performansa sahip olduğunu gösteriyoruz. Sonuçları iyileştirmek için“bağlamsal öğrenme”metodunu da deniyoruz ve sonuçları raporluyoruz. Bunlarla birlikte, büyük dil modellerinin sınırlı girdi uzunlukları tarafından kısıtlanmış olduğu problemini de ele alıyoruz. Hipotezimize göre, eğer karakter-mekan ilişkisi bilgilerinin büyük dil modellerinin hangi aktivasyonlarında yer aldığını tespit edebilirsek, bu aktivasyonları kaydedip daha sonra başka girdilerle çalıştırılan bir büyük dil modeline enjekte ederek o bilgiyle ilgili sorunun, girdi içinde o bilgi doğal dille açıkça bahsedilmemiş olmasına rağmen, doğru cevaplanmasını sağlayabiliriz. Bu aktivasyon yerinin tespiti işi için beş farklı teknik geliştiriyoruz: Büyük dil modeli aktivasyonlarının taşınması ve başka girdilere eklenmesi, model aktivasyonlarına gürültü eklenmesi, model aksivasyonları arasındaki kosinüs benzerliğine bakılması, model aktivasyonların değiştirilmesi ve cevap oluştuturulurken dikkat skorlarının görselleştirilmesi. Bu teknikleri kullanarak yaptığımız gözlemlerimizi raporluyoruz.

Özet (Çeviri)

Large language models (LLMs) are very proficient in NLP tasks. In the first part of this work, we evaluate the performance of LLMs on the task of finding the locations of characters inside a long narrative. The objective of the task is to generate the correct answer when the input is a piece of a narrative followed by a question asking the location of a character. For the evaluation of the task, we generate two new datasets by annotating the characters and their locations in the narratives: Andersen and Persuasion. We show that the LLM performance is not satisfactory on these datasets when compared to the simple baseline we designed that does not use machine learning. We also experiment with in-context learning to improve the performance and report results. Moreover, we address the problem that the LLMs are limited by the bounded context length. We hypothesize that if we localize the character-location relation information among the activations inside an LLM, we can store those activations and inject them into other models that are run with a different prompt so that the LLM can answer the questions about the information that was carried from another prompt, even though the character and location relation is not mentioned explicitly in the current prompt. We develop five different techniques to localize the character-location relation information occurring in the LLMs: Moving and adding LLM activations to other prompts, adding noise to LLM activations, checking cosine similarity between LLM activations, editing LLM activations, and visualizing attention scores during answer generation. We report the observations we made using these techniques.

Benzer Tezler

  1. Bütünleşik ürün karması planlaması için yeni bir optimizasyon yaklaşımı ve perakende sektöründe uygulaması

    A novel optimization approach for integrated product assortment and its application in the retail sector

    MUHAMMED CAN KONUR

    Doktora

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET BÜLENT DURMUŞOĞLU

  2. Culturally sensitive curriculum development of social work undergraduate education: The case of Somalia

    Sosyal hizmet lisans eğitiminde kültüre duyarlı müfredat geliştirme: Somali örneği

    ABDISAMAD SHEIKH ABUKAR ISACK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Sosyal HizmetlerHacettepe Üniversitesi

    Sosyal Hizmet Ana Bilim Dalı

    PROF. DR. SUNAY İL

  3. Verimlilik artırıcı teklik sisteminin incelenmesi

    Başlık çevirisi yok

    KEMAL AKAY

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    DOÇ.DR. SEMRA DURMUŞOĞLU

  4. Müzik öğretmenliği lisans programında yer alan piyano eğitimi dersi içeriğine uygun hazırlanan ve işlevsel becerileri kapsayan model önerisinin öğrencilerin başarı düzeylerine etkisi

    The effect of the model proposal on the success levels of the students which includes functional skills and prepared in accordance with the content of the piano education course in the music teaching undergraduate program

    ATAKAN ERTEM

    Doktora

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimPamukkale Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    PROF. DR. EFE AKBULUT