Localizing knowledge in large language model representations

Büyük dil modeli aktivasyonlarında bilginin yerinin tespit edilmesi

PDF İndir

Tez No: 836742
Yazar: BATUHAN ÖZYURT
Danışmanlar: PROF. DR. DENİZ YURET
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Yapay Zeka Bilim Dalı
Sayfa Sayısı: 88

Özet

Büyük dil modelleri, birçok doğal dil işleme görevinde başarılıdır. Bu çalışmanın ilk kısmında, uzun hikaye ve romanlardaki karakterlerin bulunduğu mekanların tespit edilmesi görevinde büyük dil modellerinin performansını ölçüyoruz. Görevde, bir düzyazı parçası ve bu düzyazıdaki bir karakterin bulunduğu mekanı soran bir soru bulunuyor, büyük dil modelinin amacı ise bu soruya doğru cevap vermek. Bu ölçümü yapmak için, yazılardaki karakterleri ve onların bulunduğu mekanları işeretle-yerek iki yeni veri kümesi oluşturduk: Andersen ve Persuasion. Makine öğrenmesi kullanmayan basit bir modelin sonuçlarıyla karşılaştırdığımızda, büyük dil modellerinin bu veri kümeleri üzerinde yetersiz performansa sahip olduğunu gösteriyoruz. Sonuçları iyileştirmek için“bağlamsal öğrenme”metodunu da deniyoruz ve sonuçları raporluyoruz. Bunlarla birlikte, büyük dil modellerinin sınırlı girdi uzunlukları tarafından kısıtlanmış olduğu problemini de ele alıyoruz. Hipotezimize göre, eğer karakter-mekan ilişkisi bilgilerinin büyük dil modellerinin hangi aktivasyonlarında yer aldığını tespit edebilirsek, bu aktivasyonları kaydedip daha sonra başka girdilerle çalıştırılan bir büyük dil modeline enjekte ederek o bilgiyle ilgili sorunun, girdi içinde o bilgi doğal dille açıkça bahsedilmemiş olmasına rağmen, doğru cevaplanmasını sağlayabiliriz. Bu aktivasyon yerinin tespiti işi için beş farklı teknik geliştiriyoruz: Büyük dil modeli aktivasyonlarının taşınması ve başka girdilere eklenmesi, model aktivasyonlarına gürültü eklenmesi, model aksivasyonları arasındaki kosinüs benzerliğine bakılması, model aktivasyonların değiştirilmesi ve cevap oluştuturulurken dikkat skorlarının görselleştirilmesi. Bu teknikleri kullanarak yaptığımız gözlemlerimizi raporluyoruz.

Özet (Çeviri)

Large language models (LLMs) are very proficient in NLP tasks. In the first part of this work, we evaluate the performance of LLMs on the task of finding the locations of characters inside a long narrative. The objective of the task is to generate the correct answer when the input is a piece of a narrative followed by a question asking the location of a character. For the evaluation of the task, we generate two new datasets by annotating the characters and their locations in the narratives: Andersen and Persuasion. We show that the LLM performance is not satisfactory on these datasets when compared to the simple baseline we designed that does not use machine learning. We also experiment with in-context learning to improve the performance and report results. Moreover, we address the problem that the LLMs are limited by the bounded context length. We hypothesize that if we localize the character-location relation information among the activations inside an LLM, we can store those activations and inject them into other models that are run with a different prompt so that the LLM can answer the questions about the information that was carried from another prompt, even though the character and location relation is not mentioned explicitly in the current prompt. We develop five different techniques to localize the character-location relation information occurring in the LLMs: Moving and adding LLM activations to other prompts, adding noise to LLM activations, checking cosine similarity between LLM activations, editing LLM activations, and visualizing attention scores during answer generation. We report the observations we made using these techniques.

Benzer Tezler

Tez No
504708
Culturally sensitive curriculum development of social work undergraduate education: The case of Somalia
Sosyal hizmet lisans eğitiminde kültüre duyarlı müfredat geliştirme: Somali örneği
ABDISAMAD SHEIKH ABUKAR ISACK
Yüksek Lisans
İngilizce
2018
Sosyal Hizmetler Hacettepe Üniversitesi
Sosyal Hizmet Ana Bilim Dalı
PROF. DR. SUNAY İL
Tez No
872851
Bütünleşik ürün karması planlaması için yeni bir optimizasyon yaklaşımı ve perakende sektöründe uygulaması
A novel optimization approach for integrated product assortment and its application in the retail sector
MUHAMMED CAN KONUR
Doktora
Türkçe
2024
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET BÜLENT DURMUŞOĞLU
Tez No
759486
Determining the position andorientation of in-body medicalinstruments using reactivemagnetic field mapping
Başlık çevirisi yok
VEDAT CAVLU
Doktora
İngilizce
2021
Elektrik ve Elektronik Mühendisliği University of London - University College London
Tez No
55862
Verimlilik artırıcı teklik sisteminin incelenmesi
Başlık çevirisi yok
KEMAL AKAY
Yüksek Lisans
Türkçe
1996
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
DOÇ.DR. SEMRA DURMUŞOĞLU
Tez No
808568
Müzik öğretmenliği lisans programında yer alan piyano eğitimi dersi içeriğine uygun hazırlanan ve işlevsel becerileri kapsayan model önerisinin öğrencilerin başarı düzeylerine etkisi
The effect of the model proposal on the success levels of the students which includes functional skills and prepared in accordance with the content of the piano education course in the music teaching undergraduate program
ATAKAN ERTEM
Doktora
Türkçe
2023
Eğitim ve Öğretim Pamukkale Üniversitesi
Güzel Sanatlar Eğitimi Ana Bilim Dalı
PROF. DR. EFE AKBULUT

Geri Dön