Geri Dön

Sentiment-driven forecasting of short-term asset price directions using large language models

Büyük dil modelleri kullanarak varlık fiyatlarının kısa vadeli yönlerinin duygu odaklı tahmini

  1. Tez No: 948111
  2. Yazar: AHMET BERKAY GÜLTEKİN
  3. Danışmanlar: PROF. DR. ALP ÜSTÜNDAĞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Büyük Dil Modelleri, Duygu Analizi, Finansal Haberler, Günlük ve Haftalık Tahmin, Kısa Vadeli Alım-Satım Stratejisi, Large Language Models, Sentiment Analysis, Financial News, Daily and Weekly Forecasting, Short-term Trading Strategy
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı
  12. Bilim Dalı: Büyük Veri ve İş Analitiği Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

Bu kapsamlı çalışma, haber akışlarında ifade edilen duygu dalgalanmalarının finansal piyasalar üzerindeki önemli etkisini titizlikle incelemekte ve özellikle, keskin bir şekilde gelişmiş büyük dil modellerinden yararlanarak hisse senedi fiyatlarının kısa vadeli yönelimini tahmin etmeyi hedeflemektedir. Araştırma alanı, Refinitiv Eikon platformunda“yüksek öncelikli”olarak kategorize edilmiş İngilizce yazılmış haber makalelerinin Kasım 2023'ten Nisan 2025'e kadar uzanan bir süre boyunca incelenmesiyle tanımlanmaktadır. Bu çalışma, S&P 100 endeksi içerisinde en yüksek işlem hacmine sahip yirmi şirketin yanı sıra, Amerika Birleşik Devletleri'nde meydana gelen ilgili makroekonomik gelişmeleri kapsamlı bir şekilde incelemektedir. Bu çalışmanın merkezinde yer alan ana soru, OpenAI tarafından geliştirilen GPT-4o-mini, Google tarafından geliştirilen Gemini 2.0 Flash ve Meta tarafından geliştirilen Llama 4 Maverick gibi önceden eğitilmiş modellerin duygusal puanlar temelinde, günlük ve haftalık zaman dilimlerinde fiyat yönünü istatistiksel ve ekonomik olarak anlamlı bir şekilde tahmin etme yeteneğine sahip olup olmadığını belirlemektir. Bu süreçte, bu modellerin daha fazla ince ayar gerektirmeden kullanılması hedeflenmektedir. Bu araştırma, finansal piyasalardaki duygu değişimlerinin etkilerini anlamak ve bu bilgiyi kullanarak yatırım stratejileri geliştirmek isteyen yatırımcılar ve finansal analistler için önemli bir kaynak olmayı amaçlamaktadır. Veri toplama sürecinde, her işlem gününde piyasa açılışından otuz dakika önce kesilen bir zaman penceresi kullanılarak gerçek zamanlı uygulanabilirlik güvenceye alınmıştır. Metinler, TF-IDF tabanlı kosinüs benzerliği ölçütüyle %98'den yüksek örtüşme gösterdiğinde yinelenen içerik olarak değerlendirilmiş ve ayıklanmıştır. Böylece model girdilerinin benzersiz bilgi içermesi sağlanmıştır. Haberler bazen dil modeli girdi sınırını aştığından, içeriği bozmayan özetleme adımlarıyla kısaltılmıştır. Ayrıca Refinitiv sektör etiketleri korunarak her haber Finans, Teknoloji, Tüketici Malları gibi kümelere ayrılmış, böylece sonuçların sektör-özel farklılıklarını incelemek mümkün olmuştur. İstem (prompt) tasarımı, belirli bir varlık-zaman gözlemi için tüm haberlerin bir araya getirilmesini ve bu kapsamda modele“Bu haber akışının genel duygu tonunu –1 ile +1 arasında bir sayı ile ifade et”talimatının verilmesini sağlayacak şekilde detaylı bir biçimde kurgulanmıştır. Bu tasarım, haberlere dayalı olarak piyasa duyarlılığını ölçmek ve analiz etmek amacıyla oluşturulmuştur. Sıcaklık parametresinin 0 olarak sabitlenmesi ve top-p'nin 1 olarak belirlenmesi, aynı girdi setinin her zaman aynı duygu skorunu üretmesini sağlayarak deterministik bir çerçeve oluşturmuştur. Böylece, modelin çıktısının tutarlılığı artırılmıştır. Model çıktısının işareti, işlem stratejisinin yönünü belirlemekte kritik bir rol oynamaktadır: pozitif bir skor, uzun pozisyon alınmasını teşvik ederken, negatif bir skor kısa pozisyon açılmasına neden olmaktadır. Bu sistem, yatırımcıların daha bilinçli ve stratejik kararlar almasına yardımcı olmayı hedeflemektedir. Bu bağlamda, haber akışının analizi ve duygu tonunun belirlenmesi, finansal piyasalarda başarılı bir strateji oluşturmanın temel taşlarından biri olarak öne çıkmaktadır. Deneysel kurguda iki temel strateji bulunmaktadır. Bu stratejiler, piyasa hareketlerini ve haberlerin fiyat üzerindeki etkilerini daha iyi anlamak amacıyla geliştirilmiştir. İlk olarak, günlük strateji uygulaması, belirli bir gün içerisinde piyasa açılışında pozisyon almayı ve aynı günün kapanışında bu pozisyonu kapatmayı içermektedir. Bu yöntem, haberlerin anlık fiyat etkisini test etmek için kısa zaman dilimlerinde işlem yapmayı mümkün kılar. Böylece, yatırımcılar gün içindeki dalgalanmaları değerlendirerek, haberlerin piyasa üzerindeki etkilerini anlık olarak gözlemleyebilirler. İkinci strateji olan haftalık stratejide ise, Pazartesi günü piyasa açılışında pozisyon alınıp, Cuma günü kapanışta bu pozisyon kapatılmaktadır. Bu yaklaşım, haberlerin piyasa tarafından sindirilmesi ve fiyatlara yansıması için daha uzun bir süre tanıyarak, yatırımcılara daha geniş bir perspektif sunar. Haftalık strateji, kısa vadeli dalgalanmalardan ziyade, daha uzun dönemli trendleri ve fiyat hareketlerini gözlemleme imkanı sağlamaktadır. Bu iki strateji, temel metrikler olarak yön doğruluğunu ve simüle getirileri kullanmaktadır. Ayrıca, piyasa duyarlılığını daha iyi anlamak amacıyla ikiden yirmiye kadar farklı uzunluklarda kayan kümülatif duygu pencereleri hesaplanmıştır. Bu hesaplamalar,“duygu momentumu”adı verilen bilgi birikiminin sinyal gücünü yükseltip yükseltmediğini araştırmak için önemli bir araçtır. Böylece, yatırımcılar, piyasa duyarlılığını daha iyi analiz ederek, daha bilinçli yatırım kararları alabilirler. Bu stratejilerin uygulanması, piyasa dinamiklerini anlamak ve yatırım fırsatlarını değerlendirmek açısından kritik bir öneme sahiptir. Elde edilen bulgular, tek pencereli günlük tahminlerde doğruluğun %49-52 aralığında, yani rastlantısal başarı sınırının hemen üzerinde seyrettiğini göstermektedir. Bu durum, tahminlerin güvenilirliğini sorgulamak için önemli bir gösterge niteliği taşımaktadır. Özellikle bu aşamada yalnızca Gemini modelinin ortalama %0,015 gibi sınırlı fakat pozitif bir günlük getiri sağladığı dikkate değer. Bu, yatırımcılar için çok büyük bir kazanç sağlamasa da, piyasa koşulları ve modelin işleyişi açısından umut verici bir başlangıç olarak değerlendirilebilir. Haftalık ufukta ise doğruluk oranı %51-57 aralığına yükselmiş; bu durum, daha uzun vadeli tahminlerin daha güvenilir sonuçlar verebileceğini göstermektedir. Llama 4 Maverick, %0,54'lük ortalama haftalık kazançla getiri lideri olurken, GPT-4o-mini 1,20 seviyesindeki riske göre düzeltilmiş getiri oranı en yüksek risk-düzeltilmiş performansı kaydetmiştir. Bu, yatırımcıların risk yönetimi açısından önemli bir bilgi sunmaktadır. Ayrıca, kümülatif duygu pencereleri, özellikle on ila yirmi haftalık bakış aralıklarında belirgin fayda sağlamış, doğruluk oranını beş puana kadar artırmış ve ortalama getirileri ise tek haftalık yaklaşıma göre on beş kata varan oranlarda artırmıştır. Bu sonuçlar, haberlerin etkisinin anlık değil, kademeli biçimde fiyatlara yansıdığı ve bilgi akışının zaman içinde biriktiğinde daha güçlü bir sinyal oluşturduğu görüşünü desteklemektedir. Dolayısıyla, yatırımcılar için bu tür uzun vadeli analizlerin ve tahminlerin dikkate alınması, daha sağlıklı ve kazançlı kararlar almalarına yardımcı olabilir. Özellikle piyasa dinamiklerinin ve duygu durumlarının değişkenlik gösterdiği günümüz koşullarında, bu tür analizlerin öneminin giderek arttığı söylenebilir. Sektörel analizler, sinyal başarısının homojen olmadığını ortaya koymuştur. Bu durum, farklı sektörlerin piyasa dinamiklerine ve ekonomik koşullara bağlı olarak değişkenlik gösterdiğini göstermektedir. Özellikle, Tüketim Malları, Finans ve Teknoloji sektörleri, %60'ın üzerinde doğruluk oranları ve anlamlı pozitif getiriler sunarak yatırımcılar için cazip fırsatlar yaratmıştır. Bu sektörler, genellikle istikrarlı bir büyüme gösterirken, tüketici davranışları ve teknolojik gelişmeler gibi faktörlerden olumlu yönde etkilenmektedir. Ancak, Enerji ile Dayanıklı Tüketici sektörleri, yüksek volatiliteye bağlı olarak geride kalmış ve kimi dönemlerde negatif getiriler üretmiştir. Bu bulgu, yatırımcıların dikkatli olmalarını gerektirmektedir. Yüksek risk taşıyan bu sektörlerde yatırım yaparken, stratejik bir yaklaşım geliştirmek kritik öneme sahiptir. Ayrıca, büyük dil modeli tabanlı duygu sinyallerini portföylere dahil ederken sektör bazlı ağırlıklandırmanın da hayati bir rol oynadığı anlaşılmaktadır. Modellerin kendi içindeki karşılaştırmasında, GPT-4o-mini, dengeli ve tutarlı bir performans sergileyerek farklı sektörlerde iniş çıkışı en düşük sonuçları vermiştir. Bu, yatırımcıların risk yönetimi açısından önemli bir avantaj sağlayabilir. Diğer yandan, Llama modeli, kısa vadeli duygu dalgalanmalarına en hızlı yanıt veren model olarak öne çıkmıştır; bu durum, piyasa hareketlerine anında tepki verme yeteneği açısından önemli bir artıdır. Gemini ise düşük gecikme süresi avantajını özellikle tek pencere yaklaşımında hissettirmiştir. Ancak, bu modelin skorlar biriktirildiğinde getiri üstünlüğünü kaybetmesi, yatırımcıların uzun vadeli stratejiler geliştirmeleri gerektiğini göstermektedir. Sonuç olarak, sektörel analizler ve model karşılaştırmaları, yatırım kararları alırken dikkate alınması gereken önemli unsurlardır. Araştırmanın limitleri, elde edilen pozitif bulguların temkinli bir şekilde yorumlanması gerektiğini açıkça ortaya koymaktadır. İlk olarak, geriye dönük testlerde komisyon, işlem ücreti ve likidite kısıtı gibi önemli unsurlar sıfır varsayılmıştır. Bu durum, gerçek hayatta karşılaşılacak maliyetlerin hesaba katılmamasına neden olmuştur. Dolayısıyla, raporlanan getirilerin üst bant niteliğinde olduğu ve bu getirilerin gerçek piyasa koşullarını tam olarak yansıtmadığı söylenebilir. Bu nedenle, elde edilen sonuçların dikkatli bir şekilde değerlendirilmesi ve yorumlanması gerekmektedir. İkinci olarak, veri setinin yalnızca likit büyük ölçekli Amerikan hisseleriyle sınırlı tutulması, araştırmanın kapsamını daraltmaktadır. Küçük ve orta ölçekli şirketlerde veya farklı ülke borsalarında haber akışının etkisi, büyük ölçekli şirketlere göre farklı biçimlerde gerçekleşebilir. Bu durum, araştırmanın genellenebilirliğini olumsuz yönde etkileyebilir ve farklı piyasa dinamikleri göz önüne alındığında, elde edilen bulguların geçerliliği sorgulanabilir hale gelebilir. Üçüncü olarak, araştırmada kullanılan modellerin ön-eğitim verisi dışında hiçbir özel finansal metinle ince ayar yapılmadan kullanıldığı belirtilmelidir. Bu durum, finans odaklı bir ince ayarın yapılmamasının, model sıralamasını ve mutlak performansı değiştirebileceği anlamına gelmektedir. Dolayısıyla, daha spesifik ve hedefe yönelik bir eğitimin, sonuçların kalitesini artırabileceği düşünülmektedir. Son olarak, büyük dil modellerinin karar süreçlerinin şeffaf olmaması, çıkarılan sinyallerin düzenleyici denetim ve risk yönetimi açısından açıklanabilirliğini sınırlamaktadır. Bu durum, yatırımcıların ve diğer paydaşların, bu modellerin nasıl çalıştığını ve hangi kriterlere göre kararlar aldığını anlamalarını zorlaştırmaktadır. Dolayısıyla, bu araştırmanın bulgularının uygulanabilirliği, yalnızca teknik başarılara değil, aynı zamanda bu tür modellerin şeffaf bir şekilde sunulmasına da bağlıdır. Bu nedenle, elde edilen sonuçların dikkatli bir şekilde değerlendirilmesi ve yorumlanması gerektiği vurgulanmalıdır. Buna rağmen tez, büyük dil modellerinin ek geliştirme maliyeti olmaksızın finansal haberlerden anlamlı ve kârlı sinyaller çıkarabileceğini, özellikle haftalık ve kümülatif yaklaşımlarda istatistiksel anlamlılık ve ekonomik değer yarattığını ikna edici şekilde göstermiştir. Gelecek çalışmalarda, çok dilli haber akışlarının ve sosyal medya içeriklerinin entegre edilmesi, gerçek zamanlı (intraday) uygulamaların işlem maliyetleri dâhil edilerek test edilmesi, duygu sinyalinin momentum, volatilite gibi klasik faktör modelleriyle harmanlandığı melez yaklaşımların geliştirilmesi ve kara-kutu niteliğini azaltmak için açıklanabilir yapay zekâ tekniklerinin uygulanması önerilmektedir. Böylece büyük dil modeli tabanlı duygu analizi, yalnızca metin veriyi sayısallaştıran yardımcı bir araç olmaktan çıkıp, çoklu faktörlü algoritmik işlem stratejilerinde yüksek katma değerli, tamamlayıcı bir bileşen hâline gelebilecektir. Sonuç olarak, bu tez, haber duyarlılığının fiyatlara yansıma dinamiklerini derin öğrenme tabanlı dil modelleriyle nicel olarak ortaya koyup, kısa vadeli ticaret kararlarında kullanılabilecek pratik bir çerçeve sunmaktadır. Bulgular, bilgi akışının zamana yayılma özelliğini dikkate alan yaklaşımların, gürültüden arındırılmış daha güçlü sinyaller ürettiğini ve risk-düzeltilmiş getirileri anlamlı biçimde iyileştirebileceğini kanıtlamaktadır. Büyük dil modellerinin hızla gelişen kabiliyetleri göz önüne alındığında, finansal piyasalarda duygu odaklı tahmin yöntemlerinin önümüzdeki dönemde daha da önem kazanacağı öngörülmektedir.

Özet (Çeviri)

Financial markets react almost instantly to news, yet the information contained in headlines and articles is inherently unstructured. Traditional dictionary or bag-of-words sentiment engines struggle with nuance, sarcasm and domain-specific jargon. The recent emergence of large language models (LLMs) such as GPT-4o-mini (OpenAI), Gemini 2.0 Flash (Google) and Llama 4 Maverick (Meta) offers a new way to read and score news with near-human comprehension. This thesis explores whether modern large-language models (LLMs) can turn raw news into reliable short-term trading signals. Drawing on twenty highly liquid S&P 100 constituents and U.S. macroeconomic headlines between November 2023 and April 2025, the author feeds every story published up to thirty minutes before the market opens into GPT-4o-mini (OpenAI), Gemini 2.0 Flash (Google) and Llama 4 Maverick (Meta), asking each model to output a single scalar sentiment between –1 and +1 for every asset and forecast window. Duplicate headlines are removed with cosine similarity, oversized news batches are automatically summarised, and sector tags are retained for later analysis. The pipeline is fully deterministic (temperature = 0, top-p = 1) so that identical inputs always give identical scores. Two trading horizons are simulated. In the daily strategy, a position opened at the market open is closed the same day; in the weekly strategy, the trade runs from Monday open to Friday close, both guided solely by the sign of the LLM score. Directional accuracy, open-to-close return and rolling cumulative sentiment windows from two to twenty periods measure performance, the latter designed to test whether“sentiment momentum”stabilises noisy single-period signals. Baseline daily accuracy hovers just above randomness at 49 – 52 percent, with Gemini edging the others and being the only model to deliver a slightly positive mean daily return (0.015 percent). When the horizon is stretched to one week, accuracy rises to 51 – 57 percent and returns improve markedly: Llama peaks at a 0.54 percent average weekly gain while GPT posts the best risk-adjusted Sharpe-like ratio of 1.20. Aggregating sentiment over longer look-back windows supercharges these signals; ten to twenty week sums lift accuracy by up to five points and multiply returns more than fifteen-fold versus the single-week baseline. Performance is not uniform across sectors. Consumer Staples, Financials and Technology exhibit accuracies above 60 percent and strong positive returns, whereas Energy and Consumer Discretionary remain volatile and often loss-making, underscoring the value of sector-weighted application of the models. Across models, GPT proves the steadiest all-rounder, Llama the most responsive to short-term sentiment shocks, and Gemini the lowest-latency option whose edge appears in baseline (non-aggregated) settings but fades when scores are rolled. Key limitations temper these encouraging results. The study ignores transaction costs, liquidity slippage and execution delay, so reported returns represent an upper bound. Only large-cap U.S. equities are analysed; behaviour may differ in small caps or international markets. Finally, the black-box nature of LLMs leaves their decision logic opaque, raising operational-risk and compliance questions. Even so, the evidence that off-the-shelf LLMs can extract economically meaningful sentiment - especially when cumulative scores are used weekly - points to a promising complementary role for generative AI within multi-factor trading frameworks and highlights fertile ground for future research on intraday deployment, cost-aware back-testing and explainability.

Benzer Tezler

  1. Network analysis of co-search-based investor attention on stock prices

    Ortak arama tabanlı yatırımcı dikkatinin hisse senedi fiyatları üzerindeki ağ analizi

    MÜGE ÖZDEMİR

    Doktora

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. OKTAY TAŞ

  2. Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi

    Classification and analysis of employee feedback with deep learning algorithms

    GÖKHAN YİĞİDEFE

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN

  3. Enhancing financial market forecasting using deep learning and computer vision-based technical analysis

    Derin öğrenme ve bilgisayarlı görü tabanlı teknik analiz kullanarak finansal piyasa tahminlerinin geliştirilmesi

    EDREES RAMADAN MERSAL MORCELI

    Doktora

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. HAKAN KUTUCU

  4. Bankacılık işlemlerinde müşteri edinimi ve müşteri kaybının yapay zeka ile değerlendirilmesi

    Assessment of customer acquisition and closure in banking transactions with artificial intelligence

    BETÜL KOKULU

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FATİH BAŞÇİFTÇİ

  5. Yayılı kirletici kaynakların yönetiminde yapısal en iyi yönetim uygulamalarının giderim verimi-maliyet ilişkisi

    Removal efficiency-cost relationship of structural best management practices in non-point source pollution management

    NİLAY CAMBAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    PROF. DR. MELİKE GÜREL