Geri Dön

Yeni nesil derin bağlamsallaştırılmış kelime gösterimleri ve derin öğrenme modelleriyle finansal haberler kullanarak borsa tahminlemesi

Stock generation estimation using financial news with new generation deep contextualized word display and deep learning models

  1. Tez No: 627226
  2. Yazar: DERYA OTHAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ZEYNEP HİLAL KİLİMCİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Doğuş Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Amaç Hisseler, ekonomik krizden etkilenen önemli bir yatırım türüdür. Bu nedenle, hisselerin yönünü tahmin etmek yatırımcılar, analistler ve araştırmacılar için önemlidir. Özellikle de yatırımcılara yapacakları yatırımların yönünü belirlemede önemli bir kaynak olmaktadır. Hisseler üzerinde yatırım yapan ve yaptıkları yatırımlar hakkında yorumlarını paylaşan kullanıcılar, hisseler hakkında analiz yapan analistler ve finansal haberlerin yayınlandığı platformlar tüm kullanıcılara bilgi paylaşımı sağlayan bir platform oluştururlar. Bu çalışmanın amacı, geleneksel derin öğrenme ve kelime gömme modellerinin yanında yeni nesil kelime gömme modellerini kullanarak insanlara BIST100'de en büyük hacime sahip olan hisselerin yönünü tahmin etmeyi ve yatırımcılara yatırımlarının yönünü belirlemede önemli bir kaynak sunmayı teklif ediyoruz. Bildiğimiz kadarıyla, BIST100'de en büyük hacime sahip olan hisseler hakkında tamamen Türkçe metinler üzerinden geleneksel kelime gömme ve derin öğrenme modellerinin yanında yeni nesil kelime gömme modelleri kullanarak analiz etmek için yapılan ilk çalışmadır. Materyaller ve yöntemler BIST100'de en büyük hacime sahip olan hisseler ile ilgili, bireysel ve kurumsal kullanıcı yorumları, haber sitelerinde yer alan duyurular ve yatırımcılara değerli bir kaynak olan finansal teknik analizler Türkçe metin kaynağı olarak toplandı. Bireysel ve kurumsal kullanıcı yorumları Twitter sayfalarındaki (“AKBNK”,“ALBRK”,“GARAN”,“HALKB”,“ISCTR”,“SKBNK”,“TSKB”,“VAKBN”,“YKBNK”) anahtar kelimeler ile aranarak hesaplardan toplandı. Sosyal medya platform olan Twitter'daki Türkçe kullanıcı yorumlarını toplamak için Python programlama dilinde yazdığımız Selenium Crawler kullanılarak toplandı. C# dilinde kendi yazdığımız web tarayıcısı ile de, Kamuyu Aydınlatma Platformu (KAP)'ndan finansal haberler ve Mynet Finans web sitesinden kullanıcı yorumları çeşitli Türkçe metin kaynağı olarak toplanmaktadır. Big Para'dan hisselere ait analistler tarafından yapılmış finansal analizler günlük olarak toplanmıştır. Twitter, KAP ve Mynet Finans'taki veriler 01.09.2018 ile 01.09.2019 tarihleri aralığında toplanmıştır. Big Para'da geçmişe yönelik veri çekilemediğinden günlük olarak 28.08.2019 ile 15.11.2019 tarihleri arasında toplanmıştır. Bu çalışmada Word2Vec, GloVe ve FastText, kullanıcı yorumlarını, finansal analiz ve haberleri anlamsal, bağlamsal ve sözdizimi açısından zenginleştirmek amacıyla geleneksel kelime gömme modelleri olarak kullanılmıştır. Evrişimli Sinir Ağları (CNN'ler), Tekrarlayan Sinir Ağları (RNN'ler) ve Uzun Kısa Süreli Bellek Ağları (LSTM'ler) sınıflandırma görevi için geleneksel derin öğrenme algoritmaları uygulanılmıştır. Bunların yanında yeni nesil kelime gömme modelleri olan Transformatörlerden Çift Yönlü Kodlayıcı Gösterimleri (BERT), Dil Modellerinden Yerleştirme (ELMo) ve Evrensel Dil Modeli İnce Ayar (ULMFiT) kullanılmıştır. Deneysel Sonuçlar Bu çalışmada, geleneksel kelime gömme modelleri, derin öğrenme algoritmaları ve yeni nesil kelime gömme modelleri kullanılarak BIST100'de büyük hacime sahip olan borsa hisselerinin yönünü tahmin etmek için kapsamlı deneyler yapılmıştır. Belirtilen tüm doğruluklar, her modelin sınıflandırma performansını ve yaptığımız çalışmanın katkısını göstermek için deneylerde kullanılan bir değerlendirme ölçütüdür. Ön işleme yöntemlerinin uygulanması ile önerilen modelin sınıflandırma performasını iyileştirme amaçlanmıştır. Kullanıcı yorumlarını içeren Türkçe metinleri sınıflandırmada yeni nesil kelime gömme modeli olan ELMo'nun ön işleme yöntemleriyle birleşimi, kullanıcıların hisselerini yönlendirmedeki hassasiyetini belirlemek ve en iyi sınıflandırma başarısı elde etmek için avantajlı bir seçim olacağı sırasıyla Twitter ve Mynet Finans'tan toplanan Türkçe veri setinden elde edilen %97.70 ve %91.55'lik doğruluk değeri ile ortaya koyulmuştur. Ancak haberler ve analizler gibi Türkçe metin içerikli veri setlerinde yeni nesil kelime gömme modellerine göre geleneksel derin öğrenme algortimaları daha iyi sonuçlar üretmiştir. Sonuçlar Bu çalışma, borsa hisselerinin yönünü tahmin etmek için çeşitli veri kaynaklarından toplanan metinler üzerinde geleneksel kelime gömme modelleri, derin öğrenme algoritmaları ve yeni nesil kelime gömme modellerini kullanma etkinliğini ve hisselerin yönlerini analiz ederek yatırımcılara yatırım yapacakları süreçte değerli bir katkı sağladığını göstermektedir.

Özet (Çeviri)

Objective Stocks are an important investment type affected by the economic crisis. Therefore, it is important for investors, analysts and researchers to predict the direction of the shares. In particular, it is an important source in determining the direction of investments to be made to investors. Users who invest in shares and share their comments on their investments, analysts analyzing shares, and platforms where financial news are published form a platform that provides information sharing to all users. The aim of this study is to propose to the people using the new generation of word embedding models as well as traditional deep learning and word embedding models to predict the direction of the largest volume of shares in BIST100 and to provide investors with an important resource in determining the direction of their investments. To the best of our knowledge, it is the first study to analyze the largest volume of shares in BIST100 using traditional Turkish embedding and deep learning models as well as new generation of word embedding models over completely Turkish texts. Materials and Methods Individual and corporate user reviews, announcements on news sites and financial technical analysis, which is a valuable resource for investors, have been collected as the Turkish text source. Individual and corporate user comments were collected from the accounts by searching on the Twitter pages (“AKBNK”,“ALBRK”,“GARAN”,“HALKB”,“ISCTR”,“SKBNK”,“TSKB”,“VAKBN”,“YKBNK”). . It was collected by using Selenium Crawler, which we wrote in Python programming language, in order to collect user comments on the social media platform Twitter. With our own web browser in C #, financial news from the Public Disclosure Platform (KAP) and user comments from the Mynet Finans website are collected as various Turkish text sources. Financial analyzes conducted by analysts belonging to Big Para were collected daily. The data in Twitter, KAP and Mynet Finans were collected between 01.09.2018 and 01.09.2019. Since the historical data of Big Para could not be collected, it was collected daily between 28.08.2019 and 15.11.2019. In this study, Word2Vec, GloVe and FastText are used as traditional word embedding models to enrich user interpretations, financial analysis and news in terms of semantic, contextual and syntax. Conventional neural networks (CNNs), Recurrent Neural Networks (RNNs) and Long Short Term Memory Networks (LSTMs) have been implemented with traditional deep learning algorithms for the classification task. In addition, the new generation of word embedding models from the Transformers Bidirectional Encoder Display (BERT), Language Models Placement (ELMo) and Universal Language Model Fine Tuning (ULMFiT) were used. Results In this study, extensive experiments have been conducted to predict the direction of large volume stock market shares in BIST100 by using traditional word embedding models, deep learning algorithms and next generation word embedding models. All stated accuracy is an evaluation criterion used in experiments to demonstrate the classification performance of each model and the contribution of our work. With the application of pre-treatment methods, it is aimed to improve the classification performance of the proposed model. The combination of ELMo, which is a new generation word embedding model for classifying Turkish texts containing user comments, with preprocessing methods, is an advantageous choice for determining the sensitivity of the users in guiding their shares and achieving the best classification success. 97.70% and 91.55% with the accuracy value was revealed. However, traditional deep learning algorithms produced better results than the new generation word embedding models in Turkish textual data sets such as news and analysis. Conclusions This study demonstrates the effectiveness of using traditional word embedding models, deep learning algorithms, and new generation word embedding models on texts collected from various data sources to predict the direction of stock market shares and makes a valuable contribution to investors in the process of investing.

Benzer Tezler

  1. Hücresel ağlarda hücre hizmet kesintisinin yeni nesil derin öğrenme algoritmaları ile tespiti

    Detection of cell outages in cellular networks with new generation deep learning algorithms

    HASAN TAHSİN OĞUZ

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYKUT KALAYCIOĞLU

  2. Identification and functional characterization of essential genes involved in the development of malignant pleural mesothelioma using CRISPR/Cas9-based negative selection screening

    Malign plevral mezotelyoma gelişiminde rol oynayan esansiyel genlerin CRISPR/Cas9 bazlı negatif seçilim tarama yöntemiyle tanımlanması

    ECE ÇAKIROĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    BiyolojiDokuz Eylül Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DOÇ. DR. ŞERİF ŞENTÜRK

  3. Yeni nesil haberleşme sistemlerinde derin öğrenme tabanlı sezici tasarımı ve başarım analizi

    Deep learning based detector design and performance analysis in new genration communication systems

    AHMET EMİR

    Doktora

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiZonguldak Bülent Ecevit Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAKAN KAYA

  4. Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi

    Clustering next generation sequencing data based on deep learning

    UĞUR TOPRAK

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. BEYZA DOĞANAY ERDOĞAN

  5. Development of non-invasive diagnostic system using infrared thermal imaging for deep vein thrombosis and raynaud's phenomenon

    Derin ven trombozu ve raynaud fenomeni için kızılötesi termal görüntüleme kullanarak invaziv olmayan tanı sisteminin geliştirilmesi

    SEYDİ KAÇMAZ

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGaziantep Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ERGUN ERÇELEBİ