Doğal dil işleme ve derin öğrenme yöntemleri kullanılarak finansal verilerin analizi
Analysis of financial data using natural language processing and deep learning methods
- Tez No: 847299
- Danışmanlar: PROF. DR. HALİFE KODAZ, DR. ÖĞR. ÜYESİ SEMİH YUMUŞAK
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Konya Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 101
Özet
Son yıllarda, dünyadaki hemen her alanda dijital veri üretiminin her geçen gün büyük bir hızla artması, karar alma aşamasındaki kullanımını önemli ölçüde artmıştır. Bu rüzgâr, finans alanında da kendini ciddi bir şekilde göstermiştir. Ancak, geleneksel istatistiksel yöntemler, ham verinin kontrolsüz genişlemesi ve karmaşıklığı nedeniyle artık işlevini günden güne yitirmektedir. Bu nedenle, finansal verilerin temizlenmesi ve analiz edilmesi için modern makine öğrenimi yöntemlerinin kullanılması son derece önemlidir. Bu tez çalışmasında, şirketlerin paylaşmış oldukları yıllık ve dönemsel finansal bilgilerin yer aldığı raporlardan yeni veri setleri üreten ve üretilen setleri makine öğrenmesi yöntemleriyle analiz eden yenilikçi yaklaşımlar sunulmuştur. Çalışma kapsamında, finansal 10K yıllık raporları toplanarak analiz edilebilir veri setlerine dönüştürülmüş ve makine öğrenmesi yöntemleriyle sınıflandırma işlemi gerçekleştirilmiştir. Elde edilen başarılı sonuçlarla (%92 doğruluk değeri), 10K raporlarının veri setine dönüşümü için önemli bir katkı sağlanmıştır. Doğal dil işleme tekniklerinin oldukça karmaşık ve hatalı veriler içeren 10K raporlarına uygulanması da yine tez kapsamında gerçekleştirilerek, benzersiz yeni yaklaşımlar sunulmuştur. 10Q çeyrek raporlarının analizini mümkün kılan bir hibrit yöntem, tez kapsamında gerçekleştirilen çalışmalarla üretilmiştir. Yöntemle, şirketlerin metinsel içeriğe sahip çeyrek raporları, Doc2Vec ve K Means kümeleme algoritmaları kullanılarak verimli veri setlerine dönüştürülmüştür. Şirketlerin sonraki finansal çeyrekteki fiyat güçlerini gösteren ve bir ile on arasında değerler alan 'PriceRank' metriği, düşük, orta ve yüksek olacak şekilde üçe ayrılarak, veri setine sınıf değerleri olarak eklenmiştir. Daha sonra, derin öğrenme yöntemi olan Evrişimsel Sinir Ağı ile gerçekleştirilen sınıflandırma işlemiyle başarılı sonuçlar (%84 doğruluk değeri) üretilmiştir. Son olarak, Doc2Vec ve K Means algoritmalarıyla üretilen veri setine, veri üzerindeki hem kısa hem de uzun vadeli bağlantıları daha iyi ortaya çıkarabilmek ve özellik çıkarımı adımını iyileştirmek için Tek Boyutlu Evrişimsel Sinir Ağı ve Uzun Kısa Süreli Bellek algoritmalarından meydana gelen hibrit bir yöntem uygulanmıştır. Elde edilen başarılı sonuçlar (%88 doğruluk değeri), bu yeni hibrit yöntemin, veri analizinde geleneksel derin öğrenmesi yöntemlerinden daha iyi sonuçlar üretebileceğini göstermiştir.
Özet (Çeviri)
In recent years, with the rapid increase in digital data production at worldwide, its usage for decision-making has significantly grown. This trend has also made its mark in the finance. However, traditional statistical methods are no longer effective due to the uncontrolled expansion and complexity of raw data. Therefore, it is crucial to employ modern machine learning methods for cleansing and analyzing financial data. This thesis presents innovative approaches that generate new datasets from annual and periodic financial reports shared by companies and analyze these generated datasets using machine learning techniques. Within the scope of the study, 10K annual reports were collected, transformed into analyzable datasets, and subjected to classification processes using machine learning methods. The successful results obtained (92% accuracy) contribute significantly to the transformation of 10K reports into a dataset. The application of natural language processing techniques to complex and error-prone 10K reports was also performed within the thesis, presenting unique approaches. A hybrid method that enables the analysis of 10Q quarter reports was produced by the studies carried out within the scope of the thesis. With the method, companies' quarterly reports with textual content were transformed into efficient data sets using Doc2Vec and K Means Clustering algorithms. The 'PriceRank' metric, which shows the price power of companies in the next financial quarter and takes values between one and ten, was divided into three groups as low, medium, and high and added to the data set as class values. Later, successful results (84% accuracy) were produced by the classification process with the deep learning method, Convolutional Neural Network. Finally, a hybrid method consisting of 1D Convolutional Neural Network and Long Short-Term Memory algorithms was applied to the data set produced with Doc2Vec and K Means algorithms to better reveal both short- and long-term connections on the data and to improve the feature extraction step. The successful results obtained (88% accuracy) showed that this new hybrid method can produce better results than traditional deep learning methods in data analysis.
Benzer Tezler
- Machine learning applications for time series analysis
Zaman serileri analizi için makine öğrenmesi uygulamaları
MERT CAN
Yüksek Lisans
İngilizce
2024
Matematikİstanbul Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. ATABEY KAYGUN
- Detection of remote homology in proteins by machine learning algorithms
Uzak homolog proteinlerin makine öğrenme algoritmaları kullanılarak tespiti
FAHRİYE GEMCİ
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ULUS ÇEVİK
PROF. DR. TURGAY İBRİKÇİ
- Finsentiment: Predicting financial sentiment and risk through transfer learning
Başlık çevirisi yok
ZEHRA ERVA ERGÜN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SEFER
- Görüntü başlıklama yöntemi ile ürün görüntülerine uygun başlıkların üretilmesi
Generating titles for product images with an image captioning technique
BİRKAN ATICI
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEVİNÇ İLHAN OMURCA
- GPT modelleri kullanılarak ironi tespiti ve sınıflandırması
Irony detection and classification using GPT models
MUSTAFA ULVİ AYTEKİN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN AYHAN ERDEM