Doğal dil işleme ve derin öğrenme yöntemleri kullanılarak finansal verilerin analizi

Analysis of financial data using natural language processing and deep learning methods

PDF İndir

Tez No: 847299
Yazar: MUSTAFA SAMİ KAÇAR
Danışmanlar: PROF. DR. HALİFE KODAZ, DR. ÖĞR. ÜYESİ SEMİH YUMUŞAK
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Konya Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 101

Özet

Son yıllarda, dünyadaki hemen her alanda dijital veri üretiminin her geçen gün büyük bir hızla artması, karar alma aşamasındaki kullanımını önemli ölçüde artmıştır. Bu rüzgâr, finans alanında da kendini ciddi bir şekilde göstermiştir. Ancak, geleneksel istatistiksel yöntemler, ham verinin kontrolsüz genişlemesi ve karmaşıklığı nedeniyle artık işlevini günden güne yitirmektedir. Bu nedenle, finansal verilerin temizlenmesi ve analiz edilmesi için modern makine öğrenimi yöntemlerinin kullanılması son derece önemlidir. Bu tez çalışmasında, şirketlerin paylaşmış oldukları yıllık ve dönemsel finansal bilgilerin yer aldığı raporlardan yeni veri setleri üreten ve üretilen setleri makine öğrenmesi yöntemleriyle analiz eden yenilikçi yaklaşımlar sunulmuştur. Çalışma kapsamında, finansal 10K yıllık raporları toplanarak analiz edilebilir veri setlerine dönüştürülmüş ve makine öğrenmesi yöntemleriyle sınıflandırma işlemi gerçekleştirilmiştir. Elde edilen başarılı sonuçlarla (%92 doğruluk değeri), 10K raporlarının veri setine dönüşümü için önemli bir katkı sağlanmıştır. Doğal dil işleme tekniklerinin oldukça karmaşık ve hatalı veriler içeren 10K raporlarına uygulanması da yine tez kapsamında gerçekleştirilerek, benzersiz yeni yaklaşımlar sunulmuştur. 10Q çeyrek raporlarının analizini mümkün kılan bir hibrit yöntem, tez kapsamında gerçekleştirilen çalışmalarla üretilmiştir. Yöntemle, şirketlerin metinsel içeriğe sahip çeyrek raporları, Doc2Vec ve K Means kümeleme algoritmaları kullanılarak verimli veri setlerine dönüştürülmüştür. Şirketlerin sonraki finansal çeyrekteki fiyat güçlerini gösteren ve bir ile on arasında değerler alan 'PriceRank' metriği, düşük, orta ve yüksek olacak şekilde üçe ayrılarak, veri setine sınıf değerleri olarak eklenmiştir. Daha sonra, derin öğrenme yöntemi olan Evrişimsel Sinir Ağı ile gerçekleştirilen sınıflandırma işlemiyle başarılı sonuçlar (%84 doğruluk değeri) üretilmiştir. Son olarak, Doc2Vec ve K Means algoritmalarıyla üretilen veri setine, veri üzerindeki hem kısa hem de uzun vadeli bağlantıları daha iyi ortaya çıkarabilmek ve özellik çıkarımı adımını iyileştirmek için Tek Boyutlu Evrişimsel Sinir Ağı ve Uzun Kısa Süreli Bellek algoritmalarından meydana gelen hibrit bir yöntem uygulanmıştır. Elde edilen başarılı sonuçlar (%88 doğruluk değeri), bu yeni hibrit yöntemin, veri analizinde geleneksel derin öğrenmesi yöntemlerinden daha iyi sonuçlar üretebileceğini göstermiştir.

Özet (Çeviri)

In recent years, with the rapid increase in digital data production at worldwide, its usage for decision-making has significantly grown. This trend has also made its mark in the finance. However, traditional statistical methods are no longer effective due to the uncontrolled expansion and complexity of raw data. Therefore, it is crucial to employ modern machine learning methods for cleansing and analyzing financial data. This thesis presents innovative approaches that generate new datasets from annual and periodic financial reports shared by companies and analyze these generated datasets using machine learning techniques. Within the scope of the study, 10K annual reports were collected, transformed into analyzable datasets, and subjected to classification processes using machine learning methods. The successful results obtained (92% accuracy) contribute significantly to the transformation of 10K reports into a dataset. The application of natural language processing techniques to complex and error-prone 10K reports was also performed within the thesis, presenting unique approaches. A hybrid method that enables the analysis of 10Q quarter reports was produced by the studies carried out within the scope of the thesis. With the method, companies' quarterly reports with textual content were transformed into efficient data sets using Doc2Vec and K Means Clustering algorithms. The 'PriceRank' metric, which shows the price power of companies in the next financial quarter and takes values between one and ten, was divided into three groups as low, medium, and high and added to the data set as class values. Later, successful results (84% accuracy) were produced by the classification process with the deep learning method, Convolutional Neural Network. Finally, a hybrid method consisting of 1D Convolutional Neural Network and Long Short-Term Memory algorithms was applied to the data set produced with Doc2Vec and K Means algorithms to better reveal both short- and long-term connections on the data and to improve the feature extraction step. The successful results obtained (88% accuracy) showed that this new hybrid method can produce better results than traditional deep learning methods in data analysis.

Benzer Tezler

Tez No
925486
Metin madenciliği ve derin öğrenme yöntemleri kullanılarak borsadaki hareketlerin sosyal medya ile ilişkisinin analiz edilmesi
Analyzing the relationship between stock market movements and social media using text mining and deep learning methods
METİN OKTAY BOZ
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Mersin Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ JALE BEKTAŞ
Tez No
885503
Machine learning applications for time series analysis
Zaman serileri analizi için makine öğrenmesi uygulamaları
MERT CAN
Yüksek Lisans
İngilizce
2024
Matematik İstanbul Teknik Üniversitesi
Matematik Mühendisliği Ana Bilim Dalı
PROF. DR. ATABEY KAYGUN
Tez No
952982
Discovering market insights from online product reviews through sentiment analysis
Çevrimiçi müşteri yorumları ile duygu analizi ve pazar payı için bir içgörü aracı
MUHAMMET ALİ KADIOĞLU
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN IŞIKLI
Tez No
756993
Detection of remote homology in proteins by machine learning algorithms
Uzak homolog proteinlerin makine öğrenme algoritmaları kullanılarak tespiti
FAHRİYE GEMCİ
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Çukurova Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ULUS ÇEVİK
PROF. DR. TURGAY İBRİKÇİ
Tez No
955264
Learning general type-2 fuzzy logic systems for uncertainty quantification
Belirsizlik nicelleştirilmesi için genel tip-2 bulanik mantik sistemlerinin öğrenilmesi
YUSUF GÜVEN
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. TUFAN KUMBASAR

Geri Dön