Geri Dön

TFEEC : Türkçe finansal olay çıkarım derlemi

TFEEC : Turkish financial event extraction corpus

  1. Tez No: 740021
  2. Yazar: KADİR ŞİNAS KAYNAK
  3. Danışmanlar: DOÇ. DR. AHMET CÜNEYD TANTUĞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

Gelişen dünya ile dijitalleşmeye olan ilgi gitgide artmaktadır. Son zamanlarda çeşitli alanlarda yapılan dijitale dönüşüm çalışmaları da bu trendin önemini vurgulayan işler oldu. Dijitalleşme sayesinde inanılmaz sayılarda metinler üretilmekte ve paylaşılmaktadır. Bu dijital kaynaklardan bilginin çıkarımı az sayıdaki veri için elle yapılabilir olsa da çok büyük miktarlardaki verilerle çalışmak oldukça yoğun ve zaman alıcı olmaktadır. Yaşanan problemleri aşabilmek ve elle yapılan çalışmaları otomatikleştirebilmek için bilgi çıkarma teknikleri geliştirilmeye başlanmıştır. Bilgi çıkarma, genellikle metinlerden doğal dil işleme teknikleri kullanılarak yapılandırılmış bilgilerin otomatik olarak çıkartılmasını hedefler. Bu da bu alandaki insan eforunu ve masrafları azaltarak süreci daha verimli hale getirir. Şu ana kadar yapılan katkılar ve gelecekte sağlayacağı düşünülen faydalardan dolayı bu alanda yapılan çalışmalar popülerlik kazanmıştır. Bilgi çıkarmanın bir türü de olay çıkarımıdır. Olay çıkarma metindeki olayları bulmayı, bulunan olayların tiplerinin tespitinin yapılmasını ve buna karşılık gelen argümanların tanımlanmasını içeren zorlu bir görevdir. Bu sayede elde edilen yapılandırılmış bilgiler, farklı doğal dil işleme görevlerine (bilgi tabanı oluşturma, soru cevaplama, dil anlama gibi) faydalı bilgiler sağlayabilir ve katkıda bulunabilir. Ancak bu alanda sınırlı sayıda literatür çalışması yapılmıştır ve yapılan çalışmalar da genellikle belirli bir alana odaklanır. Küresel çapta yapılan olay çıkarımı araştırmalarının odaklandığı çalışma alanlarından biri de finans ve ekonomidir. Finansal olay çıkarımı hem şirketler hem de yatırımcılar için çok önemlidir. Şirketler ürünleri hakkında hızlı geri dönüş alabilmek, risk analizi yapabilmek ve yeni pazar araştırmaları yürütebilmek için bu olaylardan gelen sinyalleri kullanırlar. Yatırımcılar ise piyasa olup biteni takip edebilmek, trendleri erken yakalayabilmek ve yatırımlarını doğru yere yönlendirip, etkin kararlar verebilmek için yapılan çıkarımlardan faydalanırlar. Ancak son yıllarda iyice artan finans haberleri bunları takip etmeyi ve bu metinleri işlemeyi imkansız hale getirmiştir. Bu sebeple finansal metinlerden otomatik çıkarım yapma ihtiyacı doğmuştur. Finansal olay çıkarımı alanında İngilizce, Çince, Arapça gibi çeşitli dillerde uzun zamandır çalışmalar yapılmış ve halen de yapılmaya devam etmektedir, ancak bildiğimiz kadarıyla Türkçe için yapılmış bir çalışma bulunmamaktadır. Olay çıkarma görevi ilk zamanlarda genellikle örüntü eşleştirme yöntemleriyle gerçekleştirilmiştir. Kullanılan bu yöntem için alanındaki uzman kişiler belli kurallar ve şablonlar oluşturmuşlar ve örüntü eşleştirme ile metinlerde geçen olay ve argümanları bulabilmişler. Daha geniş kapsamlı çalışmalar gerçekleştirmek istediklerinde ise örüntü eşleştirme ile yapılamayacağını anlayıp makine öğrenimi tekniklerini tercih etmişler. Ancak makine öğrenimi, görevi anlayabilmek ve doğru tahminleri yapabilmek için ona yol gösterecek işaretlere ihtiyaç duyar, bunlara etiketli veriler denilmektedir. Normalde etiketli veri elde edebilmek için uzmanlar tutulur ve işaretleme yapmaları istenir. Ancak insan eliyle yapılan bu işlemler oldukça zaman alan ve maliyetli bir iş olduğu için veri sayısı hep sınırlı kalmıştır. Var olan etiketli veriler kullanılarak makine öğrenimi eğitimleri gerçekleştirilmiş ancak hala veri sayısındaki eksiklikten ötürü istenen sonuçlara erişilememiştir. Bunun üzerine etiketli veriyi kullanmadan olay çıkarma denemeleri gerçekleştirilmiştir, ancak bunlar da etiketli verilerle eğitilen modellerin performansını yakalayamamıştır. Eksik veri problemi sadece olay çıkarımı alanında değil daha bir çok makine öğrenimi çalışmalarında da ortaya çıkmıştır. Bu nedenle daha fazla nasıl etiketli veri elde edilebileceği üzerine çeşitli araştırmalar yapılmıştır. Bu çalışmalar kendi kendine eğitim, aktif öğrenme, öğrenme aktarımı ve zayıf denetim olarak dört grupta incelenebilirler. Kendi kendine eğitimde, etiketli veri kümesi üzerinde eğitilen bir model etiketsiz veri kümesindeki verilerin etiketlerini tahmin eder, ve bu yeni etiketi tahmin edilen veriler etiketli veri kümesine dahil edilir. Aktif öğrenme veri kümesindeki en büyük etkiyi yaratacak örneklerin bulunup bu örneklerin insan tarafından işaretlenmesiyle sağlanır. Bu sayede buraya koyulan efor önemli derecede düşer. Öğrenme aktarımı sıfırdan öğrenme yapmak yerine benzer bir görevde öğrenilenleri kullanmayı hedefler. Zayıf denetimde ise kesin olmayan, gürültülü kaynaklar kullanılarak etiketsiz verilere etiket atanması sağlanır. Bu kaynaklar kurallar, bilgi tabanları veya geliştirilen başka modellerin çıktıları olabilirler. Bu tezle 3 ana katkıda bulunuyoruz; 1) Türkçe finans ve ekonomi alanında metin madenciliği uygulamaları geliştirmeye imkan sağlayacak bir referans veri kümesi sağlıyoruz. Bu derlem için 2010 – 2022 arasında farklı haber sitelerindeki şirketlere özel finans haberlerini toparladık. Olay çıkarımındaki alan kavramlarını ve aralarındaki ilişkileri tanımlayabilmek için ontoloji oluşturduk. Oluşturduğumuz ontoloji bu alanda yapılmış diğer akademik yayınların kavramları baz alınarak başladı, incelenen Türkçe haber metinlerinden yapılan çıkarımlarla listede eklemeler ve çıkarmalar yapılarak son haline getirildi. Toplandığımız şirket haberlerinden 600 tanesi seçilerek cümle ve kelimelerine ayrıldı. Daha sonra bu seçilen dokümanlar etiketlenmesi için işaretleme aracına verildi, ve ontolojiye uygun olarak olay tetikleyicileri ve olay argümanları işaretleyici tarafından etiketlendi. 2) Kendi sonuçlarımızı değerlendirmek ve ileride yapılacak olay çıkarımı çalışmalarına zemin hazırlamak için temel model sonuçlarımızı paylaşıyoruz. Bunu yapabilmek için elle etiketlediğimiz veri kümesini eğitim ve test olmak üzere ikiye ayırdık. Eğitim verilerini kullanarak eğittiğimiz farklı modellerin test verileri üzerindeki sonuçlarını karşılaştırdık ve en başarılı modeli temel olarak belirledik. 3) Denetimli makine öğrenimi modellerinin daha yüksek başarımlar elde edebilmesi ve görevi daha iyi öğrenebilmeleri için eğitim veri kümesini genişletecek çalışmalar yürüttük. Buradaki amacımız insan eforunu minimize ederek daha fazla etiketli veri elde edebilmektir. Bunun için aktif öğrenme ve zayıf denetim metotlarını denedik. Sadece aktif öğrenme metodunu kullanarak en az sayıda etiketli veri ile temel model performansına erişebilmeyi hedefledik. Zayıf denetim tekniklerini kullanarak insan eforu koymadan etiketli veri elde etmeyi amaçladık. Bunun için iki fonksiyon geliştirdik, birincisi olayları belirten kelimelerin bulunduğu listeyi kullanarak cümlelerde olay olup olmadığını gösterir. Diğer fonksiyon ise eğittiğimiz model sonucunda çıkan tahmin ile var olan diğer gürültülü tahminleri entegre ederek son etiketli listeyi döner. Son olarak aktif öğrenme döngüsüne zayıf denetim fonksiyonlarını dahil ederek kaliteyi düşürmeden insan eforunu en aza indirmeye çalıştık. Temel model için yaptığımız deneyler sonucunda eni iyi skoru BERT modeli ile elde ettik. Bu sonuçlar olay sınıflandırma için \%85,89 ve argüman sınıflandırma için \%65,81 makro ortalamalı F1 puanıdır. Sadece aktif öğrenme kullanıldığı durumda olay sınıflandırma için \%30 efor kazanımı olurken yalnızca \%0,06 performans düşüşü gözlenmiştir, argüman sınıflandırma için ise bu oranlar \%25 ve \%0,32 olarak kaydedilmiştir. Aktif öğrenme ve zayıf denetim metotlarının birlikte kullanıldığı durumda olay sınıflandırma için \%54 efor kazanımı sağlanırken \%0,7 oranında da performans iyileşmesi görülmüştür. Argüman sınıflandırma için bu oranlar \%60 ve \%2,32 olarak kaydedilmiştir. Son olarak elle etiketlenen verilerle zayıf denetim tarafından etiketleri atanan veriler birlikte kullanıldığında olay sınıflandırma için \%2,91, argüman sınıflandırma için \%13,76 lık bir performans artışı görülmüştür. Yaptığımız deneylerin sonuçlarına baktığımızda uyguladığımız metotların olumlu sonuçlar verdiğini, sadece daha fazla etiketli veri üretmekle kalmayıp performansı da arttırdığı görüyoruz. Elle etiketlediğimiz veri kümesi ile diğer çalışmalarda oluşturulmuş veri kümelerini karşılaştırdığımızda derlemimiz cümle sayısı olarak diğerlerinin gerisinde olsa da geniş kapsamı sayesinde daha fazla olay içermektedir. Elde ettiğimiz son veri kümesindeki veri sayısının doküman, cümle, olay ve argüman başlıklarında elle etiketlediğimiz veri sayısını yaklaşık 50 ye katladığını görüyoruz. Yaptığımız çalışmaların Türkçe finansal metinlerde yapılacak çalışmalara hız kazandıracağını ve daha fazla etiketli veriye ihtiyaç duyan görevlerde veri kümelerini genişletmede kullanılacağını düşünüyoruz.

Özet (Çeviri)

With the developing world, the interest in digitization is increasing. Recently, digital transformation studies in various fields have also been works that emphasize the importance of this trend. Thanks to these, incredible numbers of texts are produced in digital environments. Although the extraction of information from these digital sources can be done manually for a small number of data, working with large amounts of data is very intensive and time consuming. In order to overcome these problems and automate manual work, information extraction techniques have been developed. Information extraction usually aims to automatically extract structured information from texts using natural language processing techniques. This makes the process more efficient by reducing human effort and costs in this area. Studies have gained popularity due to the benefits it provides. One type of information extraction is event extraction. Event extraction is a challenging task that involves finding events in the text, identifying the types of events found, and identifying the corresponding arguments. Since it can produce structured information, it can contribute to the world of natural language processing by providing useful information for various tasks such as knowledge base building, question answering, etc. However, limited number of literature studies have been conducted in this area, and these studies generally focus on a specific area. One of these areas is studies in the domain of finance and economics. Financial event extraction is very important for both companies and investors. Companies use signals from these events to get quick feedback on their products, conduct risk analysis and new market research. Investors, on the other hand, benefit from inferences in order to follow the general market trend, direct their investments to the right place and make effective decisions. However, the increasing financial news in recent years has made it impossible to follow and process these texts. For this reason, the need to make automatic extraction from financial texts has arisen. In the domain of financial event extraction, studies in various languages such as English, Chinese and Arabic have been carried out for a while and still continue to be done, but to the best of our knowledge, there is no study conducted for Turkish. For the event extraction task, studies were carried out with pattern matching methods in the early times. Domain experts created certain rules and templates for the method used, and they were able to find the events and arguments in the texts by pattern matching. When they wanted to do more comprehensive studies, they preferred machine learning techniques. However, machine learning needs signals to guide it in order to understand the task and make accurate predictions, these are called labeled data. In order to obtain the data on these labels, experts were hired and asked to annotate them. However, since these processes are very time-consuming and costly, the number of data has always been limited. Machine learning training were carried out using existing labeled data, but still the desired results could not be achieved due to the lack of data. Thereupon, event extraction experiments were carried out without using the labeled data. However, these are can not reach the performance of supervised machine learning models. The missing data problem has emerged not only in the event extraction domain, but also in many machine learning studies. For this reason, various studies have been conducted on how to obtain more labeled data. These studies can be examined in four groups as self-training, active learning, transfer learning and weak supervision. In self-training, a model trained on the labeled dataset predicts the labels of the data in the unlabeled dataset, and this newly labeled predicted data is included in the labeled dataset. Active learning is achieved by finding the samples that will have the greatest impact in the dataset and annotating these examples by human. In this way, the effort put in here is significantly reduced. Transfer learning aims to use what has been learned in a similar task rather than learning from scratch. In weak supervision, on the other hand, it is provided to assign tags to unlabeled data by using imprecise, noisy sources. These resources can be rules, knowledge bases or outputs of other developed models. We report three main contribution with this thesis. 1) We provide a gold standart dataset that will allow developing text mining applications in Turkish finance and economics domain. For this corpus, we have scraped company specific financial news from different news sites between 2010 and 2022. We created an ontology to define the field concepts in event extraction and the relationships between them. This ontology started on the basis of the concepts of other academic publications in this domain, and was finalized by making additions and deletions in the list with the inferences made from the analyzed Turkish news texts. 600 of the collected company-specific news were selected and separated into sentences and tokens. Then these selected documents were given to the annotation tool for labeling, then event triggers and event arguments were annotated manually according to the ontology. 2) We report the baseline model results so that we can evaluate our own results and form a baseline for future event extraction studies. To achieve this, we separate the manually labeled dataset into a training and test set. Using the training data, we compared the results of the different models we trained on the test data and determined the most successful model as a baseline. 3) We have carried out studies to expand the training dataset so that supervised machine learning models can achieve higher performance and learn the task better. Our aim here is to obtain more labeled data by minimizing human effort. For this, we tried active learning and weak supervision methods. By using only the active learning method, we aimed to reach the baseline model performance with the least number of labeled data. We aimed to obtain labeled data without human effort by using weak supervision techniques. We have developed two functions for this, the first one shows whether there are events in sentences using a list of words that indicate the events. The other function returns last labeled list by integrating the prediction resulting from the model we trained with other existing noisy predictions. Finally, we tried to minimize human effort without reducing quality by including weak supervision functions in the active learning cycle. As a result of our experiments for the baseline model, we obtained the best score with the Bert model. These results are a macro-averaged F1 score of 85.89\% for event classification and 65.81\% for argument classification. In the case where only active learning is used, 30\% effort gain was observed for event classification, while only 0.06\% performance decrease was observed. For argument classification these rates were recorded as 25\% and 0.32\%. When active learning and weak supervision methods are used together, 54\% effort gain was achieved for event classification, and 0.7\% performance improvement was observed. For the argument, these rates were recorded as 60\% and 2.32\%. Finally, when using manually labeled data and data assigned labels by weak supervision, a performance improvement of 2.91\% for event classification and 13.76\% for argument classification was observed. When we look at the results of our experiments, we see that the methods we applied gave positive results, not only producing more data labels, but also increasing performance. When we compare the dataset that we labeled manually with the datasets created in other studies, although our corpus lags behind the others in terms of the number of sentences, it contains more events thanks to its wide scope. We see that the number of data in the last dataset we have obtained has increased to approximately 50 times the number of data we manually labeled in document, sentence, event and argument titles. We think that our work will accelerate the studies to be done in Turkish financial text mining domain and will be used to expand datasets for the tasks that need more labeled data.

Benzer Tezler

  1. Mehemmed Eli Ferzane bayatılar: Giriş-inceleme-metin-dizin

    Mehemmed Eli Ferzane bayatılar: Introduction-analyses-text-index

    MURAT ÇİL

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Türk Dili ve Edebiyatıİnönü Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    YRD. DOÇ. DR. MUHİTTİN ÇELİK

  2. Manisa ve bazı ilçelerin yeraltı ve içme sularında arsenik miktarının tayini

    Determination of arsenic in groundwater and drinking water of Manisa and some districts

    RECEP ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    KimyaCelal Bayar Üniversitesi

    Kimya Ana Bilim Dalı

    DOÇ. DR. KENAN DOST

  3. Kırsal turizmde gastronomik unsurların kullanılması Kapadokya'da bir çalışma

    Use of gastronomic elements in rural tourism Cappadocia: A case study

    NERİMAN DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    TurizmAtatürk Üniversitesi

    Turizm İşletmeciliği ve Otelcilik Ana Bilim Dalı

    DOÇ. DR. GÖKALP NURİ SELÇUK

  4. Mandalarda (Bubalus bubalis Linnaeus, 1758) hydatidosis

    Hydatidosis of water buffaloes

    HANDAN TÜRKMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    1985

    Parazitolojiİstanbul Üniversitesi

    Parazitoloji (Veterinerlik) Ana Bilim Dalı

  5. Metastatik mide kanserinde sarkopeni indeksi, kaşeksi indeksi ve diğer inflamatuar prognostik indekslerin değerlendirilmesi ve karşılaştırılması

    Evaluation and comparison of sarcopenia index, cachexia index and other inflammatory prognostic indices in metastatic gastric cancer

    BÜLENT DEMİRELLİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2017

    OnkolojiMarmara Üniversitesi

    İç Hastalıkları Ana Bilim Dalı

    PROF. DR. PERRAN FULDEN YUMUK