Event extraction from Turkish Trade Registry Gazette
Türkiye Ticaret Sicili Gazetesi'nden olay çıkarımı
- Tez No: 803859
- Danışmanlar: DOÇ. DR. GÜLŞEN ERYİĞİT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 119
Özet
Ticaret Sicili Gazetesi Türkiye Odalar ve Borsalar Birliği (TOBB) tarafından 1957 yılından beri yayımlanan resmi bir gazetedir. Türkiye Cumhuriyeti içerisinde hizmet veren ve şartları sağlayan şirketler bir ticaret sicil müdürlüğünde kayıt yaptırırlar. Daha sonra şirketler çeşitli olaylar geçirdikçe bunları müdürlüğe bildirmekle yükümlüdür. Müdürlüklere bildirilen olaylar bir süre sonra Ticaret Sicili Gazetesi'nde yayımlanır. Ticaret Sicili Gazetesi'nde belirlenmiş çeşitli tescil konuları bulunur. Bunlara adres değişikliği, yönetim temsil değişikliği, sermaye artırımı, sermaye azaltımı, konkordato mühleti verilmesi, birleşme, bölünme, çeşitli sebeplerden alacaklılara çağrı gibi konular örnek verilebilir. 1957'den 2022 yılına kadar Ticaret Sicili Gazetesi fiziksel olarak basılmıştır. Aynı zamanda gazetenin tüm sayıları dijitalleştirilmiştir. Eski sayıların taranmış halleri mevcutken, daha yeni sayılar bilgisayarda hazırlandığından, bilgisayarla oluşturulmuş görsel PDF halleri mevcuttur. Gazetenin dağıtımı abonelik yoluyla yapılmaktadır, ancak herkes üyelik oluşturarak belli bir şirketin ilanlarını aratabilir ve görüntüleyebilir. Aramalarda kullanıcıların şirketin bağlı olduğu sicil müdürlüğü bilgisinin yanında sicil numarası veya unvanının en az ilk beş harfini de vermesi beklenmektedir. Abonelik olmadan tam bir gazete sayısına erişmek mümkün değildir. Arama yoluyla erişildiğinde kullanıcılar arattıkları ilanın bulunduğu sayfaların görsel PDF halini indirebilir. Abonelik türüne bağlı olarak kullanıcılar tüm sayıyı görsel PDF veya aranabilir PDF olarak indirebilir. Ticaret Sicili Gazetesi şirketlerin durumunu anlamak için önemli bir kaynaktır. Örneğin, peş peşe çok şube açan bir şirket için bu durum ileride batacağının göstergesi olabilir. Belli bir yerde yeni şirketlerin açıldığını görmek, onlara hizmet verecek başka şirketlerin yeni müşteriler bulmak için rakiplerine karşı strateji geliştirmesinde yardımcı olabilir. Bir şirketin alacaklılarının şirketin konkordato ilan ettiğinden haberdar edilmesi işlemleri kolaylaştırabilir. Şirketin sermayesini artırması veya azaltması geleceği hakkında iyi veya kötü bir gösterge olabilir. Bu bilgilere erişim bankalar, kargo şirketleri ya da telekomünikasyon şirketleri gibi şirketler için önemlidir. Ancak günümüzde gazetenin formatı sebebiyle bu bilgiler yapısal bir halde tutulmamaktadır ve bu bilgilere erişim insan gücü gerektirmektedir. Her ne kadar abonelik olmadan bir şirketin ilanları aratılarak takip edilebilse veya abonelikle tam bir sayıya erişilebilse de, gazetenin bir sayısının sayfa sayısının binlere ulaştığı göz önünde bulundurulduğunda bu bilgilerin insanlar tarafından takip edilmesi ve işlenmesinin kolay olmadığı görülmektedir. Ticaret Sicili Gazetesi'ndeki bilgilere ulaşmak bilgisayarlar için de kolay degildir. Uzun yıllardır gazetenin çoğu sayısının büyük kısmı alışılagelmiş beş sütunlu gazete formatında hazırlanmıştır. 2022 yılında ise bu formattan vazgeçilerek iki sütunlu formata geçilmiştir. Ancak yine de daha az rastlansa da bu iki format dışında başka formatlara da rastlanmaktadır. Üç sütunlu ya da ilanların kutuların içinde yer aldığı formatlara, beş sütunlu formatla başlayıp, kutulu formatla devam eden sayfalara rastlanabilir. İki sütunlu formata 2022 yılından önce de rastlanabilir. Bu formatta bilgilerin paylaşılabileceği daha geniş bir alan olduğundan, bazı bilgiler tablo halinde verilebilir. Örneğin, şirketin kuruluşuna dair, nerede kurulduğu, unvanı, temsilcisinin kim olduğu gibi bilgiler ya da görev değişikliği sonucu yetkilerin nasıl değiştiği gibi bilgiler tablo halinde verilebileceği gibi düz metin içerisinde de ifade edilebilir. Her ne kadar optik karakter tanıma yöntemleri yazıları çıkarabilse de, bu karmaşık yapılar bu sistemleri zorlayabilir. Bu sebeple öncesinde sayfaları uygun yöntemlerle işlemek gerekmektedir. Ticaret Sicili Gazetesi'nde şirket bazında arama yapılıp ilanların olduğu sayfalara erişilebilse de, bu sayfalarda başka ilanlar da yer almaktadır. İlan içeriklerinin işlenebilmesi için bu ilanların ayrıştırılması gerekmektedir. İlanlar ayrıştırıldıktan sonra sınıflandırılabilir. Türü bilinen ilanlarda şirketlerin geçirdiği olaylar daha detaylı bir seviyede bulunabilir ve bu bilgi yapısal bir hale getirilebilir. İnsanların erişiminin zor ve yavaş olduğu bu bilgiyi yapısal bir halde tutmak daha önce bahsedilen faydaları daha da kıymetli hale getirmektedir. Yukarıda bahsedilenlerle paralel olarak, bu tezde Ticaret Sicili Gazetesi verisi olay çıkarımı veri kümesi oluşturacak şekilde işlenmiştir. Analiz aşamasında gazetenin çeşitli yıllardaki sayıları incelenmiştir. Çok eski sayılarda tarama sebebiyle gürültülü görseller olduğundan optik karakter tanıma performansı ve ilanların eskiliği göz önünde bulundurularak kapsamdan çıkarılmıştır. Aynı şekilde dijital olarak oluşturulan sayılardaki görüntü kalitesi ve ilan güncelliği düşünülerek Ocak 2014-Ağustos 2021 arasındaki ilanlar kapsama alınmıştır. Öncelikle ilanlar gözle incelenerek 161 şirket kapsama alınmış, etiketleme sırasında 99 şirket daha eklenmiştir. Kapsama alınan şirketlerin sicil müdürlüğü ve sicil numarası bilgileri TOBB'un portalından sorgulanarak unvanlarıyla birlikte tablo halinde kaydedilmiştir. Daha sonra bu bilgileri doldurup ilanları aratmak için test otomasyonu yöntemiyle tarayıcı üzerinde gerekli alanları otomatik olarak dolduracak bir program hazırlanmıştır. Bu programın yardımıyla şirketlerin belirlenen tarihler arasındaki ilanlarına dair bilgi tablosunu ve ilanlarının bulunduğu gazete sayfalarının görsel PDF formatındaki versiyonları indirilmiştir. Belirlenen yıllar arasında her yıl ortalama 344 ilan olacak şekilde toplam 2751 PDF dokümanı indirilmiştir. Bu görsel PDF dokümanlarının içinden sayfalar resim halinde çıkarılmıştır. Metni çıkarmadan önce gazete yapısından ve içeride bulunabilecek kutular ve tablolardan kaynaklanabilecek hataları önlemek için bir görüntü işleme aşaması tasarlanmıştır. Metni akışını ve düzenini bozmadan çıkarabilmek için çeşitli boyutlarda kutularda yer alan parçaların ayrıştırılarak işlenmesi gerekmektedir. Bu sebeple öncelikle görüntü işleme yöntemleri kullanılarak kutular tespit edilmiş ve filtrelenmiştir. Tespit edilen kutular ve metnin kalanı ayrı ayrı optik karakter tanıma sistemine verilerek metin çıkarılmıştır. Çıktı piksel koordinatlarını içerdiğinden ve ağaç yapısında olduğundan bu bilgiler kullanılarak kutuların içeriği metnin geri kalanıyla birleştirilmiştir. Sayfaların genel yapısı ve tablo içerikleri bu sayede korunmuştur. 489 dokümandan çıkarılan metinler yedi etiketleyici tarafından ilan sınırları ve olay çıkarımı için etiketlenmiştir. Etiketlenen ilan sınırları kullanılarak bir ilan ayrıştırma modeli geliştirilmiştir. İlan ayrıştırma modeline bir satır verildiğinde bir BERT modeli yardımıyla kelime gösterimlerini oluşturur ve BERT modellerinde bulunan CLS simgesinin temsilini bir lineer katmana aktararak verilen satırı başlangıç, bitiş veya ara satır olarak sınıflandırır. Bu model 0.94 F1 skoruyla eğitildikten sonra ilanların ayrıştırılması için kullanılmıştır. İlanlar indirilirken hedeflenen bir ilanın sayfası ve konusu indirildiği için, tüm ilanlar ayrıştırıldıktan sonra sicil numarası bilgisi kullanılarak tabloda yer alan ilan ayrıştırılan ilanın metniyle eşleştirilmiştir. Bu işlem 0.94 doğrulukla gerçekleştirilmiştir. Ayrıştırılan ilan metinleri konularıyla eşleştirildikten sonra konular tekilleştirilmiştir. Ticaret Sicili Gazetesi'nde tekrarlı konular bulunmaktadır. Örneğin, kuruluş olayı anonim şirketler, limited şirketler, iş ortaklığı işletmeleri ve gerçek kişi ticari işletmeleri için ayrı konular olarak geçmektedir. Bu sebeple bu tarz konular tekilleştirilmiştir. Toplanan veride en sık görünen 15 konu ve geriye kalan tüm konular 16 sınıfla temsil edilerek bir ilan sınıflandırma veri kümesi oluşturulmuştur. İlan türlerine bağlı olarak ilanlar değişik uzunluklarda olabilir ve bazı ilan türleri benzer dilde yazılmış olabilir. Günümüzde sıklıkla kullanılan dil modellerinin kapasitesi doküman işleyecek kadar geniş değildir. Örneğin, bu tezde kullanılan BERT modeli en fazla 512 sembolle çalışabilir. Dokümandaki cümle sayısı arttıkça işleme performansı ve süresi de etkilenmektedir. Bu sebeple bir ilan sınıflandırma modeli eğitilmiş ve ilanların ilk 5, 10 ve 25 cümleyle eğitildiğinde modelin performansı gözlemlenmiştir. Model öncelikle her bir cümleyi BERT dil modeliyle işleyerek gösterimleri oluşturur. Daha sonra tüm kelimeler üzerinde maksimum işlemi uygulayarak gösterimlerini tek bir vektöre indirger ve bu şekilde cümle gösterimini oluşturur. Daha sonra bu gösterimler birleştirilip lineer katman tarafından işlenerek cümleler arası bilgi geçişi sağlanır. Oluşan gösterimler üzerinde bir kez daha maksimum işlemi tekrarlanarak doküman gösterimi elde edilir ve bu gösterime lineer katman yardımıyla 16 sınıftan biri atanır. Sınıflandırma 0.83 F1 skoruyla gerçekleştirilmiştir. Cümle sayısının özellikle yeterince örnek olduğunda faydalı olduğu görülmesine rağmen, doküman işleme zamanını da lineer olarak artırdığı gözlemlenmiştir. Olay çıkarımı probleminde bir metinde serbest şekilde yazılmış bir olayın belirlenmiş bir formatta gösterilmesi hedeflenmektedir. Bu hedef doğrultusunda Ticaret Sicili Gazetesi'nde sık görülen ve şirketlerin durumu konusunda ayırt edici olan dört ana olay türü belirlenmiştir. Bunlar Konkordato, Alacaklılara Çağrı, Yönetim Degişikliği ve Sermaye Degişikliği olarak listelenebilir. Bu olayların bulunduğu ilanlar incelenmiş ve her biri için tetikler ve argümanlar belirlenmiştir. Literatürdeki diğer olay çıkarımı veri kümelerinden farklı olarak bu olaylar yardımcı varlıklar da içermektedir. Bu yardımcı varlıklar İnsan, Unvan, Para ve Yetki Türü olarak sıralanabilir. Yardımcı varlıkların her biri bir tetik ve farklı sayılarda argümanlar içerir. Etiketleyiciler tüm dokümanlarda bu olayları işaretlemişlerdir. Olay türüne bağlı olarak bir ilan birden fazla olay içerebilir. Tüm bu olaylar doküman seviyesinde işaretlendiğinden, tetikler ve argümanlar farklı cümlelerde yer alabilir. Türkçe için doküman seviyesindeki ilk olay çıkarımı veri kümesi bu veri kümesidir. Ticaret Sicili Gazetesi olay çıkarımı veri kümesi 1284 ilan üzerinde, 11818 tetik ve argüman etiketi ile tetiklerle argümanlar arasındaki ilişkileri gösteren 14311 rol etiketi içermektedir. Tetik kelimesi ve argüman çıkarımı için çeşitli değişkenlerle deneyler yapılmıştır. IOB etiketlerinin, şartlı rastgele alan katmanının ve tetik ve argümanların ayrı ayrı çıkarılmasının etkisi gözlemlenmiştir. En iyi sonuç IOB etiketlerini ve şartlı rastgele alan katmanını kullanmayan model ile elde edilmiştir. Model orijinal argümanlar üzerinde 73.9, tahmin edilen argümanlar üzerinde 54.2 mikro F1 skoruna ulaşmıştır. Olay çıkarımı için kural tabanlı bir model ile Doc2EDAG modeli kullanılmıştır. Kural tabanlı model daha basit olaylarda daha iyi performans elde ediyor olsa da Doc2EDAG'ın gerisinde kalmıştır. Doc2EDAG orijinal argümanlar ile 73.9, tahmin edilen argümanlar ile 54.2 mikro F1 skoru elde etmiştir. Modelin performansını iyileştirmek için dört yaklaşım önerilmiştir. Bunlardan koşullu rastgele alan katmanını kaldırmak ve öğrenme aktarımı, orijinal argümanlar üzerinde hesaplanan mikro F1 skorunu sırasıyla 74.9 ve 75.2'ye, tahmin edilen argümanlar üzerinde ise sırasıyla 60.5 ve 62.9'a çıkarmıştır. Önerilen diğer iki yöntem olan yol genişletme hafızasını kapatmak ve alan odaklı yol genişletme ise performansı kötüleştirmiştir.
Özet (Çeviri)
The Turkish Trade Registry Gazette is the official gazette published by The Union of Chambers and Commodity Exchanges of Türkiye. Companies announce crucial events like change in management, change in capital or bankruptcy in the gazette. In many industries, the gazette is used as an important source of information and intelligence. The gazette has a history of almost 70 years. The issues are also publicly available on the internet in image PDF format. This format is both hard to read for humans and hard to process for computers. On top of that, since the gazette has been published in newspaper layout, the text is usually in columns. In later issues of the gazette, some information can be given in tables. Although optical character recognition looks like a viable option for text extraction, it must be supported with image processing. To extract information from the Turkish Trade Registry Gazette, announcements of selected companies between January 2014 and August 2022 were collected. The collected data consists of PDF documents of gazette pages for the selected companies and related metadata. The metadata contains information about issue number, page number and what type of announcement the company has on the given page. Text was extracted using an image processing and optical character recognition pipeline. After the text was extracted, it was manually annotated. Since the text is extracted from the whole document, it contains multiple announcements. Thus, announcement boundaries were annotated. Based on the most important and frequent announcement types encountered in the Turkish Trade Registry Gazette, four event types were defined: Composition with Creditors, Notice to Creditors, Change in Management and Change in Working Capital. Events consist of triggers that signal the occurrence of the event, event arguments that specify general and event-specific entities involved in the events and event roles that define the relations between triggers and arguments. Using these definitions, triggers, arguments and roles were defined and annotated for each of these event types. Using announcement boundaries, an announcement splitting model was trained. After all collected announcements were split using this model, announcements listed in the metadata table were located in the pages and an announcement classification dataset with 16 announcement types was created. Using this dataset, an announcement classification model was trained. Since announcements are documents of varying lengths, the effect of context was observed. The announcement classification model achieves an F1 score of 0.83. For trigger and argument extraction, experiments were carried on in different settings. The effect of IOB tags, an added CRF layer and handling argument and trigger extraction separately were observed. The best performing model was determined to be the two-stage one that does not use IOB tags or a CRF layer, with a micro F1 score of 82.5. For event extraction, a rule-based model and Doc2EDAG [1] were explored. Although the rule-based model performs better on simpler event types, Doc2EDAG was found to be better with a micro F1 score of 73.9 on gold arguments and 54.2 on predicted arguments. Four approaches were proposed to improve the performance. Of these, removing the CRF layer and applying transfer learning yielded improved micro F1 scores of 74.9 and 75.2 over gold arguments and 60.5 and 62.9 over predicted arguments, respectively. The other two proposed methods, namely, turning off path expansion memory and field-aware path expansion yielded poorer results than the baseline.
Benzer Tezler
- Avrupa Birliği'nin uyum açısından Türkiye'nin şeker üretim ve ticaret politikaları
Turkey's sugar production and trade policies from the point of harmonization to the European Union
SELMA AYTÜRE
Doktora
Türkçe
2004
Uluslararası İlişkilerAnkara ÜniversitesiAvrupa Toplulukları Ana Bilim Dalı
PROF. DR. GÜLCAN ERAKTAN
- Demokrat Parti Döneminde iktidar-sivil toplum kuruluşları ilişkileri: 1950-1960
Relations with non-governmental organizations Period ruling Democratic Party: 1950-1960
ALİ ŞAĞAN
Doktora
Türkçe
2013
Siyasal BilimlerMarmara ÜniversitesiAtatürk İlkeleri ve İnkılap Tarihi Ana Bilim Dalı
PROF. DR. CEMİL ÖZTÜRK
- Bir işitsel olaya ait nöral temsilin dinamik (oluşum ve sönüm) karakteristikleri üzerinde uyarım parametrelerinin etkileri
Effects of stimulation parameters on the dynamic (formation and decay) characteristics of neural representation of an auditory event
ABDULLAH RUHİ SOYLU
- Kısa metinlerden sosyal duygu sınıflandırma için makine öğrenmesi tabanlı yöntemlerin geliştirilmesi
Development of machine learning based methods for social sentiment classification from brief texts
FATMA BAŞKAYA
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN
- Türkiye ile Körfez ülkeleri arasında dış ticaret ilişkisinin incelenmesi -Çekim modeli yaklaşımı-
An investigation on trade relations between Turkey and Gulf countries - Gravity model approach
OSMAN ERK
Yüksek Lisans
Türkçe
2015
EkonometriGalatasaray Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. MUSTAFA BURAK GÜRBÜZ