Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

Dependency parsing with deep learning methods in Turkish

PDF İndir

Tez No: 895368
Yazar: MÜCAHİT ALTINTAŞ
Danışmanlar: DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 142

Özet

İnsan-makine etkileşiminin artmasıyla birlikte, doğal dilin anlaşılması, yorumlanması ve üretilmesine yönelik geliştirilen araçlara olan gereksinim de artmışdır. Sözdizimsel analizin amacı, cümledeki unsurların yapısal veya biçimbilimsel ilişkilerini inceleyerek cümleyi oluşturan unsurlar arasındaki ilişkileri tespit etmektir. Bu tespit, cümlenin anlamsal analizi açısından büyük önem taşır. Bağlılık ayrıştırma bir sözdizimsel analiz yaklaşımıdır. Dilbilgisi kurallarını kullanarak gerçeklenebileceği gibi veriden örüntüler çıkarılararak da gerçeklenebilmektedir. Bilindiği üzere Türkçe Ural Altay dil ailesinden sondan eklemeli bir dildir. Bu dil ailesine mensup dillerde ekler kelime yığınları arasında bir çeşit harç görevi görerek, cümleyi meydana getirir. Anlam ilişkileri ekler aracılığıyla kurulduğu için söz dizimi olarak esnek bir yapıya sahiptirler. %Ekler sözcük kökünden uzaklaştıkça diğer kelimelerle anlam ilişki kurma yetileri artmaktadır. Esnek söz dizimine sahip dillerde bağlama bağlı kural sayısı çok fazla olabileceğinden veya belirsizlik içerebileceğinden, veriye dayalı yöntemler bağlılık ayrıştırması için daha verimli sonuçlar vermektedir. Veriye dayalı bağlılık ayrıştırma yöntemi olarak literatürde geçiş tabanlı ve çizge tabanlı olmak üzere iki temel yaklaşım bulunmaktadır. Geçiş tabanlı yaklaşımlar, ayrıştırma sürecini yönlendirmek için ayrıştırıcının mevcut durum yapılanmasına dayalı özelliklere göre adım adım olası eylemleri derecelendirerek bağlılık ağacını oluşturur. Öte yandan, çizge tabanlı yaklaşımlar, kelimeler arasındaki olası her bir bağlılığı puanlayarak en yüksek dereceli bağlılık ağacını arar. Çizge tabanlı teknikler problemi doğrudan ele alırken, geçiş tabanlı yöntemler dolaylı çözümler kullandığı için daha fazla adım gerektirebilir. Geçiş tabanlı ayrıştırma, her adımda mevcut yapılandırma durumlarını ve önceki geçişleri dikkate alır. Özellikle önceki eylemlere dayalı kapsamlı özellik temsillerinden faydalanabilir. Geçiş tabanlı ayrıştırıcılar aç gözlü karar verme yetilerinden dolayı, hızlı ve verimlidirler, ancak hata yayılımı nedeniyle doğruluktan ödün vermektedirler. Öte yandan, çizge tabanlı bağlılık ayrıştırma yaklaşımları, hata yayılımına maruz kalmadıkları için geçiş tabanlı yöntemlere kıyasla daha iyi bir performans sergileyebilir, ancak özellik alanları geçiş tabanlı yöntemlere kıyasla sınırlıdır. Son dönemde yapılan geçiş tabanlı ayrıştırma çalışmalarının odak noktası, öğrenme ve çıkarım performansını artırmakken, çizge tabanlı ayrıştırma çalışmaları özellik kapsamının nasıl genişletileceği üzerine yoğunlaşmıştır. Bu çalışmada, bağlılık ayrıştırmanın temelleri görseller ve matematiksel ifadeler kullanılarak anlatılmıştır. Türkçenin sözdizimsel özellikleri ve önceki çalışmalara ilişkin bilgiler ele alınmıştır. Önde gelen çalışmalar incelenmiş ve kritik detaylar not edilmiştir. Ayrıca, bağlılık ayrıştırması için kullanılan veri kümeleri tanıtılmış ve her bir özelliğin bağlılık ayrıştırması açısından taşıdığı önem incelenmiştir. Türkçe ve diğer önde gelen dillerde izdüşümsel olmayan bağlılık oranları çıkarılmıştır. Türkçe için izdüşümselliği bozan ilişki çiftleri tespit edilmiştir. Derlemlerden izdüşümsel olmayan bağlılık içeren cümle örnekleri verilmiştir. Önde gelen derin sinir ağı yöntemleri kullanılarak çeşitli bağlılık ayrıştırma modelleri geliştirilmiş ve başarımları değerlendirilmiştir. Karakter, hece, kelime parçacığı gibi kelime altı özelliklerin bağlılık ayrıştırma başarımına yaptıkları katkılar incelenmiştir. Türkçe için başarıma katkı sağladığı görülen kelime parçacığı tabanlı kelime temsilinin diğer çekimli dillerde ayrıştırma başarımına yaptığı katkı raporlanmıştır. Türkçenin yanı sıra Fince, Macarca, Endonezce, Japonca, Korece ve Uygurcada kelime parçacığı başarıma pozitif yönde etki ettiği gözlenmiştir. Şartlı rastgele ağlar ve bi-affine tabanlı sınıflandırıcılar kıyaslanmış, topluluk öğrenmesi kullanılarak farklı sınıflandırıcıların artı yönlerinden faydalanılmaya çalışılmıştır. Hata yayılımı ve dengesiz veri sorunlarına duyarsız, izdüşümsel olmayan bağlılıkları çözebilen bir bağlılık ayrıştırıcı tasarlanmıştır. Çizge tabanlı bağlılık ayrıştırıcıların özellik uzayı, insan beyninin cümleleri sentezlerken kullandığı bilgi kaynaklarından esinlenerek genişletilmiştir. Genel anlam bilgisini içeren cümle temsili ek bir özellik olarak kullanılmıştır. Ayrıca, yerel sözcük işbirliklerini yakalamak için evrişimli sinir ağı katmanları kullanılarak alt ağaç yapılarının temsil kapasitesi artırılmıştır. Elde edilen sonuçlar, önerilen geliştirmelerin bağlılık ayrıştırma performansını arttırdığını göstermektedir. Yakın zamanda yayılanan; Türkçe KeNet, Türkçe Penn, Türkçe GB ve Türkçe Tourism derlemleri ilk kez bu çalışmada bağlılık ayrıştırıcı geliştirmek için kullanılmıştır. İlgili derlemlerde elde edilen bağlılık ayrıştırma skorları raporlanmıştır. Çalışma kapsamında geliştirdiğimiz bağlılık ayrıştırıcı ile şimdiye dek Türkçe için raporlanan en iyi bağlılık ayrıştırma başarımları; %82.64 UAS ve %76.35 LAS elde edilmiştir. Ayrıca, İngilizce, Macarca, Korece, Fince ve Estonca gibi dillerde sırasıyla %91.34, %87.39, %89.58, %92.85 ve %88.38 etiketli bağlılık ayrıştırma başarımları (LAS değerleri) elde edilmiştir. Elde ettiğimiz başarımlar, bahse konu diller için literatürde raporlanan LAS değerlerini geride bırakmıştır.

Özet (Çeviri)

The demand for tools designed for understanding, interpreting, and producing natural language has expanded along with the rise in human-machine interaction. The purpose of syntactic analysis is to determine the relationships between the elements that make up the sentence by examining the structural or morphological relationships of the elements in the sentence. In terms of the semantic interpretation of the sentence, this determination is crucial. Dependency parsing is a syntactic analysis approach. It may be put into practice by either drawing patterns from the data or applying grammatical rules. As it is known, Turkish is an agglutinative language from the Ural-Altaic linguistic family. In languages belonging to this language family, morphological sub-units exhibit syntactical functionalities in the sentence. Since semantic relations are established through suffixes, they have a flexible structure in terms of syntax. Because the number of context-dependent rules in languages with flexible syntax might be very vast or ambiguous, data-driven approaches produce more efficient solutions for dependency parsing. As data-based dependency parsing methods, the literature provides two core approaches: transition-based and graph-based techniques. Transition-based approaches create dependency trees by ranking possible actions step by step, based on the current state configuration of the parsing process. On the other hand, graph-based approaches search for the highest-ranked dependency tree by scoring each possible dependency between tokens. Therefore, while graph-based techniques directly address the problem, transition-based methods may require more steps by employing indirect solutions. Transition-based parsing takes into account the current configuration states and previous transitions at each step and can leverage comprehensive feature representations, particularly based on previous actions. Due to the greedy nature of transition-based models, they are fast and efficient, but they may encounter some challenges in terms of performance due to error propagation. On the other hand, graph-based dependency parsing approaches may exhibit better performance compared to transition-based methods, as they are not subject to error propagation, but their feature spaces may be limited. Recently, the focus in transition-based parsing has been on how to enhance learning and inference performance while preserving richly-featured structures. On the other hand, a critical constraint of graph-based parsing is how to expand the scope of features. This study presents the fundamentals of dependency parsing using visuals and mathematical expressions. The syntactic features of Turkish are discussed. Information from previous research on dependency parsing is addressed. Prominent works are examined, and critical details are noted. The data used for dependency parsing is introduced, and the importance of provided features in terms of dependency parsing is explored. Exploiting the flexible word order characteristic in order to augment data synthetically has been investigated. Non-projective dependency rates have been extracted for Turkish and other leading languages. For Turkish, relation pairs that break projectionality have been identified and some example sentences from the corpora are shown. Various dependency parsing models are developed using state-of-the-art deep neural network methods, and their performances are evaluated. Conditional random fields and bi-affine-based classifiers are evaluated, and the benefits of diverse classifiers are attempted to be exploited through ensemble learning. A dependency parser has been developed that is not worried about imbalanced data or error propagation and can resolve non-projective dependencies. The contributions of sub-word features such as characters, syllables, and word particles (sentence piece-based) to the dependency parsing performance were examined. Representation methods are discussed in the context of dependency parsing for morphologically rich languages like Turkish. The two characteristics that contribute the most are POS tags and morpho-syntactic characteristics. Surprisingly, word representation based on word particles (sentence pieces) offers better parsing performance than those based on characters; perhaps these pieces in some way reflect morphemes. While characters-based token representation have little influence, surface form and lemma traits both make more valuable contributions. In addition to Turkish, word particle-based word representation has been shown to improve performance in other inflectional languages; Finnish, Hungarian, Indonesian, Japanese, Korean, and Uyghur. The feature space of graph-based dependency parsers is expanded, taking inspiration from the information sources used by the human brain during sentence synthesis. Sentence representation incorporating general semantic knowledge is used as an additional feature for each token. Furthermore, the capacity to construct subtree structures is increased by using convolutional neural network layers to capture local word collaborations. We call them super tokens since they contain dependency information spanning multiple tokens. The developed dependency parsers are evaluated in terms of sentence length, root distance, and dependency length. The results show that the proposed enhancements improve the performance of dependency parsing. The super token feature, which stores information about local partnerships, contributes more to the parser for all evaluated languages than sentence representation, which stores all sentence meanings. Language grammars tend to have short dependency lengths, which minimizes the memory capacity necessary to understand natural language. As a result, considering local collaboration while defining the syntactic role of a word in a sentence is vital, at least as sentence representation. Recently published treebanks; Turkish KeNet, Turkish Penn, Turkish GB, and Turkish Tourism are used for the first time to develop a dependency parser in this study. Dependency parsing scores obtained in the relevant corpora are reported. The study achieves the best-reported results for Turkish, with dependency parsing achievements of 82.64% UAS and 76.35% LAS. For all other UD Turkish treebanks, our parser outperforms reported parsing success in all of the Turkish treebanks. Additionally, dependency parsers developed for languages such as English, Hungarian, Korean, Finnish, and Estonian are tested, and they achieved dependency parsing performances of 91.34%, 87.39%, 89.58%, 92.85%, and 88.38% LAS, respectively. These achievements surpass the LAS values reported in the literature for the respective languages. As a consequence, since our top results are consistently higher than previously published scores, we have acquired new state-of-the-art dependency parsing results on the following treebanks; Turkish IMST, English EWT, Hungarian Szeged, and Korean GSD.

Benzer Tezler

Tez No
5650
Çeviri dersinde yapılaşma (uygulama sorunları-yöntem önerileri)
Strukturierung im übersetzungsunterricht (probleme der praxis-vorschlage zur methodik)
A. TURGAY KURULTAY
Doktora
Türkçe
1989
Eğitim ve Öğretim İstanbul Üniversitesi
Alman Dili ve Edebiyatı Bilim Dalı
PROF.DR. ŞARA SAYIN
Tez No
438748
Multilingual distributed word representation using deeplearning
Derin öğrenme ile çok dilli, dağıtılmış kelime temsilleri
GIHAD SOHSAH
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Şehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ONUR GÜZEY
Tez No
849120
Sosyal medyadaki Türkçe sahte haberlerin derin öğrenme yaklaşımıyla tespiti ve sınıflandırılması
Detection and classification of fake news in Turkish on social media using a deep learning approach
GÜLSÜM KAYABAŞI KORU
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Adli Bilişim Ana Bilim Dalı
PROF. DR. ÇELEBİ ULUYOL
Tez No
767841
Anomaly detection using machine learning techniques: A comparative study on first payment default prediction in retail loans
Yapay öğrenme yöntemleriyle anomali saptanması: Bireysel kredilerde ilk ödemede batma tahmini üzerine karşılaştırmalı bir çalışma
AHMET TALHA YİĞİT
Yüksek Lisans
İngilizce
2022
Bankacılık İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
Tez No
350917
Dizgeli eğitim ve düz anlatım yöntemleriyle işlenen öğretim uygulamalarının öğretmen adaylarının epistemolojik inanç, öğrenme yaklaşımları, üstbilişsel farkındalık ve akademik başarılarına etkisi
The effect of teaching practices performed by using systematic training and lecture methods on teacher candidates epistemological belief, learning approaches, metacognitive awareness and academic achievement
ŞULE FIRAT DURDUKOCA
Doktora
Türkçe
2013
Eğitim ve Öğretim İnönü Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. SEBAHATTİN ARIBAŞ

Geri Dön