Geri Dön

Deep learning-based dependency parsing for Turkish

Derin öğrenme tabanlı Türkçe bağlılık ayrıştırması

  1. Tez No: 761153
  2. Yazar: ŞAZİYE BETÜL ÖZATEŞ
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 184

Özet

Bağlılık ayrıştırma, otomatik soru cevaplama ve makine çevirisi gibi birçok doğal dil işleme (DDİ) sistemi için önemli bir adımdır. Zengin morfolojisi ve karmaşık gramer yapısıyla Türkçe dili otomatik işlenmesi oldukça zor bir dildir. Türkçe DDİ araçlarının ve kaynaklarının kısıtlı olması bu işi daha da zorlaştırmaktadır. Veri güdümlü derin öğrenme modelleri, bağlılık ayrıştırma alanında etkili performans göstermektedir. Veri güdümlü bir bağlılık ayrıştırıcıyı eğitmek için gereken verinin miktarı ayrıştırıcının performansını doğrudan etkilemektedir. Ayrıca, derin öğrenme tabanlı sistemlerin yüksek başarı göstermesi için büyük miktarlarda veriye ihtiyaç duyduğu gözlemlenmiştir. Bu tezde, Türkçe bağlılık ayrıştırmadaki zorlukların üstesinden gelmek için iki tip çözüm önerdik. İlk olarak, Türkçe metinleri ayrıştırmak için gereken veri miktarını ve kalitesini artırdık. Bu bağlamda, 9.761 yeni cümleyi manuel olarak etiketleyerek BOUN ağaç yapılı derlemini oluşturduk. Aynı etiketleme şemasıyla IMST ve PUD ağaç yapılı derlemlerini de yeniden etiketledik. Bu sayede Türkçe için dil bilgisi kurallarına göre tutarlı en büyük ağaç yapılı derlem koleksiyonunu kullanıma sunduk. İkinci olarak, Türkçe ve diğer az kaynaklı diller için özgün ve son teknoloji bağlılık ayrıştırıcılar geliştirdik. Önce, Türkçe dil bilgisi kurallarının ve kelimelerin morfolojik özelliklerinin derin öğrenme modeline entegre edildiği bir hibrit bağlılık ayrıştırma mimarisi önerdik. Sınırlı eğitim verisine rağmen, hibrit ayrıştırıcıyla Türkçe bağlılık ayrıştırmada mevcut yöntemlerden daha yüksek başarı elde ettik. Ayrıca, yarı denetimli geliştirmeye dayalı bir derin öğrenme tabanlı bağlılık ayrıştırıcı önerdik. Türkçe'nin yanı sıra kaynak yetersizliği olan başka dillerde de deneyler yaparak son teknoloji sonuçlar elde ettik. Derin öğrenme tabanlı modellerin yalnızca fazla miktarda eğitim verisiyle değil, aynı zamanda akıllıca çıkarılan bilgilerin entegrasyonuyla da geliştirilebileceğini gösterdik.

Özet (Çeviri)

Dependency parsing is an important step for many natural language processing (NLP) systems such as question answering and machine translation. Turkish, being a morphologically rich language and having a complex grammar, is challenging for automatic processing. Limited NLP tools and resources for Turkish make the task even more challenging. Data-driven deep learning models show promising performance in dependency parsing. Yet, the amount of data to train a data-driven dependency parser directly affects performance, and deep learning-based systems require extensive data to achieve good performance. In this thesis, we focused on Turkish dependency parsing and proposed two solutions to the challenges this task poses. First, we increased the size and quality of labeled data for Turkish dependency parsing. In this respect, we created the BOUN Treebank by annotating 9,761 sentences. In addition, we re-annotated the IMST and PUD treebanks using the same annotation scheme. As a result, we presented the largest collection of Turkish treebanks with consistent annotation. Second, we developed novel state-of-the-art dependency parsing models for Turkish as well as other low-resource languages. As our first parsing approach, we introduced a hybrid dependency parser where Turkish grammar rules and morphological features of words are integrated into the deep learning model. Despite the limited training data, the hybrid parser achieved higher success than the current methods for Turkish dependency parsing. As our second parsing approach, we proposed a deep dependency parser with semi-supervised enhancement. By conducting experiments on a number of low-resource languages besides Turkish, we achieved state-of-the-art results on all datasets. We have shown that deep learning-based models can be improved not only by additional training data, but also by integrating intelligently extracted information.

Benzer Tezler

  1. Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

    Dependency parsing with deep learning methods in Turkish

    MÜCAHİT ALTINTAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Effect of contextual embeddings on graph-based dependency parsing

    Başlık çevirisi yok

    BERKAY FURKAN ÖNDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ YURET

  3. Türkçe tümcelerin yüklem odaklı anlam ve dilbilgisi çözümlemesi

    Grammatical and semantic analysis of turkish sentence based on predicate

    İLKNUR DÖNMEZ

    Doktora

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  4. Efficient human parsing and inpainting using advanced deep learning techniques

    Gelı̇şmı̇ş derı̇n öğrenme teknı̇klerı̇nı̇ kullanarak etkı̇n ı̇nsan ayrıştırma ve inpainting

    MD IMRAN HOSEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TARKAN AYDIN

  5. Named entity recognition in turkish using deep learning methods and joint learning

    Türkçe varlık isimlerinin tanınması için derin öğrenme ve birlikte öğrenme

    ARDA AKDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR