Geri Dön

Deep learning-based preprocessing tools for Turkish natural language processing

Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları

  1. Tez No: 910997
  2. Yazar: BUSE AK
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

Türkçede etkili doğal dil işleme (NLP) uygulamalarına olan talep artmaya devam ettikçe Türkçeye özel metin ön işleme araçlarına olan ihtiyaç da artıyor. Geliştirilen metin ön işleme araçları, ham verilerden bilgi çıkarılmasında önemli bir rol oynamaktadır. Herhangi bir doğal dil uygulamasının ilk adımı olan bu araçlar, metin özetleme, soru cevaplama ve makine çevirisi gibi karmaşık görevlerin verimliliğini artırır. Bu tezde Türkçe için özel olarak tasarlanmış derin öğrenme tabanlı ön işleme araçlarının geliştirilmesi ve değerlendirilmesi anlatılmaktadır. Geliştirilen derin öğrenmeye dayalı araçlar, Türkçe için mevcut kural tabanlı yaklaşımların sorunlarını ele almaktadır. Bu tezde, Uzun Kısa Süreli Bellek (LSTM) ağları ve transformers ile ön işleme araçları geliştirilmiştir. Bu mimarilerin en büyük avantajı doğal dilin sıralı akışına etkili bir şekilde uyum sağlayabilmeleridir. Bu tezde, bir ¨on işlemenin olası bileşenleri olarak tokenizasyon, cümle bölme, Türkçe karakterleştirme, sesli harf restorasyonu, part-of-speech(POS) etiketleme, yazım düzeltme ve morfolojik analiz-belirsizliği giderme gibi Türkçe ön işleme görevlerinde LSTM'lerin ve transformers mimarilerinin performansı detaylıca incelenmiştir.

Özet (Çeviri)

As the demand for effective natural language processing (NLP) applications in Turkish continues to rise, the need of text preprocessing tools tailored to Turkish increases. The text preprocessing tools developed play a significant role in extracting information from raw data. As an initial step for any natural language application, these tools enhance the efficiency of complex tasks such as text summarization, questionanswering and machine translation. This thesis describes the development and evaluation of deep-learning based preprocessing tools specifically designed for Turkish. The developed deep-learning based tools tackle the issues of existing rule-based approaches for Turkish. In this thesis, preprocessing tools are developed with Long Short-Term Memory (LSTM) networks and transformers. The main advantage of these architectures is that they are able to adapt to the sequential flow of the natural language effectively. In this thesis, we investigate the performance of LSTMs and transformers architectures on Turkish preprocessing tasks including tokenization, sentence splitting, deasciification, vowelization, part-of-speech (POS) tagging, spelling correction and morphologic analysis-disambiguation as possible components of a preprocessing pipeline.

Benzer Tezler

  1. Türkçe hedef tabanlı duygu analizi için alt görevlerin incelenmesi–hedef terim, hedef kategori ve duygu sınıfı belirleme

    Inspecting sub tasks of aspect based sentiment analysis in Turkish language–opinion target expression, aspect category and sentiment polarity detection

    FATİH SAMET ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLŞEN ERYİĞİT

  2. Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi

    Başlık çevirisi yok

    AYŞENUR GENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Sentiment analysis based on natural language processing and deep learning in a software engineering perspective

    Yazılım mühendisliği perspektifinde doğal dil işleme ve derin öğrenmeye dayalı duygu analizi

    AZHAR AHMED BILAL BILAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN AYHAN ERDEM

  4. Sentiment classification of arabic tweets using a novel learning sentiment-specific word embedding technique

    Yeni bir duygu-odaklı kelime gömme tekniği kullanarak arapça tvitlerin duygu sınıflandırması

    HALA MULKI

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSMAİL BABAOĞLU

  5. Dizel makinanın makina öğrenmesi yöntemi kullanılarak modellenmesi ve karar-destek mekanizması oluşturulması

    Machine learning method based marine diesel engine modelling and decision-support system setting

    TOLGA ŞAHİN

    Doktora

    Türkçe

    Türkçe

    2022

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. CEVAT ERDEM İMRAK