Deep learning-based preprocessing tools for Turkish natural language processing
Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları
- Tez No: 910997
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 102
Özet
Türkçede etkili doğal dil işleme (NLP) uygulamalarına olan talep artmaya devam ettikçe Türkçeye özel metin ön işleme araçlarına olan ihtiyaç da artıyor. Geliştirilen metin ön işleme araçları, ham verilerden bilgi çıkarılmasında önemli bir rol oynamaktadır. Herhangi bir doğal dil uygulamasının ilk adımı olan bu araçlar, metin özetleme, soru cevaplama ve makine çevirisi gibi karmaşık görevlerin verimliliğini artırır. Bu tezde Türkçe için özel olarak tasarlanmış derin öğrenme tabanlı ön işleme araçlarının geliştirilmesi ve değerlendirilmesi anlatılmaktadır. Geliştirilen derin öğrenmeye dayalı araçlar, Türkçe için mevcut kural tabanlı yaklaşımların sorunlarını ele almaktadır. Bu tezde, Uzun Kısa Süreli Bellek (LSTM) ağları ve transformers ile ön işleme araçları geliştirilmiştir. Bu mimarilerin en büyük avantajı doğal dilin sıralı akışına etkili bir şekilde uyum sağlayabilmeleridir. Bu tezde, bir ¨on işlemenin olası bileşenleri olarak tokenizasyon, cümle bölme, Türkçe karakterleştirme, sesli harf restorasyonu, part-of-speech(POS) etiketleme, yazım düzeltme ve morfolojik analiz-belirsizliği giderme gibi Türkçe ön işleme görevlerinde LSTM'lerin ve transformers mimarilerinin performansı detaylıca incelenmiştir.
Özet (Çeviri)
As the demand for effective natural language processing (NLP) applications in Turkish continues to rise, the need of text preprocessing tools tailored to Turkish increases. The text preprocessing tools developed play a significant role in extracting information from raw data. As an initial step for any natural language application, these tools enhance the efficiency of complex tasks such as text summarization, questionanswering and machine translation. This thesis describes the development and evaluation of deep-learning based preprocessing tools specifically designed for Turkish. The developed deep-learning based tools tackle the issues of existing rule-based approaches for Turkish. In this thesis, preprocessing tools are developed with Long Short-Term Memory (LSTM) networks and transformers. The main advantage of these architectures is that they are able to adapt to the sequential flow of the natural language effectively. In this thesis, we investigate the performance of LSTMs and transformers architectures on Turkish preprocessing tasks including tokenization, sentence splitting, deasciification, vowelization, part-of-speech (POS) tagging, spelling correction and morphologic analysis-disambiguation as possible components of a preprocessing pipeline.
Benzer Tezler
- Türkçe hedef tabanlı duygu analizi için alt görevlerin incelenmesi–hedef terim, hedef kategori ve duygu sınıfı belirleme
Inspecting sub tasks of aspect based sentiment analysis in Turkish language–opinion target expression, aspect category and sentiment polarity detection
FATİH SAMET ÇETİN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞEN ERYİĞİT
- Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Sentiment analysis based on natural language processing and deep learning in a software engineering perspective
Yazılım mühendisliği perspektifinde doğal dil işleme ve derin öğrenmeye dayalı duygu analizi
AZHAR AHMED BILAL BILAL
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN AYHAN ERDEM
- Sentiment classification of arabic tweets using a novel learning sentiment-specific word embedding technique
Yeni bir duygu-odaklı kelime gömme tekniği kullanarak arapça tvitlerin duygu sınıflandırması
HALA MULKI
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL BABAOĞLU
- Dizel makinanın makina öğrenmesi yöntemi kullanılarak modellenmesi ve karar-destek mekanizması oluşturulması
Machine learning method based marine diesel engine modelling and decision-support system setting
TOLGA ŞAHİN
Doktora
Türkçe
2022
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. CEVAT ERDEM İMRAK