Natural language processing (NLP) of languages that use Arabic alphabet
Arap alfabesi kullanılan dillerin doğal dil işlenmesi (NLP)
- Tez No: 721667
- Danışmanlar: PROF. DR. SEMA KAYHAN
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Gaziantep Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 113
Özet
Genel olarak ve küresel olarak, yaklaşık 7.000 doğal konuşulan dil mevcuttur. Teknik olarak gözlemlenen, bu dillerden yaklaşık 20 tanesi NLP anlamında iyi kaynaklara sahiptir. Neredeyse tüm Arapça alfabeli yazı dilleri düşük kaynaklı bir dil olarak kabul edilmesine rağmen, NLP'nin bazı yönlerinde yalnızca Arapça dilinin kendisi iyi kaynaklara sahiptir. Buna ek olarak, bazı Arapça alfabeli yazı dilleri metinsel olarak çok düşük kaynaklara sahiptir veya Eski Türkçe (Osmanlı yazısı) gibi terkedilmiş Arapça yazılar da vardır. Genel olarak konuşursak, tüm Arapça alfabeli yazı dilleri, bu boşluğu gelişmiş araçlarla kapatmak ve mevcut malzemeleri kullanmak için NLP kaynaklarına ihtiyaç duymaktadır. Çalışmamızın temel amacı, Arapça gibi iyi kaynaklara sahip bir dilden öğrenmeyi diğer Arapça alfabeli yazı dillerine aktarmaktır. Bu çalışmada, aktarmalı öğrenme örneğini başarıyla gerçekleştirip bunu Osmanlı Türkçesi ve Kürtçe, Arapça ve Parso-Arapça yazı dilleri gibi çok düşük kaynaklı dillere uyguladık. Bu aktarım öğrenimi, makine tabanlı bir harf çevirisi olup, Osmanlı'dan modern Latince Türk alfabesine otomatik harf çevirisi şeklindedir. Sistem genel olarak %73,3 doğruluk gerçekleştirmiştir. Kürtçe NLP ile ilgili olarak, yine harf çevirisi sistemi uygulanmıştır. Ayrıca araştırmacıların bu alanda karşılaştıkları engeller ve zorluklara da odaklandık. Arapça metinli dillerinin NLP ile ilgili sonuçları şu şekildedir: ilk olarak, Arap alfabesiyle yazılmış düşük kaynaklı dilleri işlemek zor olmasına rağmen, benzer dil deneyimlerinin transfer öğrenimini kullanılarak bu gerçekleştirilebilir, İkincisi: NLP ile başlamak için dil hakkında minimum kaynak ve bilgi olması gerekir.
Özet (Çeviri)
In general and globally, about 7,000 natural spoken languages are available. Technically observed, about 20 languages of these resourced well in NLP term. Almost all the Arabic scripted languages are considered a low-resourced language, only the Arabic language itself in some aspects of NLP are well resourced. In addition, some Arabic-scripted languages are very low-resourced in text or abounded Arabic scripts such as Old Turkish language (Ottoman script). Widely speaking, all Arabic-scripted languages require NLP resources to bridge the gap with advanced tools and use available materials. Our study's main aim is to transfer learning from well-resourced languages, for instance, Arabic language to other Arabic-scripted languages. We successfully implemented a sample of transfer learning and applied them to a very low-resourced language, such as Ottoman Turkish and Kurdish language, Arabic and Parso-Arabic scripted languages. This transfer learning is a machine-based transliterate, the automatic transliteration from Ottoman to the modern Latin Turkish script. The system achieved 73.3% accuracy in general. Related to the Kurdish NLP, the transliteration system was implemented too. Moreover, we focused on the hurdles and barriers that researchers experience in this field. The conclusions related to Arabic-scripted languages NLP are: first, it is hard to process Arabic scripted low-resourced languages, but using transfer learning of the similar languages experience may make it possible. Second: there should be minimum resources and knowledge about the language to start with its NLP.
Benzer Tezler
- Multi-label and single-label text classification using standard machine learning algorithms and pre-trained BERT transformer
Standart makine öğrenimi algoritmaları ve önceden eğitilmiş BERT transformer kullanarak çok etiketli ve tek etiketli metin sınıflandırma
HUDA ALFIGI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDULKADİR GÜRER
- Improving self-attention based transformer performance for morphologically rich languages
Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi
YİĞİT BEKİR KAYA
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Paraphrase identification using knowledge-lean techniques
Başlık çevirisi yok
ASLI EYECİOĞLU ÖZMUTLU
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of SussexDr. BILL KELLER
- İş ilanlarında doğal dil işleme ile duygu analizi
Sentiment analysis with natural language processing in job postings
ŞEYMA SARIGİL
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT KÖKLÜ
- Türkçe sözcük anlam belirsizliği giderme
Word sense disambiguation for Turkish
BAHAR İLGEN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ