Geri Dön

Natural language processing (NLP) of languages that use Arabic alphabet

Arap alfabesi kullanılan dillerin doğal dil işlenmesi (NLP)

  1. Tez No: 721667
  2. Yazar: ASHTI JAF
  3. Danışmanlar: PROF. DR. SEMA KAYHAN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Gaziantep Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 113

Özet

Genel olarak ve küresel olarak, yaklaşık 7.000 doğal konuşulan dil mevcuttur. Teknik olarak gözlemlenen, bu dillerden yaklaşık 20 tanesi NLP anlamında iyi kaynaklara sahiptir. Neredeyse tüm Arapça alfabeli yazı dilleri düşük kaynaklı bir dil olarak kabul edilmesine rağmen, NLP'nin bazı yönlerinde yalnızca Arapça dilinin kendisi iyi kaynaklara sahiptir. Buna ek olarak, bazı Arapça alfabeli yazı dilleri metinsel olarak çok düşük kaynaklara sahiptir veya Eski Türkçe (Osmanlı yazısı) gibi terkedilmiş Arapça yazılar da vardır. Genel olarak konuşursak, tüm Arapça alfabeli yazı dilleri, bu boşluğu gelişmiş araçlarla kapatmak ve mevcut malzemeleri kullanmak için NLP kaynaklarına ihtiyaç duymaktadır. Çalışmamızın temel amacı, Arapça gibi iyi kaynaklara sahip bir dilden öğrenmeyi diğer Arapça alfabeli yazı dillerine aktarmaktır. Bu çalışmada, aktarmalı öğrenme örneğini başarıyla gerçekleştirip bunu Osmanlı Türkçesi ve Kürtçe, Arapça ve Parso-Arapça yazı dilleri gibi çok düşük kaynaklı dillere uyguladık. Bu aktarım öğrenimi, makine tabanlı bir harf çevirisi olup, Osmanlı'dan modern Latince Türk alfabesine otomatik harf çevirisi şeklindedir. Sistem genel olarak %73,3 doğruluk gerçekleştirmiştir. Kürtçe NLP ile ilgili olarak, yine harf çevirisi sistemi uygulanmıştır. Ayrıca araştırmacıların bu alanda karşılaştıkları engeller ve zorluklara da odaklandık. Arapça metinli dillerinin NLP ile ilgili sonuçları şu şekildedir: ilk olarak, Arap alfabesiyle yazılmış düşük kaynaklı dilleri işlemek zor olmasına rağmen, benzer dil deneyimlerinin transfer öğrenimini kullanılarak bu gerçekleştirilebilir, İkincisi: NLP ile başlamak için dil hakkında minimum kaynak ve bilgi olması gerekir.

Özet (Çeviri)

In general and globally, about 7,000 natural spoken languages are available. Technically observed, about 20 languages of these resourced well in NLP term. Almost all the Arabic scripted languages are considered a low-resourced language, only the Arabic language itself in some aspects of NLP are well resourced. In addition, some Arabic-scripted languages are very low-resourced in text or abounded Arabic scripts such as Old Turkish language (Ottoman script). Widely speaking, all Arabic-scripted languages require NLP resources to bridge the gap with advanced tools and use available materials. Our study's main aim is to transfer learning from well-resourced languages, for instance, Arabic language to other Arabic-scripted languages. We successfully implemented a sample of transfer learning and applied them to a very low-resourced language, such as Ottoman Turkish and Kurdish language, Arabic and Parso-Arabic scripted languages. This transfer learning is a machine-based transliterate, the automatic transliteration from Ottoman to the modern Latin Turkish script. The system achieved 73.3% accuracy in general. Related to the Kurdish NLP, the transliteration system was implemented too. Moreover, we focused on the hurdles and barriers that researchers experience in this field. The conclusions related to Arabic-scripted languages NLP are: first, it is hard to process Arabic scripted low-resourced languages, but using transfer learning of the similar languages experience may make it possible. Second: there should be minimum resources and knowledge about the language to start with its NLP.

Benzer Tezler

  1. Multi-label and single-label text classification using standard machine learning algorithms and pre-trained BERT transformer

    Standart makine öğrenimi algoritmaları ve önceden eğitilmiş BERT transformer kullanarak çok etiketli ve tek etiketli metin sınıflandırma

    HUDA ALFIGI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ABDULKADİR GÜRER

  2. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. İş ilanlarında doğal dil işleme ile duygu analizi

    Sentiment analysis with natural language processing in job postings

    ŞEYMA SARIGİL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT KÖKLÜ

  4. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ