Geri Dön

Neural text normalization for Turkish social media

Türkçe sosya medya metinleri için nöral metin normalizasyonu

  1. Tez No: 522793
  2. Yazar: SİNAN GÖKER
  3. Danışmanlar: YRD. DOÇ. DR. BURCU CAN BUĞLALILAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 78

Özet

Sosyal medya, dünya çapında yaygın kullanımı ile doğal dil işleme çalışmaları için zengin bir veri kaynağı haline gelmiştir; Bununla birlikte, kuralsız metinlerde oluşan doğası nedeniyle dil çalışmalarında sosyal medya verilerini doğrudan kullanabilmek oldukça zordur. Hatalı yazılmış bir metni doğru yazılmış haline dönüştürme işlemine metin normalleştirme denir. Metin normalleştirme çoğunlukla diğer doğal dil işleme çalışmalarında ön hazırlık işlemi olarak görev alır ve metinlerin doğru yazılmış halleri üzerinden yapılan çalışmalarda başarı oranı daha yüksek olur. Bu çalışma kapsamında Türkçe metin normalleştirme görevi için iki farklı yaklaşım uygulanmaktadır: Kodlayıcı-kod çözücü (encoder-decoder) yapay sinir ağları modeli kullanılarak diziden diziye (sequence-to-sequence) normalleştirme yaklaşımını ve sözcüklerin dağıtık temsilleri (distributed representation of words) kullanılarak bağlamsal normalleştirme yaklaşımı ile metin normalleştirme görevi gerçekleştirilmiştir. Türkçeye ve diğer dillere uygulanan mevcut yaklaşımlar çoğunlukla alana yönelik, kural tabanlı ya da kademeli normalleştirme kurallarının izlendiği çalışmalar olduğundan, sosyal medyada dil kullanım alışkanlığının değişmesi bu çalışmaların verimini ve başarı oranını düşürmektedir. Bu nedenle önerilen yöntemler sosyal medyada dil kullanımındaki değişikliklerden etkilenmeyen daha kapsamlı bir çözüm sunmaktadır.

Özet (Çeviri)

Social media has become a rich data source for natural language processing tasks with its worldwide use; however, it is hard to process social media data directly in language studies due to its unformatted nature. Text normalization is the task of transforming the noisy text into its canonical form. It generally serves as a preprocessing task in other NLP tasks that are applied to noisy text and the success rate gets higher when studies are performed on canonical text. In this study, two neural approaches are applied for Turkish text normalization task: Contextual Normalization approach using distributed representations of words and Sequence-to- Sequence Normalization approach using encoder-decoder neural networks. As the conventional approaches applied to Turkish and also other languages are mostly domain specific, rule-based or cascaded, they are already becoming less efficient and less successful due to the change of the language use in social media. Therefore the proposed methods provide more comprehensive solution that are not sensitive to the language change in social media.

Benzer Tezler

  1. Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings

    Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma

    EDA OKUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  2. Trafik yorumlarının sınıflandırılmasında normalizasyonun etkisi

    The effect of normalization on the classification of traffic comments

    ZEYNEP ÖZER

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OĞUZ FINDIK

  3. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Low level image processing tools for optical character recognition of Turkish newspapers

    Türkçe gazetelerde optik damga tanıma için düşük düzeyli imge işleme araçları

    UFUK BARIŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET BÜLENT SANKUR

  5. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ