Geri Dön

Dile özgü öznitelikleri kullanan bir varlık ismi tanıma sistemi geliştirilmesi

Development of named entity recognition system exploiting language specific features

  1. Tez No: 830270
  2. Yazar: ERGİN ALTINTAŞ
  3. Danışmanlar: PROF. DR. OĞUZ DİKENELLİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 112

Özet

Her bir doğal dil, pek çok farklı kurala ve bu kuralların bir araya gelmesi ile oluşan karakteristik yapılara sahiptir. Ancak son dönemlerde doğal dil işleme alanında büyük başarılar elde eden BERT gibi modeller, metin kodlama (tokenizasyon) işlemi dilden bağımsız olarak yapmaktadır. Dolayısıyla modelin başarılı olabilmesi için dilin karakteristik özelliklerine ait örüntülerin de modelin kendisi tarafından temsil edilmek üzere öğrenilmesi gerekmektedir. Dilin kendine özgü özniteliklerini dikkate alan bir modelle Türkçe için daha yüksek bir başarım elde edilebileceği varsayımından yola çıktığımız bu çalışmada BERT modelinde kullanılan WordPiece isimli tokenizer bileşeni yerine Türkçe'nin temel ses dönüşüm özelliklerini dikkate alan yeni bir tokenizer geliştirilmiş ve bu tokenizer kullanılarak tamamen sıfırdan yeni dil modelleri eğitilmiştir. Yeni modelin başırmı orjinal modelin başarımı ile karşılaştırıldığında varlık ismi tanıma problemi özelinde, uygulanan yeni modelin eğitim hızını önemli ölçüde iyileştirdiği ve başarımda da hissedilir derecede gelişme sağlandığı gözlemlenmiştir. Sonuç olarak, bu çalışmada Türkçe için özgün bir model geliştirilmiş ve üç alanda katkı sağlanmıştır: Türkçe'ye uygun bir tokenizasyon algoritması oluşturulmuş, bu algoritmayı kullanarak yeni bir dil modeli eğitilmiş ve elde edilen modeller Türkçe varlık ismi tanıma probleminde uygulanmıştır.

Özet (Çeviri)

Each natural language has various rules and characteristic structures formed by the combination of these rules. However, recent models in natural language processing, such as BERT, perform text encoding (tokenization) independently of the language. Therefore, to achieve successful performance, the patterns of the language's characteristic features also need to be learned and represented by the model itself. Based on the assumption that a model considering the unique attributes of the language could achieve higher performance for Turkish, in this study, we developed a new tokenizer that takes into account the fundamental sound transformation features of Turkish, instead of the WordPiece tokenizer used in BERT models. Using this new tokenizer, we trained entirely new language models from scratch. Comparing the performance of the new model with the original model specifically in the named entity recognition task, we observed significant improvement in training speed and noticeable enhancement in performance. In conclusion, we developed an original model for Turkish in this study and made contributions in three areas: we created a tokenizer tailored for Turkish, trained new language models using this algorithm, and applied them to the named entity recognition problem in Turkish.

Benzer Tezler

  1. Semi-supervised learning based named entity recognition for morphologically rich languages

    Morfolojik açıdan zengin dillerde yarı güdümlü öğrenme tekniğiyle varlık ismi tanıma

    HAKAN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  2. Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings

    Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma

    EDA OKUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  3. Türkçe için sahte haber tespit modelinin oluşturulması

    A fake news detection model for Turkish language

    UĞUR MERTOĞLU

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURKAY GENÇ

    PROF. DR. HAYRİ SEVER

  4. İlkokul çağı çocuklarının konuşma akıcısızlıklarının türleri ve sıklıklarının incelenmesi

    Examining speech disfluency types and frequencies of primary school children

    AYŞENUR KABASAKAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    DilbilimÜsküdar Üniversitesi

    Dil ve Konuşma Terapisi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET EMRAH CANGİ

  5. Analyse des textes utilises dans les methodes actuelles de l'enseignement du Français langue etrangere

    Fransız dili eğitimi ile ilgili günümüzde kullanılan metodlarda yeralan metinlerin çözümlenmesi

    ERDOĞAN KARTAL

    Yüksek Lisans

    Fransızca

    Fransızca

    1999

    DilbilimHacettepe Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. NERİMAN ERATALAY