Dile özgü öznitelikleri kullanan bir varlık ismi tanıma sistemi geliştirilmesi
Development of named entity recognition system exploiting language specific features
- Tez No: 830270
- Danışmanlar: PROF. DR. OĞUZ DİKENELLİ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 112
Özet
Her bir doğal dil, pek çok farklı kurala ve bu kuralların bir araya gelmesi ile oluşan karakteristik yapılara sahiptir. Ancak son dönemlerde doğal dil işleme alanında büyük başarılar elde eden BERT gibi modeller, metin kodlama (tokenizasyon) işlemi dilden bağımsız olarak yapmaktadır. Dolayısıyla modelin başarılı olabilmesi için dilin karakteristik özelliklerine ait örüntülerin de modelin kendisi tarafından temsil edilmek üzere öğrenilmesi gerekmektedir. Dilin kendine özgü özniteliklerini dikkate alan bir modelle Türkçe için daha yüksek bir başarım elde edilebileceği varsayımından yola çıktığımız bu çalışmada BERT modelinde kullanılan WordPiece isimli tokenizer bileşeni yerine Türkçe'nin temel ses dönüşüm özelliklerini dikkate alan yeni bir tokenizer geliştirilmiş ve bu tokenizer kullanılarak tamamen sıfırdan yeni dil modelleri eğitilmiştir. Yeni modelin başırmı orjinal modelin başarımı ile karşılaştırıldığında varlık ismi tanıma problemi özelinde, uygulanan yeni modelin eğitim hızını önemli ölçüde iyileştirdiği ve başarımda da hissedilir derecede gelişme sağlandığı gözlemlenmiştir. Sonuç olarak, bu çalışmada Türkçe için özgün bir model geliştirilmiş ve üç alanda katkı sağlanmıştır: Türkçe'ye uygun bir tokenizasyon algoritması oluşturulmuş, bu algoritmayı kullanarak yeni bir dil modeli eğitilmiş ve elde edilen modeller Türkçe varlık ismi tanıma probleminde uygulanmıştır.
Özet (Çeviri)
Each natural language has various rules and characteristic structures formed by the combination of these rules. However, recent models in natural language processing, such as BERT, perform text encoding (tokenization) independently of the language. Therefore, to achieve successful performance, the patterns of the language's characteristic features also need to be learned and represented by the model itself. Based on the assumption that a model considering the unique attributes of the language could achieve higher performance for Turkish, in this study, we developed a new tokenizer that takes into account the fundamental sound transformation features of Turkish, instead of the WordPiece tokenizer used in BERT models. Using this new tokenizer, we trained entirely new language models from scratch. Comparing the performance of the new model with the original model specifically in the named entity recognition task, we observed significant improvement in training speed and noticeable enhancement in performance. In conclusion, we developed an original model for Turkish in this study and made contributions in three areas: we created a tokenizer tailored for Turkish, trained new language models using this algorithm, and applied them to the named entity recognition problem in Turkish.
Benzer Tezler
- Semi-supervised learning based named entity recognition for morphologically rich languages
Morfolojik açıdan zengin dillerde yarı güdümlü öğrenme tekniğiyle varlık ismi tanıma
HAKAN DEMİR
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings
Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma
EDA OKUR
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Türkçe için sahte haber tespit modelinin oluşturulması
A fake news detection model for Turkish language
UĞUR MERTOĞLU
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURKAY GENÇ
PROF. DR. HAYRİ SEVER
- İlkokul çağı çocuklarının konuşma akıcısızlıklarının türleri ve sıklıklarının incelenmesi
Examining speech disfluency types and frequencies of primary school children
AYŞENUR KABASAKAL
Yüksek Lisans
Türkçe
2021
DilbilimÜsküdar ÜniversitesiDil ve Konuşma Terapisi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET EMRAH CANGİ
- Analyse des textes utilises dans les methodes actuelles de l'enseignement du Français langue etrangere
Fransız dili eğitimi ile ilgili günümüzde kullanılan metodlarda yeralan metinlerin çözümlenmesi
ERDOĞAN KARTAL
Yüksek Lisans
Fransızca
1999
DilbilimHacettepe ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. NERİMAN ERATALAY