Named entity recognition and explainability analysis on Turkish sports news texts
Türkçe spor haberleri metinlerinde varlık ismi tanıma ve yorumlanabilirlik analizi
- Tez No: 842593
- Danışmanlar: PROF. DR. PINAR KARAGÖZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 259
Özet
Varlık İsmi Tanıma (VİT) metinlerden varlık isimlerini saptamak ve belirlenmiş etiketlere göre sınıflandırmayı amaçlayan doğal dil işleme ve bilgi çıkarımı problemidir. Özellikle spor gibi alana özel VİT çalışmaları, İngilizce, Çince gibi yaygın kullanılan dillere kıyasla Türkçe metinlerde oldukça kısıtlı sayıdadır. Spor dünyasında teknolojinin kullanımının yaygınlaşmasıyla beraber spor yönetimi, sporcu performansı artırılması, sporcu-taraftar arasındaki ilişkinin güçlendirilmesi gibi alanlarda çalışmalar yapılmaya başlanmıştır. Spora yapılan yatırımların artmasıyla birlikte, sporda finans, pazarlama ve sporcu psikolojisi gibi alanlardaki çalışmalar artmıştır. Sporcu, takım ve taraftar arasındaki ilişkiyi daha iyi anlayabilmek için niteliksel verilerden bilgi çıkarma alanında bir boşluk vardır. Geleneksel yöntemlerle karşılaştırıldığında derin öğrenme modellerinin Türkçe VİT alanında uygulanmasında daha fazla araştırmaya ihtiyaç duyulmaktadır. Ayrıca, bu modellerin yorumlanabilirliği ve açıklanabilirliği üzerine daha az çalışma yapılmıştır. Bu çalışmada spor metinlerinden oluşturulmuş yeni veri kümeleri sunulmuş ve deneylerde kullanılmıştır. Bu çalışmada farklı derin öğrenme modellerinin performansının karşılaştırılması ve farklı etiketleme şemalarının etkisi incelenmiştir. Ayrıca, varlık isimlerinin dağılımının performansa etkisi de çapraz doğrulama yöntemiyle incelenmiştir. Çalışmanın diğer odaklarından birisi de modellerin yorumlanabilirliğidir. Yorumlanabilirlik yöntemleri uygulanarak, modellerin tahminlerinin arkasındaki mantığı anlayabilmek amaçlanmıştır. Modellerin nasıl karar verdiğinin anlaşılması Türkçe VİT alanında henüz çok çalışılmamıştır. Bu araştırma, sadece doğal dil işleme ve bilgi çıkarma alanına katkıda bulunmakla kalmayıp, spor araştırmaları ve yönetim uygulamalarını zenginleştirme ve spor ile teknoloji arasındaki etkileşime yeni içgörüler sağlama potansiyeline de sahiptir.
Özet (Çeviri)
In Natural Language Processing (NLP) and Information Extraction, Named Entity Recognition (NER) is a significant challenge. NER involves identifying entities like Person, Location, and Organization from text. While NER is well-researched in English and Chinese, Turkish NER lags, especially in domain-specific areas like sports. The sports industry has seen a remarkable transformation with the convergence of sports and technology, impacting performance enhancement, fan engagement, and management. There is an untapped potential in extracting qualitative insights from textual data, offering a deeper understanding of the dynamics between athletes, teams, and supporters. One key area needing further exploration is applying deep learning techniques to Turkish NER, particularly in comparison with traditional methods. Additionally, there is a lack of research on the interpretability and explainability of transformer-based models in this context. This study introduces domain-specific Turkish NER data sets, mainly those relevant to sports, to evaluate the effectiveness of transformer-based models in Turkish NER. A significant aspect of this research is comparing these models and analyzing how different annotation formats impact the results. The effects of named entity distribution on model performance are investigated through cross-validation techniques. Another crucial component of this study is focusing on interpretability. By employing interpretability methods, we aim to uncover the rationale and mechanisms behind the model predictions. This aspect is crucial in understanding how these models function and make decisions, a relatively under-explored area in Turkish NER. This research contributes to NLP and Information Extraction and has implications for enriching sports research and management, providing new insights into the interaction between sports and technology.
Benzer Tezler
- Varlık isimlerinin bağlı veriler (lınked data) kullanılarak anlamlandırılması
Named entity disambiguation using linked open data
ŞERZOD HAKİMOV
Yüksek Lisans
İngilizce
2013
Bilim ve TeknolojiTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERDOĞAN DOĞDU
- Evaluation of cosine similarity feature results with different experimental setups for named entity recognition on tweets
Varlık ismi tanımlama üzerine kosinüs benzerliği özelliğinin farklı örneklemlerde değerlendirilmesi
ONUR BÜYÜKTOPAÇ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TANKUT ACARMAN
- Helping metonymy recognition and treatment through named entity recognition
Adlandırılmış varlık ile ad aktarması çözümleme
HATİCE BURCU KÜPELİOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TANKUT ACARMAN
- Automatic speech recognition in consecutive interpreter workstation: Computer-aided interpreting tool 'Sight-Terp'
Otomatik konuşma tanıma sistemlerinin ardıl çeviride kullanılması: Sight-Terp
CİHAN ÜNLÜ
Yüksek Lisans
İngilizce
2023
Mütercim-TercümanlıkHacettepe ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
PROF. DR. AYMİL DOĞAN
- A hybrid method for toponym recognition on informal Turkish text
Gündelik Türkçe metinlerde hibrit yöntemle yer isimlerini tanıma
MERYEM KILINÇ
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR KARAGÖZ