bi-TEZAT: biLSTM yöntemiyle türkçe şikayet metinlerinde zaman ifadelerinin tespit edilmesi
Bi-TEZAT: extract temporal expressions on turkish complaint texts via biLSTM
- Tez No: 753031
- Danışmanlar: PROF. DR. MİNE ELİF KARSLIGİL YAVUZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 74
Özet
Metinlerde tarih, saat, süre ve tekrar belirten zaman ifadelerinin otomatik olarak tespit eden sistemler geliştirilmesi, Doğal Dil İşleme (NLP) araştırma alanının çalışma konularına girmektedir. Literatür incelendiğinde, ilk geliştirilen sistemlerin zaman ifadelerinin desen analizleri sonucu oluşturulan kural tabanlı sistemler olduğu gözlemlenmektedir. Daha sonrasında metinden ve kelimenin özelliklerinden çıkarılan öznitelikleri kullanarak makine öğrenmesi modelleri yardımıyla zaman ifadelerini tespit eden hibrit sistemler geliştirilmiştir. Araştırma alanındaki gelişim süreciyle birlikte, Yapay Sinir Ağları (ANN) tabanlı sistem geliştirilmesine yönelik çalışmalar son zamanlarda literatürde yer almıştır. Türkçe metinlerde yapılan çalışmalar incelendiğinde, Varlık İsmi Tanıma (NER) kapsamında tarih ve saat ifadelerinin tespit edilmesine yönelik olarak yapıldığı gözlemlenmektedir. Bu kapsamda NER kapsamına giren kişi, lokasyon ve organizasyon ifadeleriyle birlikte tarih ve saat ifadeleri tespit eden kural tabanlı, hibrit ve ANN tabanlı modeller geliştirilmiştir. Zaman ifadelerinin tespit edilmesi konu özelinde ilk çalışma, ifadelerin desenlerinin analiz edilmesidir. Daha sonrasında HeidelTime isimli sistem için Türkçe diline yönelik kural tanımlaması çalışması bulunmaktadır. Bu tezin amacı, İngilizce dilinde NER kapsamında başarılı olan modellerden esinlenerek Türkçe metinlerde zaman ifadelerini tespit edecek ANN tabanlı bir modelin geliştirilmesi ve gerçekleştirilmektir. Öncelikle veri toplama ve etiketleme çalışması yapılmıştır. Bu kapsamda daha sonraki çalışmalarda da faydalı olacağı düşünülerek bir etiketleme dokümanı hazırlanmıştır. Veri kümesinde yer alan metinler, ön işlemlerden geçirildikten sonra tokenize edilmiştir. Modelin girdisi olan kelime, karakter, ortografik karakter, morfolojik analiz sonucu tabanlı kelime vektörleri ile yazınsal öznitelik vektörleri oluşturulmuştur. Kelime vektörleri için daha önceden eğitilmiş vektörler kullanılmıştır, bu vektörler üzerinde ince ayar yapılmamıştır. Kelimelerin yazılışları üzerinden Evrişimli Sinir Ağları (CNN) yardımıyla karakter ve ortografik karakter tabanlı kelime vektörleri oluşturulmuştur. Morfolojik analiz sonuçları üzerinden Çift Yönlü Uzun Kısa Süreli Bellek (biLSTM) yardımıyla kelime vektörleri oluşturulmuştur. Her bir kelimenin 15 yazınsal özniteliği üzerinden vektörler oluşturulmuştur. Ayrıca, Transformatörlerden Çift Yönlü Kodlayıcı Gösterimleri (BERT) modelinden öznitelik çıkarma yöntemiyle kelime vektörleri elde edilmiştir. Tüm bu girdileri kullanarak metinlerdeki zaman ifadelerini tespit eden biLSTM modeli ve etiket sınıflandırıcı olacak CRF katmanı tasarlanarak Türkçe dilinde ilk ANN tabanlı sistem geliştirilmiş ve başarısı değerlendirilmiştir.
Özet (Çeviri)
Developing systems for automatic detection of date, time, duration and set expressions on texts is within the scope of natural language processing (NLP) research field. When the literature is reviewed, it is observed that the first developed systems are rule-based which ones are results of pattern analysis of time expressions. Later, hybrid systems that use extracted features from texts and word properties with machine learning models are developed. Along with the development process in the research area, development of Artificial Neural Networks (ANN) based systems have recently taken place in the literature. When the studies on Turkish texts are reviewed, it is observed that the detection of date and time expressions is done in the scope of Named Entity Recognition (NER). In this context, rule-based, hybrid and ANN-based models that detect person, location and organization expressions as well as date and time expressions have been developed. The first study about determination of time expressions is to analyze time expression patterns. Afterwards, there is a rule definition study for HeidelTime on Turkish texts. The aim of this thesis is to develop and implement an ANN-based model to detect time expressions on Turkish texts, inspired by the models that have been successful in scope of NER in English. First, data collection and labeling work to be used in the thesis is done. In this context, a guidance to label documents has been prepared to be useful in future studies. The texts in the dataset are preprocessed and then tokenized. Word embeddings, character, orthogonal character, morphological analysis results based and spelling feature word vectors are created. For word embeddings, pre-trained word embeddings are used, and these vectors are not fine-tuned during the training. Character and orthogonal character-based word vectors are created via a Convolutional Neural Network (CNN) model. Morphological analysis results-based word vectors are created via a Bidirectional Long Short-Term Memory (biLSTM) model. Spelling vectors based on 15 different attributes of each word are created. Besides, word embeddings are obtained by using feature extraction methods from Bidirectional Encoder Representations from Transformers (BERT) model. Then, to detect time expressions on the texts by using these inputs, as first ANN based system on Turkish language, biLSTM model and CRF layer as a label classifier is designed and evaluated.
Benzer Tezler
- Muhammad bin Abdullah el-Ziyareti'nin Tevhidü's-Sani bi Burhani't -Temanü'sü tahkik ve açıklama
Study and investigation of Mullah Mohammed bin Abdulla's book Tawhid Al-Sanih bi-Burhan Al-Tamanuh
NUH ALI AHMED MALAZADA
- Uyum sürecinde Türkiye eğitim politikalarının Avrupa Birliği eğitim politikaları doğrultusunda değerlendirilmesi
The Evaluation of Turkish educational politics from the perspective of the European Union educational politics during the process of adaptation
ÇETİN TERZİ
Doktora
Türkçe
2005
Eğitim ve ÖğretimAnadolu ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF.DR. COŞKUN BAYRAK
- Development of a software to accompany single phase forced convection heat transfer correlations and a property database for common engineering fluids
Tek fazlı zorlanmış konveksiyon ısı iletimi eşilişkileri ve mühendislikte sık kullanılan akışkanlar için bir yazılım ve veri tabanı hazırlanması
HARUN İZ
- Werger wek kirineke çandî- Li ser riyên ji wergernasiyê ber bi Kurdolojiyê ve-
Kültürel bir pratik olarak çeviri- Çeviribilimden Kürdolojiye giden yollarda-
ZİYATTİN YILDIRIMÇAKAR
Yüksek Lisans
Kürtçe
2016
Doğu Dilleri ve EdebiyatıMardin Artuklu ÜniversitesiKürt Dili ve Kültürü Ana Bilim Dalı
YRD. DOÇ. MESUT KESKİN