Geri Dön

bi-TEZAT: biLSTM yöntemiyle türkçe şikayet metinlerinde zaman ifadelerinin tespit edilmesi

Bi-TEZAT: extract temporal expressions on turkish complaint texts via biLSTM

  1. Tez No: 753031
  2. Yazar: ENSAR EMİRALİ
  3. Danışmanlar: PROF. DR. MİNE ELİF KARSLIGİL YAVUZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 74

Özet

Metinlerde tarih, saat, süre ve tekrar belirten zaman ifadelerinin otomatik olarak tespit eden sistemler geliştirilmesi, Doğal Dil İşleme (NLP) araştırma alanının çalışma konularına girmektedir. Literatür incelendiğinde, ilk geliştirilen sistemlerin zaman ifadelerinin desen analizleri sonucu oluşturulan kural tabanlı sistemler olduğu gözlemlenmektedir. Daha sonrasında metinden ve kelimenin özelliklerinden çıkarılan öznitelikleri kullanarak makine öğrenmesi modelleri yardımıyla zaman ifadelerini tespit eden hibrit sistemler geliştirilmiştir. Araştırma alanındaki gelişim süreciyle birlikte, Yapay Sinir Ağları (ANN) tabanlı sistem geliştirilmesine yönelik çalışmalar son zamanlarda literatürde yer almıştır. Türkçe metinlerde yapılan çalışmalar incelendiğinde, Varlık İsmi Tanıma (NER) kapsamında tarih ve saat ifadelerinin tespit edilmesine yönelik olarak yapıldığı gözlemlenmektedir. Bu kapsamda NER kapsamına giren kişi, lokasyon ve organizasyon ifadeleriyle birlikte tarih ve saat ifadeleri tespit eden kural tabanlı, hibrit ve ANN tabanlı modeller geliştirilmiştir. Zaman ifadelerinin tespit edilmesi konu özelinde ilk çalışma, ifadelerin desenlerinin analiz edilmesidir. Daha sonrasında HeidelTime isimli sistem için Türkçe diline yönelik kural tanımlaması çalışması bulunmaktadır. Bu tezin amacı, İngilizce dilinde NER kapsamında başarılı olan modellerden esinlenerek Türkçe metinlerde zaman ifadelerini tespit edecek ANN tabanlı bir modelin geliştirilmesi ve gerçekleştirilmektir. Öncelikle veri toplama ve etiketleme çalışması yapılmıştır. Bu kapsamda daha sonraki çalışmalarda da faydalı olacağı düşünülerek bir etiketleme dokümanı hazırlanmıştır. Veri kümesinde yer alan metinler, ön işlemlerden geçirildikten sonra tokenize edilmiştir. Modelin girdisi olan kelime, karakter, ortografik karakter, morfolojik analiz sonucu tabanlı kelime vektörleri ile yazınsal öznitelik vektörleri oluşturulmuştur. Kelime vektörleri için daha önceden eğitilmiş vektörler kullanılmıştır, bu vektörler üzerinde ince ayar yapılmamıştır. Kelimelerin yazılışları üzerinden Evrişimli Sinir Ağları (CNN) yardımıyla karakter ve ortografik karakter tabanlı kelime vektörleri oluşturulmuştur. Morfolojik analiz sonuçları üzerinden Çift Yönlü Uzun Kısa Süreli Bellek (biLSTM) yardımıyla kelime vektörleri oluşturulmuştur. Her bir kelimenin 15 yazınsal özniteliği üzerinden vektörler oluşturulmuştur. Ayrıca, Transformatörlerden Çift Yönlü Kodlayıcı Gösterimleri (BERT) modelinden öznitelik çıkarma yöntemiyle kelime vektörleri elde edilmiştir. Tüm bu girdileri kullanarak metinlerdeki zaman ifadelerini tespit eden biLSTM modeli ve etiket sınıflandırıcı olacak CRF katmanı tasarlanarak Türkçe dilinde ilk ANN tabanlı sistem geliştirilmiş ve başarısı değerlendirilmiştir.

Özet (Çeviri)

Developing systems for automatic detection of date, time, duration and set expressions on texts is within the scope of natural language processing (NLP) research field. When the literature is reviewed, it is observed that the first developed systems are rule-based which ones are results of pattern analysis of time expressions. Later, hybrid systems that use extracted features from texts and word properties with machine learning models are developed. Along with the development process in the research area, development of Artificial Neural Networks (ANN) based systems have recently taken place in the literature. When the studies on Turkish texts are reviewed, it is observed that the detection of date and time expressions is done in the scope of Named Entity Recognition (NER). In this context, rule-based, hybrid and ANN-based models that detect person, location and organization expressions as well as date and time expressions have been developed. The first study about determination of time expressions is to analyze time expression patterns. Afterwards, there is a rule definition study for HeidelTime on Turkish texts. The aim of this thesis is to develop and implement an ANN-based model to detect time expressions on Turkish texts, inspired by the models that have been successful in scope of NER in English. First, data collection and labeling work to be used in the thesis is done. In this context, a guidance to label documents has been prepared to be useful in future studies. The texts in the dataset are preprocessed and then tokenized. Word embeddings, character, orthogonal character, morphological analysis results based and spelling feature word vectors are created. For word embeddings, pre-trained word embeddings are used, and these vectors are not fine-tuned during the training. Character and orthogonal character-based word vectors are created via a Convolutional Neural Network (CNN) model. Morphological analysis results-based word vectors are created via a Bidirectional Long Short-Term Memory (biLSTM) model. Spelling vectors based on 15 different attributes of each word are created. Besides, word embeddings are obtained by using feature extraction methods from Bidirectional Encoder Representations from Transformers (BERT) model. Then, to detect time expressions on the texts by using these inputs, as first ANN based system on Turkish language, biLSTM model and CRF layer as a label classifier is designed and evaluated.

Benzer Tezler

  1. Muhammad bin Abdullah el-Ziyareti'nin Tevhidü's-Sani bi Burhani't -Temanü'sü tahkik ve açıklama

    Study and investigation of Mullah Mohammed bin Abdulla's book Tawhid Al-Sanih bi-Burhan Al-Tamanuh

    NUH ALI AHMED MALAZADA

    Yüksek Lisans

    Arapça

    Arapça

    2021

    DinFırat Üniversitesi

    Temel Bilimler Ana Bilim Dalı

    PROF. DR. SELİM ÖZARSLAN

  2. Vagotomi'nin kan glikoz ve insülin düzeylerine etkisi

    Başlık çevirisi yok

    MAHİR AKYILDIZ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    1986

    Genel CerrahiEge Üniversitesi

    Genel Cerrahi Ana Bilim Dalı

  3. Uyum sürecinde Türkiye eğitim politikalarının Avrupa Birliği eğitim politikaları doğrultusunda değerlendirilmesi

    The Evaluation of Turkish educational politics from the perspective of the European Union educational politics during the process of adaptation

    ÇETİN TERZİ

    Doktora

    Türkçe

    Türkçe

    2005

    Eğitim ve ÖğretimAnadolu Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF.DR. COŞKUN BAYRAK

  4. Development of a software to accompany single phase forced convection heat transfer correlations and a property database for common engineering fluids

    Tek fazlı zorlanmış konveksiyon ısı iletimi eşilişkileri ve mühendislikte sık kullanılan akışkanlar için bir yazılım ve veri tabanı hazırlanması

    HARUN İZ

    Yüksek Lisans

    İngilizce

    İngilizce

    1992

    Makine MühendisliğiOrta Doğu Teknik Üniversitesi

    PROF. DR. RÜKNETTİN OSKAY

  5. Werger wek kirineke çandî- Li ser riyên ji wergernasiyê ber bi Kurdolojiyê ve-

    Kültürel bir pratik olarak çeviri- Çeviribilimden Kürdolojiye giden yollarda-

    ZİYATTİN YILDIRIMÇAKAR

    Yüksek Lisans

    Kürtçe

    Kürtçe

    2016

    Doğu Dilleri ve EdebiyatıMardin Artuklu Üniversitesi

    Kürt Dili ve Kültürü Ana Bilim Dalı

    YRD. DOÇ. MESUT KESKİN