Geri Dön

Identifying event nuggets in turkish news texts using natural language processing and machine learning methods

Doğal dil işlemesi ve makine öğrenmesi yöntemleri ile türkçe haberlerde olay göstergesi tespiti

  1. Tez No: 603823
  2. Yazar: MEHMET DURNA
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Metinde bir olayın geçtiğini gösteren en küçük kelime grubuna olay göstergesi denmektedir. İngilizce, İspanyolca ve Çince gibi dillerde çalışılmıs olan olay göstergelerinin tespiti bize daha çok araştırma yapılmasını ve birçok uygulamayı mümkün kılmaktadır. Türkçe'de ise ilk defa olay göstergesi tespiti ve olay göstergesi türü sınıflandırması konusu bu araştırmayla biz çalıştık. Olay göstergesi tespiti için Türkçe bir veri kaynağımız olmadığından dolayı bu problem için kendimiz bir veri kümesi geliştirdik. Bu araştırmada veri kümesini nasıl geliştirdiğimizi ve Türkçe haber metinleri için olay göstergesi tespiti ve olay göstergesi türü sınıflandırması yapan sistemimizi tanıttık. Veri kaynağı çeşitli Türkçe haber sitelerinden alınmış haberlerin içindeki kelimelerden oluşmaktadır. Veri kümesindeki her kelime elle dizi türü, gösterge türü, gösterge alt türü, realis değeri ve ana olay olup olmamasına göre işaretlenmiştir. Böylelikle bu veri kümesini olay göstergesi tespiti, olay türü sınıflandırması, realis değeri ve ana olay sınıflandırması çalışması yapmamıza olanak sağlamaktadır. Bu işaretlenmiş veri kümesi üzerinde çeşitli sınıflandırma metotları denedik. Türkçe'ye özgü morfolojik ve bağlılık ayrıştırma özelliklerinin yanısıra diğer özelliklerden de yararlandık. Bunu yaparken dile özgü özelliklerin sınıflandırmada nasıl bir etkisi olduğunu görmeyi amaçladık. Farklı makine öğrenmesi algoritmalarını kullanarak olay göstergesi tespiti, olay göstergesi türü sınıflandırması, realis değeri bulma ve ana olay tespiti için en başarılı modeli bulmaya çalıştık. Çalışmamızın sonunda Türkçe'ye özgü morfolojik ve bağlılık ayrıştırma özelliklerinin ve kelime temsillerinin sonuçlarımızı iyileştirdiğini gözlemledik.

Özet (Çeviri)

Event nuggets are smallest textual instance that marks the existence of an event. Detecting event nuggets in a given text opens door to further research and many practical applications, therefore it has been studied extensively for some lan- guages including English, Spanish and Chinese. In this study, event nugget detection and event type classification for Turkish is studied for the first time. Due to lack of annotated data for event nugget detection in Turkish, we developed a new annotated dataset for this task. In this study we described how we manually annotated our dataset as well as our system to identify event nuggets in Turkish news texts. The dataset consists of words from Turkish news texts. Each word in the dataset is manually annotated in terms of sequence type, nugget type, realis value and whether the event nugget is the main event, thus enabling us to make analysis on this dataset for event nugget detection, event type classification, realis classification and main event detection. We made use of language specific features like morphological features and dependency parser features in Turkish as well as some other features. We aimed to see the effect of language specific features on this kind of analysis. We also experimented with different machine learning algorithms to find the best fitting model for our tasks. After having completed our experiments, we have shown that Turkish specific morphological features, dependency tree related features as well as word embeddings enabled us to achieve better results.

Benzer Tezler

  1. Building of Turkish propbank and semantic role labeling of Turkish

    Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi

    GÖZDE GÜL ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  2. Derin sinir ağlarını kullanarak uzun ve kısa videolarda zamansal eylem tanıma

    Temporal action recognition in untrimmed videos using deep neural networks

    YAĞMUR ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA SERT

  3. Sosyal bilgiler öğretmen adaylarının güncel olayları argümantasyon tekniği ile değerlendirmesi

    Evaluation of current events by social studies teacher candidates with argumentation technique

    MEHMET AKKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimAkdeniz Üniversitesi

    İlköğretim Ana Bilim Dalı

    DOÇ. DR. NADİRE EMEL AKHAN

  4. The structure and organization of collective memory representations

    Toplumsal bellek temsillerinin yapısı ve organizasyonu

    AYSU MUTLUTÜRK

    Doktora

    İngilizce

    İngilizce

    2017

    PsikolojiBoğaziçi Üniversitesi

    Psikoloji Ana Bilim Dalı

    PROF. DR. AYŞECAN BODUROĞLU

  5. From manual to automated pharmacovigilance processes and efficient signal management application

    Manuelden otomasyona farmakovijilans süreçleri ve verimli sinyal yönetimi uygulaması

    RABİA AYŞE ÇETİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Eczacılık ve FarmakolojiYeditepe Üniversitesi

    Farmasötik Toksikoloji Ana Bilim Dalı

    PROF. DR. HANDE SİPAHİ