Geri Dön

An inter-annotator agreement measurement methodolgy for the Turkish Discourse Bank (TDB)

Türkçe Söylem Bankası (TSB) için işaretçiler arası uyum ölçüm metodolojisi

  1. Tez No: 276647
  2. Yazar: ŞABAN İHSAN YALÇINKAYA
  3. Danışmanlar: PROF. DR. DENİZ ZEYREK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Dilbilim, İstatistik, Linguistics, Statistics
  6. Anahtar Kelimeler: Söylem, Söylem Bankası, İşaretçiler Arası Uyum, Derlem Güvenilirliği, Metin Kapsam İşaretlemesi, Uyum Katsayıları, Discourse, Discourse Bank, Inter-Annotator Agreement, Corpus Reliability, Text Span Annotation, Agreement Coefficients
  7. Yıl: 2010
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 146

Özet

TSB benzeri derlem işaretleme çabaları, işaretçilerin sezgileriyle inşa edildiğinden, derlem güvenilirliği sadece doğru işaretçiler arası uyum ölçüm yöntemiyle ölçülebilir (Artstein, & Poesio, 2008). Bu tezde, Türkçe Söylem Bankası (TSB) işaretçileri arasındaki işaretçiler arası uyumu hesaplamak için bir yöntem tanımlanmıştır.Bilimsel çevrelerde yaygın olarak kullanılan istatistiksel testler ve uyum katsayıları, Cochran'ın Q testi (1950), Fleiss'in Kappası (1971), ve Krippendorff'un Alphası (1995) da dahil olmak üzere, detaylı bir şekilde incelenmiştir. Çeşitli derlem işaretleme çabalarının işaretçiler arası uyum ölçüm yaklaşımları istatistiksel açıdan irdelenmiştir. Görülmüştür ki bu çabaların bildirilmiş hiçbir işaretçiler arası uyum ölçüm yaklaşımı istatistiksel olarak TSB'ye uygun değildir. Bu nedenle, kapsamlı bir işaretçiler arası uyum ölçüm yöntemi baştan tasarlanmıştır. Tasarlama sürecinde, TSB üzerinde istatistiksel ölçümleri değişik derlem parametreleri ve veri işleme yaklaşımlarıyla gerçekleştirmek üzere, Derecelendirici Uyum Aracı (DUA) adı verilen, bir bilgisayar programı geliştirilmiştir.TSB için en uygun istatistiksel yöntemin Krippendorff'un Alphası olduğu sonucuna varılmıştır. Görülmüştür ki ölçümler kullanılan uyum istatistiklerinden etkilendikleri kadar veri işleme yaklaşımı tercihlerinden de etkilenmektedirler. Yine görülmüştür ki bütün araştırma konuları için tek bir doğru yaklaşım yoktur, ancak çeşitli araştırma konuları için değişik doğru yaklaşımlar vardır. TSB için, bu tezde ortaya çıkan ana veri işleme yaklaşımları: (1) kelimeleri işaretlemelerin yapı taşı olarak değerlendirmek ve (2) aralık yaklaşımının kısmi uyumsuzlukları ağırlıklandırılmak istenildiğinde kullanılması, ve sınır yaklaşımının bütün uyumsuzlukları aynı şekilde değerlendirmek istenildiğinde kullanılmasıdır.

Özet (Çeviri)

In the TDB-like corpora annotation efforts, which are constructed by the intuitions of the annotators, the reliability of the corpus can only be determined via correct inter-annotator agreement measurement methodology (Artstein, & Poesio, 2008). In this thesis, a methodology was defined to measure the inter-annotator agreement among the TDB annotators.The statistical tests and the agreement coefficients that are widely used in scientific communities, including Cochran?s Q test (1950), Fleiss? Kappa (1971), and Krippendorff?s Alpha (1995), were examined in detail. The inter-annotator agreement measurement approaches of the various corpus annotation efforts were scrutinized in terms of the reported statistical results. It was seen that none of the reported inter-annotator agreement approaches were statistically appropriate for the TDB. Therefore, a comprehensive inter-annotator agreement measurement methodology was designed from scratch. A computer program, the Rater Agreement Tool (RAT), was developed in order to perform statistical measurements on the TDB with different corpus parameters and data handling approaches.It was concluded that Krippendorff?s Alpha is the most appropriate statistical method for the TDB. It was seen that the measurements are affected with data handling approach preferences, as well as the used agreement statistic methods. It was also seen that there is not only one correct approach but several approaches valid for different research considerations. For the TDB, the major data handling suggestions that emerged are: (1) considering the words as building blocks of the annotations and (2) using the interval approach when it is preferred to weigh the partial disagreements, and using the boundary approach when it is preferred to evaluate all disagreements in same way.

Benzer Tezler

  1. Exploring attribution in Turkish discourse: An annotation-based analysis

    Türkçe söylemde atıf incelemesi: Anotasyon tabanlı bir analiz

    AYSU NUR YAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

  2. İçerik tabanlı atıf analizi modeli tasarımı: Türkçe atıflar için metin kategorizasyonuna dayalı bir uygulama

    Designing a model for content-based citation analysis: An application for Turkish citations based on text categorization

    ZEHRA TAŞKIN

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgi ve Belge YönetimiHacettepe Üniversitesi

    Bilgi ve Belge Yönetimi Ana Bilim Dalı

    DOÇ. DR. UMUT AL

  3. A study on alternative lexicalizations in Turkish discourse bank

    Türkçe söylem bankasındaki bağlaçsıların çalışması

    FİKRET GÜNAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

  4. KeNet: A comprehensive Turkish wordnet and its applications in text clustering

    KeNet: Kapsamlı Türkçe wordnet ve metin kümelemede kullanılması

    RAZIEH EHSANI

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OLCAY TANER YILDIZ

    PROF. DR. ERCAN SOLAK

  5. Financial named entity recognition for turkish news texts

    Türkçe haber metinlerinde finansal varlık ismi tanıma

    DUYGU DİNÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ HİKMET DOĞRU

    PROF. DR. PINAR KARAGÖZ