Geri Dön

Morphological annotation of a corpus with a collaborative multiplayer game

Çok oyunculu ve yardımlaşmacı bir oyun aracılığıyla Türkçe bir derlemin biçimbilimsel işaretlenmesi

  1. Tez No: 252588
  2. Yazar: ONUR GÜNGÖR
  3. Danışmanlar: DOÇ. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Doğal dil işleme görevlerini gerçekleştirmek için geliştirilmiş en gelişkin sistemler modellerini kurarken çoğunlukla makine öğrenmesi yöntemleri kullanırlar. Çoğunun öğreticiyle öğrenme yolunu seçtikleri düşünüldüğünde, ilgili doğal dil işleme sorununa uygun olarak işaretlenmiş bir derlemin zorunluluğu ortaya çıkar. İşaretlemede kullanılan güncel yöntem, konusunda uzmanlaşmış kişilerin işlemi elle veya yardımcı bir yazılım kullanarak gerçekleştirmesidir. L\^akin, bu, yer yer hatalara yol açmasının yanında, masraflıdır ve uzun zaman gerektirir. Yöntemimiz bu sorunların hepsini bir anda çözmeyi hedefler. Herhangi bir internet kullanıcısının oynayabileceği yardımlaşma\-cı ve eğlence amaçlı bir oyunu oynatmak marifetiyle açığa çıkmamış işgücünün derlem işaret\-lenmesi yönünde değerlendirilebileceğini düşünüyoruz. İnsanlar, sosyal ağ sitelerinden devşirilmiş bazı özellikleri de taşıyan bir sitedeki belirli bir sözcük hakkında\-ki sorulara cevap vererek işaretlemeye katkıda bulunmaya teşvik ediliyor. Tezde verilen sonuçlar gerçekleştirilen deneyin ilk on bir gününden oluşturulmuştur. Deney belirsiz bir tarihe kadar devam etmek üzere hala çalışmaktadır. Sonuçlara göre, halihazırdaki 74 soru çeşidinin iki fazdan oluşan değerlendirmesine göre yüzde 63.5'lük bir başarı oranı yakalanmıştır. Bahsi geçen soru çeşitleri derlemin yüzde 58.3'ünün biçimbilimsel çözümlemesini yapabilmektedir. Soru çeşidi sayısını 100'e çıkarmak, bu oranı yüzde 70.7'e çıkaracaktır. Zaman kısıtı ve ziyaretçi azlığından dolayı bahsedilen düzeyde bir işaretle\-me yapılamamasına rağmen, ulaşılacak başarı oranı üzerine bir tahmin yapmak gerekirse yüzde 51.4 oranı elde edilecektir. Bu işlemin, büyük bir ulusal gazetenin web sayfasında gerçekleştirildiği takdirde, iki buçuk ay içinde tamamlanacağı düşünülmekte\-dir. Bu, bu çaptaki bir işaretleme işi için göreli olarak kısa bir süredir.

Özet (Çeviri)

In most of the natural language processing tasks, state of the art systems usually rely on machine learning methods for building their mathematical models. Given that the majority of these systems employ supervised learning strategies, a corpus that is annotated for the problem area is essential. The current method for annotating a corpus is to hire several experts and make them annotate the corpus manually or -in its best practice- by using a helper software. However, this method is costly and time-consuming if not error free. We propose a method that aims to solve these problems at once. By employing a multiplayer collaborative game that is playable by ordinary people on the Internet, it seems possible to direct the covert labour force so that people can contribute by just playing a fun game. Through a game site which incorporates some functionality inherited from social networking sites, people are motivated to contribute to the annotation process by answering questions about the underlying morphological features of a target word. The results reported in the thesis are compiled from the first eleven days of the experiment which is planned to continue until an indeterminate date. It is reported that the 63.5 per cent of the actual question types are successful based on two phases. The current 74 question types cover 58.3 per cent of the corpus completely while increasing this number to only 100 types increases the coverage rate to 70.7 per cent. Due to the time constraints and the relatively low traffic to the site, we were not able to annotate the corpus completely, but we can nevertheless estimate a hypothetical rate of successful morphological disambiguation as 51.4 per cent of the whole corpus which is calculated to be completed in two and a half months if the game were to be hosted on a major web site. This is indeed a relatively short duration for a bootstrapping of this size when compared with the current methods.

Benzer Tezler

  1. Parts-of-speech tagging of adverbs in the kyrgyz corpus

    Kırgızca derlemdeki zarfların sözcük türü olarak işaretlenmesi

    AİZHAN SATYBEKOVA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Mütercim-TercümanlıkKırgızistan-Türkiye Manas Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    DOÇ. DR. AİDA KASİEVA

  2. Türkçe cümlelerde isim tamlamalarının bulunması

    Noun phrase chunking of Turkish sentences

    KÜBRA ADALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Yazılı Türkçe dilinden Türk işaret diline (tid) makine çevirisi sistemi

    Text to sign language machine translation system for Turkish

    CİHAT ERYİĞİT

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HATİCE KÖSE

  4. 19. yüzyılda Arnavutluk'ta kullanılmış Türkçe üzerine bir dil incelemesi: Güney Arnavutluk'ta kaleme alınmış yunan harfli Türkçe Bektaşi cönkleri

    A linguistic study on the Turkish used in Albania in the 19th century: the Bektashi cönks in Turkish with Greek script written in Southern Albania

    FATOS DIBRA

    Doktora

    Türkçe

    Türkçe

    2021

    Dilbilimİstanbul Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. HATİCE TÖREN

  5. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ