Morphological annotation of a corpus with a collaborative multiplayer game
Çok oyunculu ve yardımlaşmacı bir oyun aracılığıyla Türkçe bir derlemin biçimbilimsel işaretlenmesi
- Tez No: 252588
- Danışmanlar: DOÇ. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Doğal dil işleme görevlerini gerçekleştirmek için geliştirilmiş en gelişkin sistemler modellerini kurarken çoğunlukla makine öğrenmesi yöntemleri kullanırlar. Çoğunun öğreticiyle öğrenme yolunu seçtikleri düşünüldüğünde, ilgili doğal dil işleme sorununa uygun olarak işaretlenmiş bir derlemin zorunluluğu ortaya çıkar. İşaretlemede kullanılan güncel yöntem, konusunda uzmanlaşmış kişilerin işlemi elle veya yardımcı bir yazılım kullanarak gerçekleştirmesidir. L\^akin, bu, yer yer hatalara yol açmasının yanında, masraflıdır ve uzun zaman gerektirir. Yöntemimiz bu sorunların hepsini bir anda çözmeyi hedefler. Herhangi bir internet kullanıcısının oynayabileceği yardımlaşma\-cı ve eğlence amaçlı bir oyunu oynatmak marifetiyle açığa çıkmamış işgücünün derlem işaret\-lenmesi yönünde değerlendirilebileceğini düşünüyoruz. İnsanlar, sosyal ağ sitelerinden devşirilmiş bazı özellikleri de taşıyan bir sitedeki belirli bir sözcük hakkında\-ki sorulara cevap vererek işaretlemeye katkıda bulunmaya teşvik ediliyor. Tezde verilen sonuçlar gerçekleştirilen deneyin ilk on bir gününden oluşturulmuştur. Deney belirsiz bir tarihe kadar devam etmek üzere hala çalışmaktadır. Sonuçlara göre, halihazırdaki 74 soru çeşidinin iki fazdan oluşan değerlendirmesine göre yüzde 63.5'lük bir başarı oranı yakalanmıştır. Bahsi geçen soru çeşitleri derlemin yüzde 58.3'ünün biçimbilimsel çözümlemesini yapabilmektedir. Soru çeşidi sayısını 100'e çıkarmak, bu oranı yüzde 70.7'e çıkaracaktır. Zaman kısıtı ve ziyaretçi azlığından dolayı bahsedilen düzeyde bir işaretle\-me yapılamamasına rağmen, ulaşılacak başarı oranı üzerine bir tahmin yapmak gerekirse yüzde 51.4 oranı elde edilecektir. Bu işlemin, büyük bir ulusal gazetenin web sayfasında gerçekleştirildiği takdirde, iki buçuk ay içinde tamamlanacağı düşünülmekte\-dir. Bu, bu çaptaki bir işaretleme işi için göreli olarak kısa bir süredir.
Özet (Çeviri)
In most of the natural language processing tasks, state of the art systems usually rely on machine learning methods for building their mathematical models. Given that the majority of these systems employ supervised learning strategies, a corpus that is annotated for the problem area is essential. The current method for annotating a corpus is to hire several experts and make them annotate the corpus manually or -in its best practice- by using a helper software. However, this method is costly and time-consuming if not error free. We propose a method that aims to solve these problems at once. By employing a multiplayer collaborative game that is playable by ordinary people on the Internet, it seems possible to direct the covert labour force so that people can contribute by just playing a fun game. Through a game site which incorporates some functionality inherited from social networking sites, people are motivated to contribute to the annotation process by answering questions about the underlying morphological features of a target word. The results reported in the thesis are compiled from the first eleven days of the experiment which is planned to continue until an indeterminate date. It is reported that the 63.5 per cent of the actual question types are successful based on two phases. The current 74 question types cover 58.3 per cent of the corpus completely while increasing this number to only 100 types increases the coverage rate to 70.7 per cent. Due to the time constraints and the relatively low traffic to the site, we were not able to annotate the corpus completely, but we can nevertheless estimate a hypothetical rate of successful morphological disambiguation as 51.4 per cent of the whole corpus which is calculated to be completed in two and a half months if the game were to be hosted on a major web site. This is indeed a relatively short duration for a bootstrapping of this size when compared with the current methods.
Benzer Tezler
- Parts-of-speech tagging of adverbs in the kyrgyz corpus
Kırgızca derlemdeki zarfların sözcük türü olarak işaretlenmesi
AİZHAN SATYBEKOVA
Yüksek Lisans
İngilizce
2023
Mütercim-TercümanlıkKırgızistan-Türkiye Manas ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
DOÇ. DR. AİDA KASİEVA
- Türkçe cümlelerde isim tamlamalarının bulunması
Noun phrase chunking of Turkish sentences
KÜBRA ADALI
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Yazılı Türkçe dilinden Türk işaret diline (tid) makine çevirisi sistemi
Text to sign language machine translation system for Turkish
CİHAT ERYİĞİT
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HATİCE KÖSE
- 19. yüzyılda Arnavutluk'ta kullanılmış Türkçe üzerine bir dil incelemesi: Güney Arnavutluk'ta kaleme alınmış yunan harfli Türkçe Bektaşi cönkleri
A linguistic study on the Turkish used in Albania in the 19th century: the Bektashi cönks in Turkish with Greek script written in Southern Albania
FATOS DIBRA
Doktora
Türkçe
2021
Dilbilimİstanbul ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. HATİCE TÖREN
- Türkçe sözcük anlam belirsizliği giderme
Word sense disambiguation for Turkish
BAHAR İLGEN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ