Geri Dön

Deyim derlemi oluşturmak için oyunlaştırılmış kitle kaynak kullanımı

Gamified crowdsourcing for idiom corpora construction

  1. Tez No: 737883
  2. Yazar: ALİ ŞENTAŞ
  3. Danışmanlar: DOÇ. DR. GÜLŞEN ERYİĞİT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 101

Özet

Deyimleri öğrenmek dil öğrenimindeki en zorlu süreçlerden biri olarak görülmektedir. Bunun temel sebeplerinin başında çoğu zaman anlamın deyimi oluşturan kelimelerin anlamları kullanılarak çıkarılamaması bulunmaktadır. İkinci bir problem ise deyimi oluşturulan kelimelerin genelde yan yana gelmesi fakat bazı durumlarda bu kelimeler arasına başka kelimeler girerek ayrılabilmesidir. Bu sorun makine çevirisi ve bağlılık ayrıştırması gibi doğal dil işleme görevlerinde varlığını hissettirmektedir. Deyimlerin kullanımı makine çevirisinde hatalı sonuçlara sebep olmakla beraber, çeviri yaparken deyim bilgisini kullanan sistemler çok daha başarılı sonuçlar üretmektedir. Kaliteli kullanım örneklerinin eksikliği hem dil öğrenenler için hem de doğal dil işleme makine öğrenmesi sistemlerinin eğitiminde hissedilmekte ve bu da zorluğu hem öğrenciler hem de araştırmacılar için daha da artırmaktadır. Bu tezde deyim kullanımı örnekleri toplamak için çok oyunculu bir oyun geliştirilmiştir. Oyun bir mesajlaşma botu olarak geliştirilmiş olup dil öğrenenler ve deyim tanıma sistemleri üzerinde çalışan araştırmacıların kullanması için bir kaynak oluşturmak amaçlanmıştır. Veri toplamak için anadili hedef dil olan oyuncuların kullanım örnekleri ekleyebileceği ve yine aynı oyuncuların birbirlerinin gönderdiği örnekleri oylayabileceği bir etkileşim sistemi tasarlanmıştır. Oyuncular tüm bunları yaparken aynı zamanda çeşitli oyunlaştırma teşvikleri ile birbirleri arasında rekabet ortamında bulunup oyunu oynarken aynı zamanda deyim derlemi oluşturmuşlardır. Kullanılan oyunlaştırma teşviklerinin etkileri gözlenmiş ve teşvikler oyuncuların geri bildirimine göre şekillendirilmiştir. Literatürde çokça kullanılan kitle işleme yöntemiyle veri etiketleme çalışmalarının aksine alanda bir ilk olarak kitle oluşturma ve kitle oylama yöntemleri deyim derleri oluşturulmak için kullanılmıştır. Etiketleyicilerin elle etiketleme yaptığı ve bazen kitleyi doğrulamak için kullandığı geleneksel veri etiketleme yöntemlerin aksine kitle veri oluşturmak ve kalitesini kontrol etmek için kullanılmış ve bu şekilde derlem oluşturma işlerinin hızlandırılması amaçlanmıştır. Kitlenin davranışları çeşitli oyunlaştırma teşvikleri altında incelenmiş ve sistem bu verilere göre değiştirilmiştir. Oyun dilden bağımsız olarak geliştirilip Türkçe ve İtalyanca dilleri için otuz iki günlük süre boyunca, İngilizce için ise 21 gün boyunca açık tutulmuştur. Oyunun bitimini takiben oluşan derlemler dilbilimciler tarafında incelenmiş ve dil öğreniminde ve sözlüklerde kullanıma yatkın olduğuna kanaat getirilmiştir. Dilbilimcilerin ve kitlenin oylarının birbiri ile hizalı olduğu görülmüş ve bu şekilde kitlenin kaliteli ve kötü örnekleri saptamak için kullanıbileceği sonucuna varılmıştır. Bununla beraber toplanan derlemde aynı zamanda çeşitli deyim tanıma makine öğrenmesi modelleri eğitilip test edilmiş ve başarıları ölçülmüştür. Sonuçlar geliştirilen sistemin derlem toplamada etkili bir araç olarak kullanılabileceğini göstermiştir. Bir kitle kaynak derlem toplama sistemi olduğu halde tasarlanan oyun oyuncular tarafından eğlenceli ve faydalı bulunmuş olup sistemin birçok dilde deyim derlemi oluşturma çalışmalarını hızlandırabileceği ve dil öğrenenler, makine öğrenmesi sistemleri ve sözlükler için deyim kullanım örnekleri kaynağı oluşturmada kullanım potansiyeli olduğu gösterilmiştir.

Özet (Çeviri)

Learning idioms is one of the toughest challenges in second language learning. This is mainly due to one of the most defining characteristics of an idiom, which is non-composionality; most of the time meaning of the whole expression cannot be deduced by meaning of its components. For example the idiom \textit{``spill the beans''}, meaning \textit{``to give away a secret''} cannot be understood by a language learner by the meanings of \textit{``spill''} and \textit{``bean''} alone. This is also problematic in the case of machine translation which is a research topic under natural language processing heavily affected by multi-word expressions. It's been shown that machine translation systems taking the multi-word expression and idiom information into account as input data perform better than those who don't. This shows that processing and extracting this information is immensely valuable for such systems and for other research areas. Lack of quality usage samples is also negatively affecting the experience of second language learners as well as researchers studying machine learning research under natural language processing. In this thesis, a multiplayer game for collecting idiom usage samples is implemented. The game is implemented as a messaging bot and intended to be used as a baseline crowdsourced dataset creation tool for the researchers to use and it's used to collect a corpus of idiom usage samples. To collect data an interaction system is designed for native language players to enter new usage samples to the system and rate other players entries while competing with each other in an asynchronous multiplayer game setting. The game is played each day for a different idiom and each day players are expected to send idiomatic and literal usage samples for that day's idioms. Several gamification elements are implemented and tested to analyze player interactions and motivations. These elements include scoreboards, from which the users can see their standings and check how much points are required to outperform other players as well as achievements which motivate players to do specific tasks. Many notifications are sent to the players throught the day informing them about that day's idiom, their standings in the scoreboard and when an other player likes their examples to motivate them come back to the game and enter more examples by playing more. With all these affordances, the players played the game and the Dodiom idiom corpus is collected. Unlike the traditional data collection methods in the literature, this work represents a first in idiom corpus collection using crowd-sourcing and crowd-rating techniques. Instead of manually annotated sentences collected from various text resources such as newspapers and online articles and using the crowd as validators, the crowd is used for both creating the corpus and rating the samples to assess the quality of the collected data. This method of crowdsourcing is intended to speed up the corpus creation process. Behavior of the crowd is monitored and the game is further improved according to the reaction of the crowd to specific gamification affordances. Main interactions of the game were sending usage samples and reviewing the samples sent by other players. Both are needed to create a high quality corpus so the users are incentivized to do both actions. After an iterative design process and monitoring the crowds engagement with the system, the scoring system is finalized. In the final version, in order to get points the players' samples had to be liked by other players. Each like and dislike also gave the players some amount of points (which was increased in happy hours) to incentivize them to rate examples. The players with the highest quality examples that are liked by other players ended the day as that days champions. As additional incentives, gift cards are used to increase player engagement which proved to be very effective. In the first 16 days of the game, only the gamification affordances mentioned above are included, for the last 16 days the monetary rewards are also added and the effects of this change is analyzed. For rewards, D\&R book store gift cards worth of 25 Turkish Liras are given for Turkish and 5 Euro Amazon gift cards for Italian are sent each day to that day's champions. The period which the gift cards are added as an additional incentive saw a noticable increase in player counts and engagement, compared to the first two weeks of play without gift cards. Another difference between the periods was in the period without gift cards, the player counts followed a decline and near a handful of players at the end were playing the game whereas in the period with gift cards daily player count followed a constant rate. The game is developed with multi language support in mind and it's been played for both Turkish and Italian languages for 32 days. Following the end of this 32 day period the collected corpora was analyzed by linguists and found to be on par with the standards of current language teaching materials. The ratings of the crowd are also aligned with the ratings of the linguists, which showed the crowd could be used to determine the quality of the samples and weed out the bad ones. In order to do these analyses, 3 linguists rated 300 examples randomly selected from both Turkish and Italian corpora and manually rated their quality as well as whether they satisfy several predefined criteria such as wrong category, low context, and vulgar language to determine the category. MWE and more specifically idiom identification is a research area under machine learning for natural language processing. One of the most prominent machine learning models in current literature are the Bidirectional LSTM networks followed by a CRF layer. This architecture is commonly referred as BiLSTM-CRF networks. The collected corpus is also used to train BiLSTM-CRF networks and the performance of the resulting models are analyzed. As input, Fasttext embeddings of the tokens are fed into the network and for output class labels encoded in three class IOB formats are expected. The three class labels are I for idioms and L for literal meaning for each token in a sentence and O (outside) for all others. In the end models learned to differentiate between idioms and literal usages. Other analyses are also done on the corpus quality, by filtering the corpus by user ratings the models are trained on several iterations of rating thresholds and the results are reported for each iteration. It's shown that test results for the models learnt from fewer but higher quality samples were similar to the ones trained using the whole corpora. The game is announced from LinkedIn and Twitter by influencers of each language. They were the main platforms where the crowd is reached according to the answers of the participants to the survey which is conducted in the last few days of the game. The participants also sent their opinions as well as suggestions for further development. The game is found to be fun and useful by most participants, while some had negative feedback about the notification frequency and scoring system. The crowd for Turkish play was AI oriented people while the Italian players were mostly students, teachers and translators and were a bit younger. Players are informed from the start that they were creating a corpus and improving the quality of NLP research and participants expressed that one of the main reasons they played the game was to help the NLP studies. They also liked the aspect of learning new idioms every day and trying to come up with literal usage samples were challenging and fun. The results showed that the implemented system can be considered effective tool for corpus collection. For a crowdsourcing system, it's found to be a fun and useful game by the players. The baseline system implemented and run for idiom corpus collection can further speed up the process of corpus creation for other languages and in other areas of research. It's also shown that the created corpus is on par with the current human annotated corpora and the samples have potential to be used by second language learners, lexicographic resources as well as to train machine learning models.

Benzer Tezler

  1. Haber bültenlerindeki söz varlığı üzerine bir araştırma

    A survey about the vocabulary of the newsletter

    BÜLENT KAHRAMAN ÇOLAKOĞLU

    Doktora

    Türkçe

    Türkçe

    2021

    DilbilimGazi Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    PROF. DR. GIYASETTİN AYTAŞ

  2. Geçişken mekan arayışı ' James Turrell örneği'

    Exploration of transient space ' a case study of James Turrell '

    ECE DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Güzel SanatlarMimar Sinan Güzel Sanatlar Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. AYLA FATMA ANTEL

  3. Biyomimetik bina kabukları: Bir meta-analiz

    Biomimetic building envelopes: A meta-analysis

    ESRA NUR ERŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. İKBAL ÇETİNER

  4. Köroğlu Destanı'nda 'seyislik, sınçılık, sayapkerlik' ve günümüz Kırgızistan'ındaki uygulamaları

    Көрoглу дастанындагы 'сынчылык, саяпкерлик' жана азыркы кыргызстанда практикада колдонулушу

    ATİLLA ARABACI

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas Üniversitesi

    Türkoloji Ana Bilim Dalı

    DR. ULANBEK ALİMOV

  5. Âşık Sıdkî Baba'nın hayatı eserleri edebi şahsiyeti ve yaşayan mirası

    Ashiq Sidkî Baba's life, works, literary personality and living legacy

    BAHATTİN ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Halk Bilimi (Folklor)Ankara Hacı Bayram Veli Üniversitesi

    Türk Halk Bilimi Ana Bilim Dalı

    DOÇ. DR. SELCAN GÜRÇAYIR TEKE