Geri Dön

Analyzing crowd workers' learning behavior to obtain more reliable labels

Kitle çalışanlarının öğrenme tutumlarının daha güvenilir etiketler elde etmek içinanaliz edilmesi

  1. Tez No: 509176
  2. Yazar: STEFAN RAEBIGER
  3. Danışmanlar: PROF. DR. YÜCEL SAYGIN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Belirtilmemiş.
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 136

Özet

Kitle-kaynak, veri kümeleri için yüksek kaliteli etiketleri makul maliyetler ile elde etmek için kullanılan popüler bir yöntemdir. Bu kitle-kaynak yöntemiyle etiketlenen veri setleri, sonrasında gözetimli veya yarı-gözetimli sınıflayıcıların eğitimi için kullanılır. Bu da, bu prosedür sonucunda oluşan sınıflayıcı performanslarının kitle çalışanlarının atadığı etiketlerin kalitesi/güvenirliliğine bağlı olduğu anlamına gelmektedir - düşük güvenirlilik genellikle yetersiz çalışan sınıflayıcılara sebep olur. Pratikte, kitle-kaynak veri kümelerin-deki etiket güvenirliliği, eldeki etiketleme işinin zorluğu, katılımcı kitle çalışanlarının özellikleri ve motivasyonu, veya etiketlenecek dokümanların zorluğu gibi birçok faktöre bağlı olarak büyük ölçüde değişkenlik gösterir. Bu bahsedilen faktörlerin etiketlerin kalitesine etkisini hafifletmek için ise, verilen kitle-kaynak görevini tanımına uygun olarak yerine getirmeyen (spammer) çalışanları, etiketleme sürelerine bakarak belirlemek ve gönderdikleri etiketleri silmek gibi farklı yaklaşımlar mevcuttur. Bu tez, kitle-kaynak yönteminden elde edilen etiket güvenirliliğini iyileştirerek mevcut yaklaşımları tamamlamak amacıyla, etiket güvenirliliği konusunu ilk olarak, gerçek bir etiketleme işi süresince kitle çalışanlarının etiket güvenirliliğinin zamanla nasıl geliş-tiği, ve ikinci olarak etiketlerin etiketlenecek dokümanların zorluğundan nasıl etkilendiği olmak üzere iki açıdan incelemektedir. Kitle-kaynak yöntemi ile etiketlenen veri seti üzerinde yaptığımız analizler sonucunda, kitle çalışanlarının etiket güvenirliliğinin belli sayıda dokümanı etiketledikten son-ra arttığını gözlemledik. Bunun sonucunda ve daha zor dokümanlar için etiket güvenirli-liğinin daha düşük olması bulgusundan yola çıkarak, etiket güvenirliliğini iyileştirmek için yeni bir kitle-kaynak yöntembilimi önermekteyiz. Önerdiğimiz bu metodolojide, kitle-kaynak yöntemiyle etiketlenecek olan elimizdeki etiketsiz veri setini kullanarak, öncelikle küçük bir başlangıç seti üzerinde bir zorluk tahmin edici (predictor) eğitip, sonrasında bu tahmin ediciden yararlanarak başlangıç seti dışında kalan dokümanların zorluk derecesini tahmin etmeyi hedefliyoruz. Bu prosedür, eğitilen tahmin edicinin performansı yeterli seviyeye ulaşana kadar birçok kez tekrarlanabilir. Son olarak, bu adımlar sonucunda elde edilen tahmin edici kullanılarak tespit edilen zor dokümanlar, veri setinin geri kalanından ayrılır ve sadece bu veri kümesinde kalan dokümanlar kitle-kaynak yöntemi ile etiketlenir. Deney sonuçlarımız da, bu yöntemin kitle-kaynak yöntemi ile elde edilen etiketlerin güvenirliliği üzerinde etkili olduğunu göstermektedir.

Özet (Çeviri)

Crowdsourcing is a popular means to obtain high-quality labels for datasets at moderate costs. These crowdsourced datasets are then used for training supervised or semi-supervised predictors. This implies that the performance of the resulting predictors depends on the quality/reliability of the labels that crowd workers assigned -- low reliability usually leads to poorly performing predictors. In practice, label reliability in crowdsourced datasets varies substantially depending on multiple factors such as the difficulty of the labeling task at hand, the characteristics and motivation of the participating crowd workers, or the difficulty of the documents to be labeled. Different approaches exist to mitigate the effects of the aforementioned factors, for example by identifying spammers based on their annotation times and removing their submitted labels. To complement existing approaches for improving label reliability in crowdsourcing, this thesis explores label reliability from two perspectives: first, how the label reliability of crowd workers develops over time during an actual labeling task, and second how it is affected by the difficulty of the documents to be labeled. We find that label reliability of crowd workers increases after they labeled a certain number of documents. Motivated by our finding that the label reliability for more difficult documents is lower, we propose a new crowdsourcing methodology to improve label reliability: given an unlabeled dataset to be crowdsourced, we first train a difficulty predictor on a small seed set and the predictor then estimates the difficulty level in the remaining unlabeled documents. This procedure might be repeated multiple times until the performance of the difficulty predictor is sufficient. Ultimately, difficult documents are separated from the rest, so that only the latter documents are crowdsourced. Our experiments demonstrate the feasibility of this method.

Benzer Tezler

  1. Cost of quality for crowdsourcing management

    Kitle kaynaklı çalışma yönetimi için kalite maliyeti

    YASER DENİZ İREN

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. SEMİH BİLGEN

  2. Geri dönüştürülebilir malzemelerle barınma ihtiyacına yönelik düşük bütçeli mimari çözümler

    Low cost architectural solutions for housing with using recyclable materials

    ELİF DURMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    MimarlıkHacettepe Üniversitesi

    İç Mimarlık ve Çevre Tasarımı Ana Bilim Dalı

    DOÇ. DR. EMİNE NUR OZANÖZGÜ

  3. Berilyum(II) iyonuna karşı seçici ve hassas yeni kimyasal sensörlerin geliştirilmesi

    Development of selective and sensitive new chemical sensors for Beryllium(II) ion

    ÖZGÜR YAVUZ

    Doktora

    Türkçe

    Türkçe

    2024

    Kimyaİstanbul Teknik Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. İSMAİL YILMAZ

  4. Automated crowd behavior analysis for video surveillance applications

    Video gözetleme uygulamaları için otomatik kalabalık davranışı analizi

    PÜREN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    YRD. DOÇ. DR. ALPTEKİN TEMİZEL

    YRD. DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL

  5. Anomaly detection using sparse features and spatio-temporal hidden Markov model for pedestrian zone video surveillance

    Seyrek öznitelikler ve uzay-zamansal gizli Markov modelleri kullanılarak yaya bölgelerinde video gözetleme için aykırılık tespiti

    AYŞE ELVAN GÜNDÜZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    YRD. DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL

    DOÇ. DR. ALPTEKİN TEMİZEL