Analyzing crowd workers' learning behavior to obtain more reliable labels

Kitle çalışanlarının öğrenme tutumlarının daha güvenilir etiketler elde etmek içinanaliz edilmesi

PDF İndir

Tez No: 509176
Yazar: STEFAN RAEBIGER
Danışmanlar: PROF. DR. YÜCEL SAYGIN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2018
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Belirtilmemiş.
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 136

Özet

Kitle-kaynak, veri kümeleri için yüksek kaliteli etiketleri makul maliyetler ile elde etmek için kullanılan popüler bir yöntemdir. Bu kitle-kaynak yöntemiyle etiketlenen veri setleri, sonrasında gözetimli veya yarı-gözetimli sınıflayıcıların eğitimi için kullanılır. Bu da, bu prosedür sonucunda oluşan sınıflayıcı performanslarının kitle çalışanlarının atadığı etiketlerin kalitesi/güvenirliliğine bağlı olduğu anlamına gelmektedir - düşük güvenirlilik genellikle yetersiz çalışan sınıflayıcılara sebep olur. Pratikte, kitle-kaynak veri kümelerin-deki etiket güvenirliliği, eldeki etiketleme işinin zorluğu, katılımcı kitle çalışanlarının özellikleri ve motivasyonu, veya etiketlenecek dokümanların zorluğu gibi birçok faktöre bağlı olarak büyük ölçüde değişkenlik gösterir. Bu bahsedilen faktörlerin etiketlerin kalitesine etkisini hafifletmek için ise, verilen kitle-kaynak görevini tanımına uygun olarak yerine getirmeyen (spammer) çalışanları, etiketleme sürelerine bakarak belirlemek ve gönderdikleri etiketleri silmek gibi farklı yaklaşımlar mevcuttur. Bu tez, kitle-kaynak yönteminden elde edilen etiket güvenirliliğini iyileştirerek mevcut yaklaşımları tamamlamak amacıyla, etiket güvenirliliği konusunu ilk olarak, gerçek bir etiketleme işi süresince kitle çalışanlarının etiket güvenirliliğinin zamanla nasıl geliş-tiği, ve ikinci olarak etiketlerin etiketlenecek dokümanların zorluğundan nasıl etkilendiği olmak üzere iki açıdan incelemektedir. Kitle-kaynak yöntemi ile etiketlenen veri seti üzerinde yaptığımız analizler sonucunda, kitle çalışanlarının etiket güvenirliliğinin belli sayıda dokümanı etiketledikten son-ra arttığını gözlemledik. Bunun sonucunda ve daha zor dokümanlar için etiket güvenirli-liğinin daha düşük olması bulgusundan yola çıkarak, etiket güvenirliliğini iyileştirmek için yeni bir kitle-kaynak yöntembilimi önermekteyiz. Önerdiğimiz bu metodolojide, kitle-kaynak yöntemiyle etiketlenecek olan elimizdeki etiketsiz veri setini kullanarak, öncelikle küçük bir başlangıç seti üzerinde bir zorluk tahmin edici (predictor) eğitip, sonrasında bu tahmin ediciden yararlanarak başlangıç seti dışında kalan dokümanların zorluk derecesini tahmin etmeyi hedefliyoruz. Bu prosedür, eğitilen tahmin edicinin performansı yeterli seviyeye ulaşana kadar birçok kez tekrarlanabilir. Son olarak, bu adımlar sonucunda elde edilen tahmin edici kullanılarak tespit edilen zor dokümanlar, veri setinin geri kalanından ayrılır ve sadece bu veri kümesinde kalan dokümanlar kitle-kaynak yöntemi ile etiketlenir. Deney sonuçlarımız da, bu yöntemin kitle-kaynak yöntemi ile elde edilen etiketlerin güvenirliliği üzerinde etkili olduğunu göstermektedir.

Özet (Çeviri)

Crowdsourcing is a popular means to obtain high-quality labels for datasets at moderate costs. These crowdsourced datasets are then used for training supervised or semi-supervised predictors. This implies that the performance of the resulting predictors depends on the quality/reliability of the labels that crowd workers assigned -- low reliability usually leads to poorly performing predictors. In practice, label reliability in crowdsourced datasets varies substantially depending on multiple factors such as the difficulty of the labeling task at hand, the characteristics and motivation of the participating crowd workers, or the difficulty of the documents to be labeled. Different approaches exist to mitigate the effects of the aforementioned factors, for example by identifying spammers based on their annotation times and removing their submitted labels. To complement existing approaches for improving label reliability in crowdsourcing, this thesis explores label reliability from two perspectives: first, how the label reliability of crowd workers develops over time during an actual labeling task, and second how it is affected by the difficulty of the documents to be labeled. We find that label reliability of crowd workers increases after they labeled a certain number of documents. Motivated by our finding that the label reliability for more difficult documents is lower, we propose a new crowdsourcing methodology to improve label reliability: given an unlabeled dataset to be crowdsourced, we first train a difficulty predictor on a small seed set and the predictor then estimates the difficulty level in the remaining unlabeled documents. This procedure might be repeated multiple times until the performance of the difficulty predictor is sufficient. Ultimately, difficult documents are separated from the rest, so that only the latter documents are crowdsourced. Our experiments demonstrate the feasibility of this method.

Benzer Tezler

Tez No
409174
Cost of quality for crowdsourcing management
Kitle kaynaklı çalışma yönetimi için kalite maliyeti
YASER DENİZ İREN
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. SEMİH BİLGEN
Tez No
638350
Geri dönüştürülebilir malzemelerle barınma ihtiyacına yönelik düşük bütçeli mimari çözümler
Low cost architectural solutions for housing with using recyclable materials
ELİF DURMAZ
Yüksek Lisans
Türkçe
2020
Mimarlık Hacettepe Üniversitesi
İç Mimarlık ve Çevre Tasarımı Ana Bilim Dalı
DOÇ. DR. EMİNE NUR OZANÖZGÜ
Tez No
875892
Berilyum(II) iyonuna karşı seçici ve hassas yeni kimyasal sensörlerin geliştirilmesi
Development of selective and sensitive new chemical sensors for Beryllium(II) ion
ÖZGÜR YAVUZ
Doktora
Türkçe
2024
Kimya İstanbul Teknik Üniversitesi
Kimya Ana Bilim Dalı
PROF. DR. İSMAİL YILMAZ
Tez No
313887
Automated crowd behavior analysis for video surveillance applications
Video gözetleme uygulamaları için otomatik kalabalık davranışı analizi
PÜREN GÜLER
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
YRD. DOÇ. DR. ALPTEKİN TEMİZEL
YRD. DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL
Tez No
409146
Anomaly detection using sparse features and spatio-temporal hidden Markov model for pedestrian zone video surveillance
Seyrek öznitelikler ve uzay-zamansal gizli Markov modelleri kullanılarak yaya bölgelerinde video gözetleme için aykırılık tespiti
AYŞE ELVAN GÜNDÜZ
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
YRD. DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL
DOÇ. DR. ALPTEKİN TEMİZEL

Geri Dön