Crowd-labeling for continuous-valued annotations
Sürekli değerli işaretlemeler için kitle etiketleme
- Tez No: 522141
- Danışmanlar: PROF. DR. LALE AKARUN ERSOY
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 182
Özet
Hızlı ve ucuz veri işaretleme, makine öğrenmesinin son on yılda birçok alanda aşırı rağbet görmesiyle birlikte daha da önemli bir hale geldi. Kitle kaynak servislerinin çıkışı, araştırma yönünü `kitlelerin bilgeliğini' kullanmaya itti. Kitle kaynak temelli etiket toplama işlemini kitle etiketleme olarak adlandırıyoruz. Bu tezde, sürekli değerli etiketler için kitle oydaşım kestirimi üzerine odaklanıyoruz. Maalesef, kötü niyetli veya dikkatsiz işaretçiler, oydaşım etiketinin kalitesine ve güvenilirliğine kötü etki etmektedir. Bundan ötürü, değişik işaretçi davranışlarını dikkate alan Bayesçi modeller geliştiriyoruz ve modellerimizi değerlendirmek için iki yeni kitle işaretli veri kümesi tanıtıyoruz. Kaliteli oydaşım etiketi kestirimi, işaretçi ve işaretlenecek örnek seçiminin akıllı bir şekilde yapılmasını gerektirir. Zaman ve bütçe kısıtlarından dolayı, bu seçimleri işaret toplama sırasında yapmak önemlidir. Bu nedenle, sürekli değerli kitle işaretlerinden aktif bir şekilde etiket kestirimi yapan bir aktif kitle etiketleme yaklaşımı öneriyoruz. Yöntemimiz, bilinmeyen parametreleri olan işaretçi modellerine dayalıdır ve sıralı, ikili veya sürekli değerli etiketlere ulaşabilmek için Bayesçi çıkarım kullanır. İşaret istemek için işaretçi ve işaretlenecek örnek ikilisini seçmede kullanılan sıralama fonksiyonları tanıtıyoruz. Ek olarak, işaretçi baskınlığını engellemek için cezalandırma yöntemi öneriyoruz, sisteme yeni işaretçiler eklemek için keşfetme ve kullanma dengesini araştırıyoruz ve oydaşım etiketi kalitesine göre aktif işaretlemeyi durdurma kriteri koymanın etkilerini inceliyoruz. Kıstas veri kümelerindeki deneysel sonuçlar, yöntemimizin kitle etiketleme problemine bütçeye ve zamana duyarlı bir çözüm sağladığını göstermektedir. Son olarak, çok değişkenli işaretlemelerdeki nitelikler arası bağıntıları dikkate alan çok değişkenli bir model tanıtıyoruz ve hakkındaki ilk gözlemlerimizi sunuyoruz.
Özet (Çeviri)
As machine learning gained immense popularity across a wide variety of domains in the last decade, it has become more important than ever to have fast and inexpensive ways to annotate vast amounts of data. With the emergence of crowdsourcing services, the research direction has gravitated toward putting `the wisdom of crowds' to use. We call the process of crowdsourcing based label collection crowd-labeling. In this thesis, we focus on crowd consensus estimation of continuous-valued labels. Unfortunately, spammers and inattentive annotators pose a threat to the quality and trustworthiness of the consensus. Thus, we develop Bayesian models taking different annotator behaviors into account and introduce two crowd-labeled datasets for evaluating our models. High quality consensus estimation requires a meticulous choice of the candidate annotator and the sample in need of a new annotation. Due to time and budget limitations, it is beneficial to make this choice while collecting the annotations. To this end, we propose an active crowd-labeling approach for actively estimating consensus from continuous-valued crowd annotations. Our method is based on annotator models with unknown parameters, and Bayesian inference is employed to reach a consensus in the form of ordinal, binary, or continuous values. We introduce ranking functions for choosing the candidate annotator and sample pair for requesting an annotation. In addition, we propose a penalizing method for preventing annotator domination, investigate the explore-exploit trade-off for incorporating new annotators into the system, and study the effects of inducing a stopping criterion based on consensus quality. Experimental results on the benchmark datasets suggest that our method provides a budget and time-sensitive solution to the crowd-labeling problem. Finally, we introduce a multivariate model incorporating cross attribute correlations in multivariate annotations and present preliminary observations.
Benzer Tezler
- Building of Turkish propbank and semantic role labeling of Turkish
Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi
GÖZDE GÜL ŞAHİN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Analyzing crowd workers' learning behavior to obtain more reliable labels
Kitle çalışanlarının öğrenme tutumlarının daha güvenilir etiketler elde etmek içinanaliz edilmesi
STEFAN RAEBIGER
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiPROF. DR. YÜCEL SAYGIN
- Türkçe için sahte haber tespit modelinin oluşturulması
A fake news detection model for Turkish language
UĞUR MERTOĞLU
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURKAY GENÇ
PROF. DR. HAYRİ SEVER
- Konik ışınlı bilgisayarlı tomografi görüntülerinin yapay zekâ ile değerlendirilmesi
Evaluation of cone-beam computed tomography images with artificial intelligence
TUĞBA ARI
Diş Hekimliği Uzmanlık
Türkçe
2022
Diş HekimliğiEskişehir Osmangazi ÜniversitesiAğız, Diş ve Çene Radyolojisi Ana Bilim Dalı
DOÇ. DR. İBRAHİM ŞEVKİ BAYRAKDAR
- Kalabalık davranış analizi; modellenmesi, anormal durum tespiti ve sınıflandırılması
Crowd behaviour analysis; modelling, abnormal event detection and classification
MURAT AKPULAT
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT EKİNCİ