Utilizing weakly-supervised learning for hashtag segmentation and named entity disambiguation

Zayıf denetimli öğrenme yaklaşımı kullanarak hashtag ayrıştırma ve varlık ismi anlamlandırma

PDF İndir

Tez No: 649741
Yazar: ARDA ÇELEBİ
Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez Türü: Doktora
Konular: Bilgi ve Belge Yönetimi, Dilbilim, Dokümantasyon ve Enformasyon, Information and Records Management, Linguistics, Documentation and Information
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 202

Özet

Günümüzün yüksek başarımlı makine öğrenmesi yöntemleri başarılarını etiketlenmiş çok miktarda veri üzerinde öğrenme yapmalarına borçludur. Fakat etiketleme çok fazla zaman ve efor gerektirir. Bu tezde iki Doğal Dil İşlemesi (DDİ) alanında zayıf denetimli öğrenim yapmak için otomatik veri etiketleme yöntemi önerdik. İlk uygulama alanımız olan Hashtag Ayrıştırması, hashtag'lerin otomatik olarak işlenmesi ve anlamlandırılması için orijinal sözcüklerine bölünmesidir. Büyük bir tweet veri setinden elde edilen istatistiklere göre hashtag'leri otomatik olarak ayrıştırdık ve en güvenilir ayrıştırmaları maksimum entropi sınıflandırıcısını eğitmek için kullandık. Elle etiketli eğitim verisi kullanmadan hashtag ayrıştırma problemi için literatürdeki en yüksek doğruluk oranlarını elde edebildik. Çalıştığımız ikinci alan olan Varlık İsimlerinin Anlamlandırılmasında (VİA) amaç metinde tanınan varlık isimlerini bilgi bankasında karşılık gelen kayıtlara bağlamaktır. Bahsedilen varlığın türünü önceden tespit edersek bu bilginin VİA'da başarıyı artıracağını öngördük. Varlık türü tanımlanması için standart yaklaşımlar elle hazırlanmış tür taksonomisine ve metinde bahsi geçen varlıkların türlerinin etiketlendiği büyük miktarda veriye ihtiyaç duymaktadır. Bizim önerdiğimiz yöntem ile varlıkları değişik seviyelerde bağlamsal benzerliklerine göre kümelendirip, küme kimliklerini tür olarak varlıklara atadık. Bu sayede, tür taksonomisine olan ihtiyaç giderilirken, Wikipedia makalelerindeki varlıkları, onlara atanan türler ile işaretleyerek, tür tahminini yapacak sistem için eğitim verisini otomatik olarak oluşturduk. Tür tahminlerinin ek bilgi olarak kullanılması VİA sisteminin başarısını anlamlı seviyede artırdı. Bu tez, problemin özelliklerini dikkate alarak tasarlanan zayıf denetimli öğrenme yaklaşımlarının DDİ'de etkili bir strateji olabileceğini gösterdi.

Özet (Çeviri)

Today's high-performing machine learning algorithms learn to predict by the supervision of large amounts of human-labeled data. However, the labeling process is costly in terms of time and effort. In this thesis, we design weakly-supervised approaches, which are based on automatically labeling raw data, for two different Natural Language Processing (NLP) tasks, namely hashtag segmentation and Named Entity Disambiguation (NED). Hashtag segmentation's aim is to identify the words in the hashtags, so as to process and understand them better. We propose a heuristic to obtain automatically segmented hashtags using a large tweet corpus and use these data to train a maximum entropy classifier. State-of-the-art accuracy is achieved for hashtag segmentation without using any manually labeled training data. The target of NED, which is the second task that we address, is to link the named entity (NE) mentions in text to their corresponding records in the Knowledge Base. We hypothesize that the types of the NE mentions may provide useful clues for their correct disambiguation. The standard approaches for identifying mention types require a type taxonomy and large amounts of mentions annotated with their types. We propose a cluster-based mention typing approach, which does not require a type taxonomy or labeled mentions. This weakly-supervised approach is based on clustering the NEs in Wikipedia by using different levels of contextual information and automatically generating data for training a mention typing model. The mention type predictions lead to significant F-score improvement when incorporated to a supervised NED model. This thesis shows that designing weakly-supervised approaches by considering the underlying characteristics of the addressed problem can be an effective strategy for NLP.

Benzer Tezler

Tez No
335588
Utilizing multiple instance learning for computer vision tasks
Bilgisayarlı görü problemlerinin çoklu örnekle öğrenme ile değerlendirilmesi
FADİME ŞENER
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN
YRD. DOÇ. DR. NAZLI İKİZLER CİNBİŞ
Tez No
401572
Fisher kernel based models for image classification and object localization
Başlık çevirisi yok
RAMAZAN GÖKBERK CİNBİŞ
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Université de Grenoble
DR. CORDELIA SCHMID
DR. JAKOB VERBEEK
Tez No
830779
Early detection of fake news on emerging topics through weak supervision
Yeni ortaya çıkan konular üzerinde zayıf denetim yoluyla sahte haberlerin erken tespiti
SERHAT HAKKI AKDAĞ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FEHİME NİHAN ÇİÇEKLİ
Tez No
728716
Short term electricity load forecasting with deep learning
Derin öğrenme ile kısa dönemli elektrik yük talep tahmini
İBRAHİM YAZICI
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA
Tez No
426858
Prototypes: Exemplar based video representation
Prototipler: Örnek tabanlı video temsili
ÖZGE YALÇINKAYA
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM AKSOY

Geri Dön