Geri Dön

Utilizing weakly-supervised learning for hashtag segmentation and named entity disambiguation

Zayıf denetimli öğrenme yaklaşımı kullanarak hashtag ayrıştırma ve varlık ismi anlamlandırma

  1. Tez No: 649741
  2. Yazar: ARDA ÇELEBİ
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Doktora
  5. Konular: Bilgi ve Belge Yönetimi, Dilbilim, Dokümantasyon ve Enformasyon, Information and Records Management, Linguistics, Documentation and Information
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 202

Özet

Günümüzün yüksek başarımlı makine öğrenmesi yöntemleri başarılarını etiketlenmiş çok miktarda veri üzerinde öğrenme yapmalarına borçludur. Fakat etiketleme çok fazla zaman ve efor gerektirir. Bu tezde iki Doğal Dil İşlemesi (DDİ) alanında zayıf denetimli öğrenim yapmak için otomatik veri etiketleme yöntemi önerdik. İlk uygulama alanımız olan Hashtag Ayrıştırması, hashtag'lerin otomatik olarak işlenmesi ve anlamlandırılması için orijinal sözcüklerine bölünmesidir. Büyük bir tweet veri setinden elde edilen istatistiklere göre hashtag'leri otomatik olarak ayrıştırdık ve en güvenilir ayrıştırmaları maksimum entropi sınıflandırıcısını eğitmek için kullandık. Elle etiketli eğitim verisi kullanmadan hashtag ayrıştırma problemi için literatürdeki en yüksek doğruluk oranlarını elde edebildik. Çalıştığımız ikinci alan olan Varlık İsimlerinin Anlamlandırılmasında (VİA) amaç metinde tanınan varlık isimlerini bilgi bankasında karşılık gelen kayıtlara bağlamaktır. Bahsedilen varlığın türünü önceden tespit edersek bu bilginin VİA'da başarıyı artıracağını öngördük. Varlık türü tanımlanması için standart yaklaşımlar elle hazırlanmış tür taksonomisine ve metinde bahsi geçen varlıkların türlerinin etiketlendiği büyük miktarda veriye ihtiyaç duymaktadır. Bizim önerdiğimiz yöntem ile varlıkları değişik seviyelerde bağlamsal benzerliklerine göre kümelendirip, küme kimliklerini tür olarak varlıklara atadık. Bu sayede, tür taksonomisine olan ihtiyaç giderilirken, Wikipedia makalelerindeki varlıkları, onlara atanan türler ile işaretleyerek, tür tahminini yapacak sistem için eğitim verisini otomatik olarak oluşturduk. Tür tahminlerinin ek bilgi olarak kullanılması VİA sisteminin başarısını anlamlı seviyede artırdı. Bu tez, problemin özelliklerini dikkate alarak tasarlanan zayıf denetimli öğrenme yaklaşımlarının DDİ'de etkili bir strateji olabileceğini gösterdi.

Özet (Çeviri)

Today's high-performing machine learning algorithms learn to predict by the supervision of large amounts of human-labeled data. However, the labeling process is costly in terms of time and effort. In this thesis, we design weakly-supervised approaches, which are based on automatically labeling raw data, for two different Natural Language Processing (NLP) tasks, namely hashtag segmentation and Named Entity Disambiguation (NED). Hashtag segmentation's aim is to identify the words in the hashtags, so as to process and understand them better. We propose a heuristic to obtain automatically segmented hashtags using a large tweet corpus and use these data to train a maximum entropy classifier. State-of-the-art accuracy is achieved for hashtag segmentation without using any manually labeled training data. The target of NED, which is the second task that we address, is to link the named entity (NE) mentions in text to their corresponding records in the Knowledge Base. We hypothesize that the types of the NE mentions may provide useful clues for their correct disambiguation. The standard approaches for identifying mention types require a type taxonomy and large amounts of mentions annotated with their types. We propose a cluster-based mention typing approach, which does not require a type taxonomy or labeled mentions. This weakly-supervised approach is based on clustering the NEs in Wikipedia by using different levels of contextual information and automatically generating data for training a mention typing model. The mention type predictions lead to significant F-score improvement when incorporated to a supervised NED model. This thesis shows that designing weakly-supervised approaches by considering the underlying characteristics of the addressed problem can be an effective strategy for NLP.

Benzer Tezler

  1. Utilizing multiple instance learning for computer vision tasks

    Bilgisayarlı görü problemlerinin çoklu örnekle öğrenme ile değerlendirilmesi

    FADİME ŞENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN

    YRD. DOÇ. DR. NAZLI İKİZLER CİNBİŞ

  2. Fisher kernel based models for image classification and object localization

    Başlık çevirisi yok

    RAMAZAN GÖKBERK CİNBİŞ

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversité de Grenoble

    DR. CORDELIA SCHMID

    DR. JAKOB VERBEEK

  3. Early detection of fake news on emerging topics through weak supervision

    Yeni ortaya çıkan konular üzerinde zayıf denetim yoluyla sahte haberlerin erken tespiti

    SERHAT HAKKI AKDAĞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FEHİME NİHAN ÇİÇEKLİ

  4. Short term electricity load forecasting with deep learning

    Derin öğrenme ile kısa dönemli elektrik yük talep tahmini

    İBRAHİM YAZICI

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA

  5. Prototypes: Exemplar based video representation

    Prototipler: Örnek tabanlı video temsili

    ÖZGE YALÇINKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM AKSOY