Using ZipF frequencies as a representativeness measure in statistical active learning of natural language
Doğal dillerin istatistiksel etkin öğrenmesinde ZipF sıklıklarının bir temsiliyet ölçüsü olarak kullanılması
- Tez No: 176790
- Danışmanlar: DOÇ. DR. HÜSEYİN CEM BOZŞAHİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Etkin öğrenme, doğal dillerin istatistiksel edinimi amacıyla kullanılan külliyatların hızlı derlenmesinde başarılı bir strateji olduğunu ispatlamıştır. Bugüne kadar bu alandaki çalışmaların büyük bir çoğunluğu, örnekler için çeşitli bilgilendiricilik ölçüleri bulma ve bunları sınamaya odaklanmıştır; fakat örnekler için temsiliyet ölçüleri etraflıca araştırılmamıştır. Bu tezde, Zipf yasasına dayandığından ötürü modelden bağımsız ve hem kuramsal hem de deneysel olarak geçerli yeni bir temsiliyet ölçüsünü ortaya koymaktayız. Geniş kapsamlı bir ayrıştırıcı ile WSJ külliyatı üzerinde yapılan deneyler, ortaya koyduğumuz temsiliyet ölçüsünün, bilinen bilgilendiricilik ölçülerinin çoğuyla kullanıldığında daha önce ortaya atılmış temsiliyet ölçülerinden daha iyi sonuç verdiğini göstermektedir.
Özet (Çeviri)
Active learning has proven to be a successful strategy in quick development of corpora to be used in statistical induction of natural language. A vast majority of studies in this field has concentrated on finding and testing various informativeness measures for samples; however, representativeness measures for samples have not been thoroughly studied. In this thesis, we introduce a novel representativeness measure which is, being based on Zipf s law, model-independent and validated both theoretically and empirically. Experiments conducted on WSJ corpus with a wide-coverage parser show that our representativeness measure leads to better performance than previously introduced representativeness measures when used with most of the known informativeness measures.
Benzer Tezler
- Disclosing zipfian regularities in semantic breadth of words via multimodal gaussian embeddings
Çok modlu gauss kelime temsilleri ile sözcüklerin anlamsal genişliğindeki zipf'sel düzenliliklerin ortaya çıkarımı
FURKAN ŞAHİNUÇ
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYKUT KOÇ
PROF. DR. MEMDUH HALDUN ÖZAKTAŞ
- Applying and comparing smoothing techniques to contemporary printed Turkish
Güncel basılı Türkçe'ye düzeltme tekniklerinin uygulanması ve karşılaştırılması
GÖKHAN DALKILIÇ
Doktora
İngilizce
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YALÇIN ÇEBİ
- İstanbul'daki yabancı sermayeli firmaların mekansal dağılımının sıra büyüklük kuralı (Rank Sıze Rule) ile incelenmesi
Investigating the spatial distribution of the foreign firms in istanbul by the Rank Size Rule
MÜGE ILGAZ YOLCU
Yüksek Lisans
Türkçe
2014
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. ŞEVKİYE ŞENCE TÜRK
- Türkçenin bitişkenlik derecesinin istatistiksel verilerle belirlenmesi
Measurement of the degree of agglutination of Turkish language with statistical methods
AYLA SAVAŞÇI
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. BAHAR KARAOĞLAN
- Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi
A document compression system based on the morphology of the Turkish language
BANU DİRİ
Doktora
Türkçe
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. M. YAHYA KARSLIGİL