Multi-view short-text classification using knowledge bases
Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma
- Tez No: 436049
- Danışmanlar: YRD. DOÇ. DR. CEMAL OKAN ŞAKAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 61
Özet
Dijitalleşme, internet ortamında içerik paylaşımı ve üretiminin son yıllardaki büyük artışı, otomatik metin sınıflandırmanın daha popüler olasına sebebiyet verdi. Makine öğrenmesi algoritmaları, çeşitli tiplerdeki dokümanların sınıflandırılması için yaygın olarak kullanılmaktadır. Farklı alanlara ait çeşitli veri kümeleri üzerinde doküman sınıflandırma algoritmalarının başarısı gösterilmiş olsa da, normal uzunluktaki dokümanları işlemek için kullanılan geleneksel gösterim ve sınıflandırma yöntemleri e-ticaret sitelerinde bulunan müşteri yorumları, microblogging platformlarındaki kişisel paylaşımlar veya haber sitelerindeki manşetler gibi kısa metinlerin sınıflandırılmasında başarısız olmaktadır. Bu yüzden, kısa metinleri işlemek için daha sofistike bir algoritmaya duyulan ihtiyaç artmaktadır. Geleneksel kelime torbası gösterimi kısa metin dokümanlarına uygulandığında oldukça seyrek veri matrisleri ortaya çıkmakta ve bu gösterim genellenebilir sınıflandırma ve kümeleme modelleri elde etmek için yeterli miktarda bilgiyi bulundurmamaktadır. Aynı zamanda, her gün üretilen milyonlarca kısa metni dikkate aldığımızda, işaretlenmemiş bu verileri öğrenme fazında veri kümesine dahil etmek için yarı gözetimli öğrenme modellerine olan ihtiyaç artmaktadır. Bu tezde, kısa metinleri harici bilgi tabanı kullanarak zenginleştirip çoklu görüntü üreten ve bu görüntülerin tahminlerini, işaretlenmemiş örnekleri öğrenme fazına entegre etmekte kullanan yarı gözetimli öğrenme modeli önerilmektedir. Türkçe kısa metinlerden oluşan deneysel bir veri kümesi kullanılmaktadır. Sonuçlar, önerilen metodun özellikle az sayıda örneğe sahip eğitim kümelerinde, klasik kelime torbası vektör gösterimine oranla başarıyı artırdığını göstermektedir.
Özet (Çeviri)
Automated text classification becomes more popular in recent years due to great increase in digitalization, content sharing and generation in the internet community. Machine learning algorithms are commonly used to classify various kinds of documents. Although the success of algorithms in document classification have been shown on various datasets from different domains, the traditional representation and classification approaches used to process normal-length documents fail in processing short-text messages such as customer reviews in e-shopping websites, personal updates in microblogging sites, or headlines in news portals. Therefore, there is an increasing need for more sophisticated algorithms to process short-texts. The traditional Bag-of-words representation when used for short-text documents results in very sparse data matrices that do not contain sufficient amount of information to obtain generalizable classification and clustering models. Besides, considering that millions of short-texts are generated every day, there is an increasing need for semi-supervised models to incorporate these unlabeled samples to the training phase. In this thesis, a semi-supervised learning model is proposed which is based on generating multiple views by enriching the short-texts using knowledge bases and then combining the predictions of these views to integrate the unlabeled samples to the training phase incrementally. An experimental dataset consisting of Turkish short-text is used. The results show that the proposed method increases the accuracy compared to classical bag-of-words vector representation especially for small sample-sized training sets.
Benzer Tezler
- Kurumsal kaynak planlama yazılımlarında yapay zeka teknikleri kullanılarak kullanıcı destek sistemine yönelik model tasarımı ve geliştirilmesi
Model design and development for user support system using artificial intelligence techniques in enterprise resource planning software
HAKAN AŞAN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. VAHAP TECİM
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Көркөм фильмдердеги тарыхыйреалияларды которуу маселелери(«эртугрул» көп сериалдуу фильмининкыргызча котормосунун негизинде)
Filmlerdeki tarihi kültürel öğeleri aktarma sorunları («Diriliş Ertuğrul» dizisinin Kırgızca çevirisinin örneğinde)
BAYALİN KASIMALİ UULU
Yüksek Lisans
Kırgızca
2023
Mütercim-TercümanlıkKırgızistan-Türkiye Manas ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KALİYA KULALİYEVA
- Televizyon dizilerinde kültürel temsiller: Mardin dizileri örneği
Représentations culturelles dans les séries télévisées: Exemple de les séries télévisées de Mardin
SEZER AHMET KINA
Yüksek Lisans
Türkçe
2020
Radyo-TelevizyonGalatasaray ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ECE VİTRİNEL