Multi-view short-text classification using knowledge bases

Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma

PDF İndir

Tez No: 436049
Yazar: MERT ÇALIŞAN
Danışmanlar: YRD. DOÇ. DR. CEMAL OKAN ŞAKAR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2016
Dil: İngilizce
Üniversite: Bahçeşehir Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 61

Özet

Dijitalleşme, internet ortamında içerik paylaşımı ve üretiminin son yıllardaki büyük artışı, otomatik metin sınıflandırmanın daha popüler olasına sebebiyet verdi. Makine öğrenmesi algoritmaları, çeşitli tiplerdeki dokümanların sınıflandırılması için yaygın olarak kullanılmaktadır. Farklı alanlara ait çeşitli veri kümeleri üzerinde doküman sınıflandırma algoritmalarının başarısı gösterilmiş olsa da, normal uzunluktaki dokümanları işlemek için kullanılan geleneksel gösterim ve sınıflandırma yöntemleri e-ticaret sitelerinde bulunan müşteri yorumları, microblogging platformlarındaki kişisel paylaşımlar veya haber sitelerindeki manşetler gibi kısa metinlerin sınıflandırılmasında başarısız olmaktadır. Bu yüzden, kısa metinleri işlemek için daha sofistike bir algoritmaya duyulan ihtiyaç artmaktadır. Geleneksel kelime torbası gösterimi kısa metin dokümanlarına uygulandığında oldukça seyrek veri matrisleri ortaya çıkmakta ve bu gösterim genellenebilir sınıflandırma ve kümeleme modelleri elde etmek için yeterli miktarda bilgiyi bulundurmamaktadır. Aynı zamanda, her gün üretilen milyonlarca kısa metni dikkate aldığımızda, işaretlenmemiş bu verileri öğrenme fazında veri kümesine dahil etmek için yarı gözetimli öğrenme modellerine olan ihtiyaç artmaktadır. Bu tezde, kısa metinleri harici bilgi tabanı kullanarak zenginleştirip çoklu görüntü üreten ve bu görüntülerin tahminlerini, işaretlenmemiş örnekleri öğrenme fazına entegre etmekte kullanan yarı gözetimli öğrenme modeli önerilmektedir. Türkçe kısa metinlerden oluşan deneysel bir veri kümesi kullanılmaktadır. Sonuçlar, önerilen metodun özellikle az sayıda örneğe sahip eğitim kümelerinde, klasik kelime torbası vektör gösterimine oranla başarıyı artırdığını göstermektedir.

Özet (Çeviri)

Automated text classification becomes more popular in recent years due to great increase in digitalization, content sharing and generation in the internet community. Machine learning algorithms are commonly used to classify various kinds of documents. Although the success of algorithms in document classification have been shown on various datasets from different domains, the traditional representation and classification approaches used to process normal-length documents fail in processing short-text messages such as customer reviews in e-shopping websites, personal updates in microblogging sites, or headlines in news portals. Therefore, there is an increasing need for more sophisticated algorithms to process short-texts. The traditional Bag-of-words representation when used for short-text documents results in very sparse data matrices that do not contain sufficient amount of information to obtain generalizable classification and clustering models. Besides, considering that millions of short-texts are generated every day, there is an increasing need for semi-supervised models to incorporate these unlabeled samples to the training phase. In this thesis, a semi-supervised learning model is proposed which is based on generating multiple views by enriching the short-texts using knowledge bases and then combining the predictions of these views to integrate the unlabeled samples to the training phase incrementally. An experimental dataset consisting of Turkish short-text is used. The results show that the proposed method increases the accuracy compared to classical bag-of-words vector representation especially for small sample-sized training sets.

Benzer Tezler

Tez No
22043
İnsangücü planlama
Manpower planning
SABİHA EKMEN
Yüksek Lisans
Türkçe
1992
İşletme İstanbul Teknik Üniversitesi
DOÇ. DR. MEHMET TANYAŞ
Tez No
745471
Kurumsal kaynak planlama yazılımlarında yapay zeka teknikleri kullanılarak kullanıcı destek sistemine yönelik model tasarımı ve geliştirilmesi
Model design and development for user support system using artificial intelligence techniques in enterprise resource planning software
HAKAN AŞAN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. VAHAP TECİM
Tez No
389371
Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
829775
Көркөм фильмдердеги тарыхыйреалияларды которуу маселелери(«эртугрул» көп сериалдуу фильмининкыргызча котормосунун негизинде)
Filmlerdeki tarihi kültürel öğeleri aktarma sorunları («Diriliş Ertuğrul» dizisinin Kırgızca çevirisinin örneğinde)
BAYALİN KASIMALİ UULU
Yüksek Lisans
Kırgızca
2023
Mütercim-Tercümanlık Kırgızistan-Türkiye Manas Üniversitesi
Mütercim Tercümanlık Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KALİYA KULALİYEVA
Tez No
633525
Televizyon dizilerinde kültürel temsiller: Mardin dizileri örneği
Représentations culturelles dans les séries télévisées: Exemple de les séries télévisées de Mardin
SEZER AHMET KINA
Yüksek Lisans
Türkçe
2020
Radyo-Televizyon Galatasaray Üniversitesi
Radyo Televizyon ve Sinema Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ECE VİTRİNEL

Geri Dön