Geri Dön

Multi-view short-text classification using knowledge bases

Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma

  1. Tez No: 436049
  2. Yazar: MERT ÇALIŞAN
  3. Danışmanlar: YRD. DOÇ. DR. CEMAL OKAN ŞAKAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Dijitalleşme, internet ortamında içerik paylaşımı ve üretiminin son yıllardaki büyük artışı, otomatik metin sınıflandırmanın daha popüler olasına sebebiyet verdi. Makine öğrenmesi algoritmaları, çeşitli tiplerdeki dokümanların sınıflandırılması için yaygın olarak kullanılmaktadır. Farklı alanlara ait çeşitli veri kümeleri üzerinde doküman sınıflandırma algoritmalarının başarısı gösterilmiş olsa da, normal uzunluktaki dokümanları işlemek için kullanılan geleneksel gösterim ve sınıflandırma yöntemleri e-ticaret sitelerinde bulunan müşteri yorumları, microblogging platformlarındaki kişisel paylaşımlar veya haber sitelerindeki manşetler gibi kısa metinlerin sınıflandırılmasında başarısız olmaktadır. Bu yüzden, kısa metinleri işlemek için daha sofistike bir algoritmaya duyulan ihtiyaç artmaktadır. Geleneksel kelime torbası gösterimi kısa metin dokümanlarına uygulandığında oldukça seyrek veri matrisleri ortaya çıkmakta ve bu gösterim genellenebilir sınıflandırma ve kümeleme modelleri elde etmek için yeterli miktarda bilgiyi bulundurmamaktadır. Aynı zamanda, her gün üretilen milyonlarca kısa metni dikkate aldığımızda, işaretlenmemiş bu verileri öğrenme fazında veri kümesine dahil etmek için yarı gözetimli öğrenme modellerine olan ihtiyaç artmaktadır. Bu tezde, kısa metinleri harici bilgi tabanı kullanarak zenginleştirip çoklu görüntü üreten ve bu görüntülerin tahminlerini, işaretlenmemiş örnekleri öğrenme fazına entegre etmekte kullanan yarı gözetimli öğrenme modeli önerilmektedir. Türkçe kısa metinlerden oluşan deneysel bir veri kümesi kullanılmaktadır. Sonuçlar, önerilen metodun özellikle az sayıda örneğe sahip eğitim kümelerinde, klasik kelime torbası vektör gösterimine oranla başarıyı artırdığını göstermektedir.

Özet (Çeviri)

Automated text classification becomes more popular in recent years due to great increase in digitalization, content sharing and generation in the internet community. Machine learning algorithms are commonly used to classify various kinds of documents. Although the success of algorithms in document classification have been shown on various datasets from different domains, the traditional representation and classification approaches used to process normal-length documents fail in processing short-text messages such as customer reviews in e-shopping websites, personal updates in microblogging sites, or headlines in news portals. Therefore, there is an increasing need for more sophisticated algorithms to process short-texts. The traditional Bag-of-words representation when used for short-text documents results in very sparse data matrices that do not contain sufficient amount of information to obtain generalizable classification and clustering models. Besides, considering that millions of short-texts are generated every day, there is an increasing need for semi-supervised models to incorporate these unlabeled samples to the training phase. In this thesis, a semi-supervised learning model is proposed which is based on generating multiple views by enriching the short-texts using knowledge bases and then combining the predictions of these views to integrate the unlabeled samples to the training phase incrementally. An experimental dataset consisting of Turkish short-text is used. The results show that the proposed method increases the accuracy compared to classical bag-of-words vector representation especially for small sample-sized training sets.

Benzer Tezler

  1. İnsangücü planlama

    Manpower planning

    SABİHA EKMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    İşletmeİstanbul Teknik Üniversitesi

    DOÇ. DR. MEHMET TANYAŞ

  2. Kurumsal kaynak planlama yazılımlarında yapay zeka teknikleri kullanılarak kullanıcı destek sistemine yönelik model tasarımı ve geliştirilmesi

    Model design and development for user support system using artificial intelligence techniques in enterprise resource planning software

    HAKAN AŞAN

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. VAHAP TECİM

  3. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Көркөм фильмдердеги тарыхыйреалияларды которуу маселелери(«эртугрул» көп сериалдуу фильмининкыргызча котормосунун негизинде)

    Filmlerdeki tarihi kültürel öğeleri aktarma sorunları («Diriliş Ertuğrul» dizisinin Kırgızca çevirisinin örneğinde)

    BAYALİN KASIMALİ UULU

    Yüksek Lisans

    Kırgızca

    Kırgızca

    2023

    Mütercim-TercümanlıkKırgızistan-Türkiye Manas Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KALİYA KULALİYEVA

  5. Televizyon dizilerinde kültürel temsiller: Mardin dizileri örneği

    Représentations culturelles dans les séries télévisées: Exemple de les séries télévisées de Mardin

    SEZER AHMET KINA

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Radyo-TelevizyonGalatasaray Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ECE VİTRİNEL