Geri Dön

Text categorization using syllables and recurrent neural networks

Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma

  1. Tez No: 467631
  2. Yazar: ERSİN YAR
  3. Danışmanlar: DOÇ. DR. SÜLEYMAN SERDAR KOZAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Kısa metinlerin çok sınıflı sınıflandırmasını incelemekteyiz. Bu amaçla, üçüncü bölümde serbestçe kelimelere dökülmüş metinden üretilen yüksek boyutlu öznitelik vektörlerinin çevrimiçi işlenmesine uygun son derece etkin boyut azaltıcı teknikler sunarız. Metin işleme ve sınıflandırma duygu tanıması, reklam seçimi vb. gibi birçok uygulamada yüksek derecede önemli olmasına rağmen çevrimiçi metin sınıflandırma ve regresyon algoritmaları doğal metin girdilerini gösterimlemek için yüksek boyutlu vektörlere olan ihtiyaçtan dolayı sınırlıdır. Bu gibi kısıtlamaların üstesinden öznitelik vektörü özütlemesi için hesaplama maliyetini ciddi ölçüde azaltan rasgeleleştirilmiş izdüşümler ve parçalı doğrusal modellerin etkin bir biçimde kullanıldığını göstererek gelmekteyiz. Bu sayede, gerçek zamanlı çok sınıflı tweet sınıflandırması ve regresyonu yapılabilmekteyiz. Sonuçlarımızı gerçek bir hayat çalışmasından toplanan serbestçe yazılmış ve düzensiz tweetler üzerinden göstermekteyiz. Özgün regresyon yöntemleri ile iyi bilinen makine öğrenimi algoritmaları uygulamakta ve sınıflandırma ve regresyon performansında önemli değişiklik olmadan hesaplama karmaşıklığının önemli ölçüde azaltıldığını göstermekteyiz. Dahası, dördüncü bölümde kısa metin sınıflandırması için LSTM sinir ağlarına dayalı basit ve özgün bir teknik tanıtmaktayız. Algoritmamız sınıflandırmada kullanılmak üzere kısa bir metin için iki dağıtılmış gösterim elde eder. Bir gösterimi kelimelere karşılık gelen vektör gösterimlerini LSTM yapısında ardışık olarak işleyip ağda her bir zamanda üretilen çıktıların ortalamasını alarak üretmekteyiz. Diğer gösterimi üretmek için de kısa metindeki kelimelerin dağıtılmış gösterimlerinin ortalamasını alırız. Sınıflandırma için her iki gösterimin ağırlıklı birleşimi hesaplanır. Bundan başka, literatürde ilk defa, verinin ardışık doğasından daha iyi yararlanmak için heceleri kullanmayı önermekteyiz. Hecelerin dağıtılmış gösterimlerini elde ederiz ve kısa metnin dağıtılmış gösterimini çıkarmak için LSTM ağına veririz. En sonda sınıfsal dağılımı hesaplamak için softmax katmanı kullanılır. Deneyler iki dağıtılmış gösterimden yararlanmanın sınıflandırma performansını 2% artırdığını gösterir. Ayrıca, kısa metin sınıflandırmasında hecelerin dağıtılmış gösterimlerini kullanmanın da performans iyileşmesi sağladığını göstermekteyiz.

Özet (Çeviri)

We investigate multi class categorization of short texts. To this end, in the third chapter, we introduce highly efficient dimensionality reduction techniques suitable for online processing of high dimensional feature vectors generated from freely-worded text. Although text processing and classification are highly important due to many applications such as emotion recognition, advertisement selection, etc., online classification and regression algorithms over text are limited due to need for high dimensional vectors to represent natural text inputs. We overcome such limitations by showing that randomized projections and piecewise linear models can be efficiently leveraged to significantly reduce the computational cost for feature vector extraction from the tweets. We demonstrate our results over tweets collected from a real life case study where the tweets are freely-worded and unstructured. We implement several well-known machine learning algorithms as well as novel regression methods and demonstrate that we can significantly reduce the computational complexity with insignificant change in the classification and regression performance. Furthermore, in the fourth chapter, we introduce a simple and novel technique for short text classification based on LSTM neural networks. Our algorithm obtains two distributed representations for a short text to be used in classification task. We derive one representation by processing vector embeddings corresponding to words consecutively in LSTM structure and taking average of the produced outputs at each time step of the network. We also take average of distributed representations of the words in the short text to obtain the other representation. For classification, weighted combination of both representations are calculated. Moreover, for the first time in literature we propose to use syllables to exploit the sequential nature of the data in a better way. We derive distributed representations of the syllables and feed them to an LSTM network to obtain the distributed representation for the short text. Softmax layer is used to calculate categorical distribution at the end. Classification performance is evaluated in terms of AUC measure. Experiments show that utilizing two distributed representations improves classification performance by ≈ 2%. Furthermore, we demonstrate that using distributed representations of syllables in short text categorization also provides performance improvements.

Benzer Tezler

  1. Urdu news categorization using machine learning approaches

    Makine öğrenmesi yaklaşımları kullanarak urduca haberlerin kategorizasyonu

    MUHAMMAD TALHA SATTI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBEYKOZ ÜNİVERSİTESİ

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ÖZLEM FEYZA ERKAN

  2. An evaluation of existing and new feature selection metrics in automatic text categorization

    Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi

    ŞERAFETTİN TAŞCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. TUNGA GÜNGÖR

  3. Makine öğrenmesi teknikleri ile metinlerin otomatik olarak sınıflandırılması

    Text categorization with machine learning techniques

    AYSUN DOĞRUSÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  4. Text categorization and ensemble pruning in turkish news portals

    Türkçe haber portallarında metin sınıflandırma ve topluluk budama

    ÇAĞRI TORAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  5. Text categorization based on semantic similarity with word2vector

    Word2vector ile semantik benzerliğe dayanan metin kategorizasyonu

    ATHER ABDULRAHEM MOHAMMEDSAED ALSAMURAI

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR