Geri Dön

State-of-mind classification from unstructured texts using statistical features and lexical network features

İstatistiksel öznitelikler ve sözcüksel ağ özniteliklerini kullanarak, formatsız metinlerde düşünce yapısı sınıflandırılması

  1. Tez No: 858464
  2. Yazar: ULYA BAYRAM
  3. Danışmanlar: PROF. DR. JOHN PESTIAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: University of Cincinnati
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 404

Özet

Sayıları katlanarak artan dijital belgelerin işaretlenmesi gerekliliği sayesinde, metin sınıflandırma geniş çapta çalışılan bir araştırma konusu olmuştur. Zaman içinde, bazı belirli öznitelikler ve sınıflandırma yöntemleri farklı metin kaynaklarında başarılı performans göstermiş ve bu sayede geniş çapta kullanılmış ve kullanılmaktadır. Bu tez, özellikle iki alandan; intihar düşüncesi ve siyasi parti üyeliği ile ilgili metinler kullanarak, düşünce yapısı sınıflandırması üzerine yoğunlaşır. Denetimli makine öğrenme yöntemleri ile eşleştirilmiş kelime istatistikleri özniteliklerini kullanan standart yaklaşımlar ve insan bilişselliği üzerine kurulu, özellikle de kavramsal çağrışım ve aktivasyon yayılması gibi yaklaşımlar da dahil olmak üzere çeşitli yaklaşımlar incelenmiştir. Verilen bir metin koleksiyonundaki kelime ilişkilerini kullanarak oluşturulan bir sözcüksel ilişkilendirme ağını, paylaşılan düşünce yapılarının bulunmasında kullanan bir yaklaşım önerilmektedir. Bu yaklaşımı test etmek için fazlalık ağırlık yoğunluğu (excess weight density - EWD) diye özgün bir yarı-denetimli sınıflandırıcı önerilmekte ve bu sınıflandırıcı herhangi bir metnin içerisindeki düşüncelerin eğitilmiş sözcüksel ağlarına belirli bir düşünce yapısının ne kadar iyi uyduğunu hesaplamaktadır. Ondokuz farklı metin koleksiyonu üzerinde yapılan deneyler, bu yöntemin k-en yakın komşular algoritmasını (k-Nearest Neighbors Algorithm) geride bıraktığını göstermektedir. Sözcüksel ağlar aynı zamanda, denetimli sınıflandırıcılar ve istatistik öznitelikler ile birlikte kullanılmak üzere, sözcüksek ağ öznitelikleri üretmek için kullanılmıştır. Denetimli sınıflandırma performansı, rastgele ormanlar (random forests), destek vektör makineleri (support vector machines), ileri beslemeleri çeşitli nöral ağları (feed forward neural networks - CNN) dahil olmak üzere, dokuz farklı yöntem kullanılarak, çeşitli öznitelik kombinasyonları üzerinde test edilmiştir. Sonuçlar, heterojen öznitelik uzayında çalışmanın önemi gibi, metin sınıflandırma üzerine birçok ipucu ortaya koymaktadır. Ayrıca, denetimli sınıflandırma için en önemli olan öznitelikler analiz edilmiş ve sonuçlar, sözcüksel ağ özniteliklerinin bağlamsal ve yorumlanabilir bilgilerin elde edilmesinde başarılı olması gibi ilginç eğilimleri göstermiştir. Daha sonra, topluluk/kolektif (ensemble) yaklaşımları değerlendirilmiş ve onların sonuçları iyileştirdiği tespit edilmiştir. Son olarak, Amerika Birleşik Devletleri Kongresi'nde 1981'den 2016'ya kadar siyasi düşüncelerdeki değişimlerin değerlendirilmesi üzerine teknik ve tarihi açıdan ilgi çekici sonuçlar ortaya koyan zamanlar bir çalışma yapılmıştır. Genel olarak, bu tez çalışmasında, çeşitli alanlarda düşünce yapısı sınıflandırılması üzerine mevcut yöntem ve seçeneklerin sistematik bir değerlendirilmesi gösterilmekte ve bu tür görevler için faydalı önerilerde bulunulmaktadır. İncelenen yöntemler - sözcüksel ağlar ve yayılma aktivasyonu dahil - metin özetleme, yenilik algılama ve metin oluşturma dahil metin sınıflandırma dışındaki görevler için de kullanılabilir.

Özet (Çeviri)

Text classification is a widely studied research problem, motivated by the need to process the exponentially growing number of digital documents. Over time, specific types of features and classifiers have shown persistently good performance on different textual data domains, and have become widely used. This dissertation focuses on the classification of texts based on state-of-mind using data from two domains: suicidal ideation and political affiliation. Various approaches are explored, including the standard one using word statistics as features in combination with supervised machine learning methods as well as one grounded in theories of human cognition -- specifically, conceptual association and spreading activation. An approach is proposed to capture a shared state-of-mind in the form of a lexical associative network using word associations in a given corpus. To test this, a novel semi-supervised classifier called excess weight density (EWD) is proposed that computes how well the thoughts in a given text fits the trained lexical networks of a particular state-of-mind. The experiments conducted on nineteen corpora show that this method outperforms the k-Nearest neighbors algorithm. The lexical networks are also used to generate features that are used alongside statistical features in supervised classifiers. Supervised classification performance is tested over several feature combinations using nine different methods including random forests, support vector machines, various feed-forward neural networks, and a convolutional neural network (CNN) with different embedding layer initialization. The results reveal many clues on text classification such as the importance of working with heterogeneous feature spaces. Further, the features that are most important for supervised classification are analyzed, and the results show interesting trends such as the success of lexical network features on capturing contextual and interpretable information. Next, ensemble approaches are evaluated and are found to improve the results. Finally, a longitudinal study is conducted on assessing the changes in the political state-of-mind from 1981 to 2016 in the U.S. Congress, showing results that are of interest from technical and historical viewpoints. Overall, the work in this dissertation represents a systematic evaluation of methods and choices available for state-of-mind classification in diverse domains, and leads to useful recommendations for such tasks. The methods studied -- including lexical networks and spreading activation -- can be also used for tasks beyond text classification, including text summarization, novelty detection, and text generation.

Benzer Tezler

  1. İbn Rüşd ve ideal devlet tasavvuru

    Ibn Ruşd and his conception of the ideal state

    EMİNE KELEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    DinKocaeli Üniversitesi

    Felsefe ve Din Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ METİN PAY

  2. Orhun dergisinin Türk düşünce hayatındaki yeri

    Place of Orhun journal in the Turkish idea

    ÇETİN ADEM

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    TarihNiğde Üniversitesi

    Tarih Bölümü

    YRD. DOÇ. İBRAHİM ÖZTÜRK

  3. Sanatın mekansallaşması ve enstalasyon

    Spatialization of art and installation

    NECLA RUKEN BARS

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    MimarlıkYıldız Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. DENİZ ÖNDER

  4. Gramsci ve Bourdieu düşüncesinde entelektüel kavramsallaştırmasının TEKEL işçi eylemi üzerinden analizi

    The analaysis of the conceptualisation of the intellectual in the ideas of Gramsci and Bourdieu through the case of TEKEL demonstrations

    AYSUN YARALI AKKAYA

    Doktora

    Türkçe

    Türkçe

    2012

    FelsefeHacettepe Üniversitesi

    Siyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı

    DOÇ. DR. F. HİLAL ONUR İNCE