State-of-mind classification from unstructured texts using statistical features and lexical network features
İstatistiksel öznitelikler ve sözcüksel ağ özniteliklerini kullanarak, formatsız metinlerde düşünce yapısı sınıflandırılması
- Tez No: 858464
- Danışmanlar: PROF. DR. JOHN PESTIAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: University of Cincinnati
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 404
Özet
Sayıları katlanarak artan dijital belgelerin işaretlenmesi gerekliliği sayesinde, metin sınıflandırma geniş çapta çalışılan bir araştırma konusu olmuştur. Zaman içinde, bazı belirli öznitelikler ve sınıflandırma yöntemleri farklı metin kaynaklarında başarılı performans göstermiş ve bu sayede geniş çapta kullanılmış ve kullanılmaktadır. Bu tez, özellikle iki alandan; intihar düşüncesi ve siyasi parti üyeliği ile ilgili metinler kullanarak, düşünce yapısı sınıflandırması üzerine yoğunlaşır. Denetimli makine öğrenme yöntemleri ile eşleştirilmiş kelime istatistikleri özniteliklerini kullanan standart yaklaşımlar ve insan bilişselliği üzerine kurulu, özellikle de kavramsal çağrışım ve aktivasyon yayılması gibi yaklaşımlar da dahil olmak üzere çeşitli yaklaşımlar incelenmiştir. Verilen bir metin koleksiyonundaki kelime ilişkilerini kullanarak oluşturulan bir sözcüksel ilişkilendirme ağını, paylaşılan düşünce yapılarının bulunmasında kullanan bir yaklaşım önerilmektedir. Bu yaklaşımı test etmek için fazlalık ağırlık yoğunluğu (excess weight density - EWD) diye özgün bir yarı-denetimli sınıflandırıcı önerilmekte ve bu sınıflandırıcı herhangi bir metnin içerisindeki düşüncelerin eğitilmiş sözcüksel ağlarına belirli bir düşünce yapısının ne kadar iyi uyduğunu hesaplamaktadır. Ondokuz farklı metin koleksiyonu üzerinde yapılan deneyler, bu yöntemin k-en yakın komşular algoritmasını (k-Nearest Neighbors Algorithm) geride bıraktığını göstermektedir. Sözcüksel ağlar aynı zamanda, denetimli sınıflandırıcılar ve istatistik öznitelikler ile birlikte kullanılmak üzere, sözcüksek ağ öznitelikleri üretmek için kullanılmıştır. Denetimli sınıflandırma performansı, rastgele ormanlar (random forests), destek vektör makineleri (support vector machines), ileri beslemeleri çeşitli nöral ağları (feed forward neural networks - CNN) dahil olmak üzere, dokuz farklı yöntem kullanılarak, çeşitli öznitelik kombinasyonları üzerinde test edilmiştir. Sonuçlar, heterojen öznitelik uzayında çalışmanın önemi gibi, metin sınıflandırma üzerine birçok ipucu ortaya koymaktadır. Ayrıca, denetimli sınıflandırma için en önemli olan öznitelikler analiz edilmiş ve sonuçlar, sözcüksel ağ özniteliklerinin bağlamsal ve yorumlanabilir bilgilerin elde edilmesinde başarılı olması gibi ilginç eğilimleri göstermiştir. Daha sonra, topluluk/kolektif (ensemble) yaklaşımları değerlendirilmiş ve onların sonuçları iyileştirdiği tespit edilmiştir. Son olarak, Amerika Birleşik Devletleri Kongresi'nde 1981'den 2016'ya kadar siyasi düşüncelerdeki değişimlerin değerlendirilmesi üzerine teknik ve tarihi açıdan ilgi çekici sonuçlar ortaya koyan zamanlar bir çalışma yapılmıştır. Genel olarak, bu tez çalışmasında, çeşitli alanlarda düşünce yapısı sınıflandırılması üzerine mevcut yöntem ve seçeneklerin sistematik bir değerlendirilmesi gösterilmekte ve bu tür görevler için faydalı önerilerde bulunulmaktadır. İncelenen yöntemler - sözcüksel ağlar ve yayılma aktivasyonu dahil - metin özetleme, yenilik algılama ve metin oluşturma dahil metin sınıflandırma dışındaki görevler için de kullanılabilir.
Özet (Çeviri)
Text classification is a widely studied research problem, motivated by the need to process the exponentially growing number of digital documents. Over time, specific types of features and classifiers have shown persistently good performance on different textual data domains, and have become widely used. This dissertation focuses on the classification of texts based on state-of-mind using data from two domains: suicidal ideation and political affiliation. Various approaches are explored, including the standard one using word statistics as features in combination with supervised machine learning methods as well as one grounded in theories of human cognition -- specifically, conceptual association and spreading activation. An approach is proposed to capture a shared state-of-mind in the form of a lexical associative network using word associations in a given corpus. To test this, a novel semi-supervised classifier called excess weight density (EWD) is proposed that computes how well the thoughts in a given text fits the trained lexical networks of a particular state-of-mind. The experiments conducted on nineteen corpora show that this method outperforms the k-Nearest neighbors algorithm. The lexical networks are also used to generate features that are used alongside statistical features in supervised classifiers. Supervised classification performance is tested over several feature combinations using nine different methods including random forests, support vector machines, various feed-forward neural networks, and a convolutional neural network (CNN) with different embedding layer initialization. The results reveal many clues on text classification such as the importance of working with heterogeneous feature spaces. Further, the features that are most important for supervised classification are analyzed, and the results show interesting trends such as the success of lexical network features on capturing contextual and interpretable information. Next, ensemble approaches are evaluated and are found to improve the results. Finally, a longitudinal study is conducted on assessing the changes in the political state-of-mind from 1981 to 2016 in the U.S. Congress, showing results that are of interest from technical and historical viewpoints. Overall, the work in this dissertation represents a systematic evaluation of methods and choices available for state-of-mind classification in diverse domains, and leads to useful recommendations for such tasks. The methods studied -- including lexical networks and spreading activation -- can be also used for tasks beyond text classification, including text summarization, novelty detection, and text generation.
Benzer Tezler
- İbn Rüşd ve ideal devlet tasavvuru
Ibn Ruşd and his conception of the ideal state
EMİNE KELEŞ
Yüksek Lisans
Türkçe
2021
DinKocaeli ÜniversitesiFelsefe ve Din Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ METİN PAY
- Mimarlıkta söylemin temsili belirlemesi ve iki yirminci yüzyıl örneği: Pürizm ve neo-plastizm
Başlık çevirisi yok
KAMİL GÜRER
- Sanatın mekansallaşması ve enstalasyon
Spatialization of art and installation
NECLA RUKEN BARS
Yüksek Lisans
Türkçe
2017
MimarlıkYıldız Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. DENİZ ÖNDER
- Gramsci ve Bourdieu düşüncesinde entelektüel kavramsallaştırmasının TEKEL işçi eylemi üzerinden analizi
The analaysis of the conceptualisation of the intellectual in the ideas of Gramsci and Bourdieu through the case of TEKEL demonstrations
AYSUN YARALI AKKAYA
Doktora
Türkçe
2012
FelsefeHacettepe ÜniversitesiSiyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı
DOÇ. DR. F. HİLAL ONUR İNCE