Theme supervised nonnegative matrix factorization for topic modeling
Konu modelleme için tema denetimli negatif olmayan matris ayrıştırması
- Tez No: 650106
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 98
Özet
Konu modelleri, büyük ve yapısal olmayan yazılı döküman setlerinin organize edilip yorumlanmasında sıklıkla kullanılır. Doküman setlerinin anlamsal altyapısını oluşturan konuları açıklamaya ve bu konuların dokümanlar üzerindeki dağılımlarını bulmaya çalışırlar. Denetimsiz doğası nedeniyle, bir konu modeli başarısını gösterebilmesi için, çıktılarının yorumlanabilir olması gerekir. Fakat, bir konu modelinin sonuçları genellikle insan yorumuyla zayıf bir şekilde ilişkilendirilir. Bu tezde, konuların yorumlanmasını iyileştirmek ve kolaylaştırmak için etiketli belgelerden yararlanabilen, Tema Denetimli Negatif Olmayan Matris Ayrıştırması adlı yarı denetimli bir konu modeli öneriyoruz. Modelimiz, konuların temsilini etiketli belgelerle eşleşecek şekilde kısıtlar ve bu, model tarafından keşfedilen konuların kolayca anlaşılmasını sağlar. Dokümanların sağladığı etiketleri daha verimli kullanabilmek ve doküman setlerini daha derinlemesine inceleyebilmek için, modelimizde temalar, alt konular ve arka plan konularından oluşan hiyerarşik bir konu yapısı kullandık. Temaların altında, alt konular içi denetimsiz öğrenmeye izin veren katmanlar olşturuyorduk. Bu hiyerarşik yapı, kendi içinde sağladığı denetimsiz öğrenme kabiliyeti ile, denetim ile kısıtladığımız modelimizin yeni boyutlar keşfedip, daha detaylı sınıflandırmalar yapabilmesine olanak sağlar. Modelimizi, oluşturduğumuz Schwartz veri kümesinin yanı sıra Brown ve Reuters veri kümelerinde farklı denetim oranlarıyla test ettik. Modelimiz, belgelerin konularını geleneksel negatif olmayan matris ayrıştırmasından ve gizli Dirichlet tahsisi'nden her koşulda çok daha iyi tahmin ediyor; ve bunun yanında, denetimin etkisi bir logaritmik fonksiyon gibi davranır ve daha düşük oranlarda en fazla etkiye sahiptir. Ayrıca yeni terim puanlama metriğimiz, her konu için önemli ve önemsiz terimlerin ağırlıklarını başarıyla değiştirerek konuların anlaşılmasını ve yorumlanmasını kolaylaştırır.
Özet (Çeviri)
Topic models are often used to organize and interpret large and unstructured corpora of text documents. They try to explain the topics that constitute the semantic infrastructure of the document sets and try to find the distributions of these topics for the documents. Because of its unsupervised nature, the outputs of a topic model has to be interpretable to represent its success. However, the results of a topic model are usually weakly correlated with human interpretation. In this thesis, we propose a semi-supervised topic model called Theme Supervised Nonnegative Matrix Factorization that can benefit from labeled documents to improve and facilitate the interpretation of the topics. Our model constrains the representation of the topics to align with the labeled documents and this enables the topics discovered by the model to be readily understood. To utilize the labels provided by the documents more efficiently and to explore the document sets in more depth, we used a hierarchical topic structure consisting of themes, subtopics, and background topics in our model. We created layers under the themes that permit unsupervised learning for subtopics. This hierarchical structure, with the unsupervised learning capability it provides, enables our model, which was restricted with supervision, to discover new dimensions and make more detailed classifications. We tested our model on Schwartz dataset we created, as well as Brown and Reuters datasets with different supervision ratios. Our model estimates the topics of the documents much better than the traditional nonnegative matrix factorization and latent Dirichlet allocation for any situation; and besides, the effect of supervision is noteworthy, especially at low ratios. Moreover, our new term scoring metric successfully alters the weights of significant and insignificant terms for each topic and makes the topics easier to understand and interpret.
Benzer Tezler
- Development of operation and maintenance strategies for offshore wind industry based on big data management
Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi
UWE LUETZEN
Doktora
İngilizce
2024
Enerjiİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR BEJİ
- Perceptual audio source separation by subspace learning
Altuzay öğrenme ile algısal ses kaynak ayrıştırma
SERAP KIRBIZ
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL
- Faktör analizi modellerinin belirlenebilirliği ve genelleştirilmiş inverslerin kullanımı
Identifying models of factor analysis and using of generalized inverses
SEVAL SÜZÜLMÜŞ
Doktora
Türkçe
2005
İstatistikÇukurova Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. SADULLAH SAKALLIOĞLU
- İnvariant yakınsaklık yardımıyla tanımlanan bazı yeni dizi uzayları
Some new sequence spaces defined by invariant means
H. ASUMAN SAVAŞ