Ontoloji boyut indirgemeli derin öğrenme yaklaşımı: Yapısal olmayan dokümanların sınıflandırılması üzerine bir uygulama
Deep learning approach with ontology based dimension reduction: An application on classification of unstructured documents
- Tez No: 810716
- Danışmanlar: PROF. DR. ALİ GÜNEŞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Aydın Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 98
Özet
Yapısal olmayan veriler önceden tanımlanmış bir veri modeli içermediği için düzensizdir. İnternet ortamında yapısal olmayan metinsel dokümanların artması ile birlikte bu dokümanların yönetilebilirliği de zorlaşmıştır. Sınıf etiketinden yoksun bir şekilde her geçen gün sürekli artan verinin doğru olarak manuel bir şekilde etiketlenmesi oldukça zordur. Bu zorluğu kolaylaştırmak için yapay zeka yöntemlerinin kullanılması gerekmektedir. Araştırmacılar bu zamana kadar bir çok makine öğrenimi ve derin öğrenme modelini farklı türde veriler üzerinde uygulamıştır. Bu modellerin başarılı olarak çalışmasında verinin eğitim için düzgün hale getirilmesi oldukça önemlidir. Bu aşamada veri içerisinden eğitim için anlam ifade etmeyen sözcüklerin çıkarılması ve eğitimin daha iyi yapılmasını sağlamak amacıyla veri üzerinde çeşitli yöntemler uygulanır. Burada yapılacak detaylı çalışmalar modelin başarısına doğrudan etki etmektedir. Bunun yanı sıra öznitelik sayısının fazla olması ve vektör uzayının büyüklüğü hem model başarısını hem de performansı etkilemektedir. Ayrıca sınıf etiketinin fazla olması da eğitimi zorlaştırmaktadır. Yapılan literatür araştırmasında sınıf etiketinin az ve veri sayısının fazla olduğu araştırmalar daha fazla olduğu görülmüştür. Makine öğrenimi ve derin öğrenme modelleri ile veri sayısının fazla olduğu ve sınıf etiketinin az olduğu veriler üzerinde daha kolay öğrenme gerçekleştirilip, daha başarılı sonuçlar alınabilmektedir. Ancak veri sayısının daha az, sınıf etiketinin ise fazla ve dengesiz olduğu durumlarda öğrenme zorlaşmaktadır. Bir de bunlar yapısal olmayan metinsel veriler ise öğrenme daha da zorlaşmaktadır. Bu tez çalışmasında yapısal olmayan ve 7 sınıf içeren haber verisi kullanılarak, sınıflandırma başarısını artırmaya yönelik deneysel çalışmalar yapılmıştır. Çalışmada detaylı veri önişleme yapıldıktan sonra farklı kelime temsil yöntemleri ile makine öğrenimi ve derin öğrenme sınıflandırma yöntemleri ile model başarısı ölçülmüştür. Ayrıca WordNet ontolojisi de kullanılarak kelimeler anlamsal yönden de değerlendirilip, öznitelik boyut indirgemesi de yapılmıştır. Yapılan çalışmalar sonucunda metin sınıflandırma probleminde çok sayıda, dengesiz sınıf etiketi olan ve az sayıda veri üzerinde yüksek doğrulukta sınıflandırma yapan ontoloji ve derin öğrenme tabanlı hibrit bir yaklaşım önerilmiştir. WordNet ontolojisi ve BERT kullanılarak sağlanan çözüm önerisi özgün olup, yapısal olmayan metinsel dokümanların sınıflandırılmasında bir yol gösterici olmaktadır.
Özet (Çeviri)
Unstructured data is disordered because it does not contain a predefined data model. With the increase of unstructured textual documents on the Internet, the manageability of these documents has become more difficult. Accurate manual labeling of ever-increasing data, devoid of class labeling, is extremely difficult. Artificial intelligence methods need to be used to facilitate this challenge. Researchers have so far applied many machine learning and deep learning models on different types of data. It is very important to make the data smooth for training in the successful operation of these models. At this stage, various methods are applied on the data in order to remove the words that do not make sense for training and to ensure that the training is done better. Detailed studies to be made here directly affect the success of the model. In addition, the large number of features and the size of the vector space affect both model success and performance. Besides, too many class labels make training difficult. In the literature research, it has been seen that there are more studies in which the class label is low and the number of data is high. With machine learning and deep learning models, it is easier to learn and more successful results can be obtained on data with a large number of data and a low class label. However, learning becomes difficult in cases where the number of data is less and the class label is large and inbalanced. Also, if these are unstructured textual data, learning becomes even more difficult. In this thesis, experimental studies were carried out to increase the classification success by using unstructured news data containing 7 classes. In the study, after detailed data preprocessing, model success was measured with different word representation methods, machine learning and deep learning classification methods. In addition, by using WordNet ontology, the words were also evaluated in terms of semantics and feature dimension reduction was made. As a result of the studies, a hybrid approach based on ontology and deep learning has been proposed in the text classification problem, which has a large number of imbalanced class labels and makes high accuracy classification on a small number of data. The solution proposal provided by using WordNet ontology and BERT is unique and guides the classification of unstructured textual documents.
Benzer Tezler
- Bodily experience and spatial thinking in architectural design process
Mimari tasarım sürecinde bedensel deneyim ve uzamsal düşünme
SEMA ALAÇAM
Doktora
İngilizce
2014
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. GÜLEN ÇAĞDAŞ
- Rollo May'in birey ve din anlayışı
The idea of individual and religion in the thought of Rollo May
YUNUS EMRE AKBAY
Yüksek Lisans
Türkçe
2011
FelsefeSüleyman Demirel ÜniversitesiFelsefe ve Din Bilimleri Ana Bilim Dalı
DOÇ. DR. BİLAL SAMBUR
- Slavoj Žižek etiğinde öznenin ontolojik boyutu
The ontological dimension of the subject in Slavoj Žižek's ethics
HAVVA ÜNLÜ
- Mimari tasarım eğitimine bütüncül/metaforik bir yaklaşım
Holistic/metaphoric approach to architectural education
TOLGA SAYIN
Doktora
Türkçe
2007
MimarlıkMimar Sinan Güzel Sanatlar ÜniversitesiMimarlık Ana Bilim Dalı
PROF.DR. FATİH GORBON