Geri Dön

Ontoloji boyut indirgemeli derin öğrenme yaklaşımı: Yapısal olmayan dokümanların sınıflandırılması üzerine bir uygulama

Deep learning approach with ontology based dimension reduction: An application on classification of unstructured documents

  1. Tez No: 810716
  2. Yazar: İLKAY YELMEN
  3. Danışmanlar: PROF. DR. ALİ GÜNEŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 98

Özet

Yapısal olmayan veriler önceden tanımlanmış bir veri modeli içermediği için düzensizdir. İnternet ortamında yapısal olmayan metinsel dokümanların artması ile birlikte bu dokümanların yönetilebilirliği de zorlaşmıştır. Sınıf etiketinden yoksun bir şekilde her geçen gün sürekli artan verinin doğru olarak manuel bir şekilde etiketlenmesi oldukça zordur. Bu zorluğu kolaylaştırmak için yapay zeka yöntemlerinin kullanılması gerekmektedir. Araştırmacılar bu zamana kadar bir çok makine öğrenimi ve derin öğrenme modelini farklı türde veriler üzerinde uygulamıştır. Bu modellerin başarılı olarak çalışmasında verinin eğitim için düzgün hale getirilmesi oldukça önemlidir. Bu aşamada veri içerisinden eğitim için anlam ifade etmeyen sözcüklerin çıkarılması ve eğitimin daha iyi yapılmasını sağlamak amacıyla veri üzerinde çeşitli yöntemler uygulanır. Burada yapılacak detaylı çalışmalar modelin başarısına doğrudan etki etmektedir. Bunun yanı sıra öznitelik sayısının fazla olması ve vektör uzayının büyüklüğü hem model başarısını hem de performansı etkilemektedir. Ayrıca sınıf etiketinin fazla olması da eğitimi zorlaştırmaktadır. Yapılan literatür araştırmasında sınıf etiketinin az ve veri sayısının fazla olduğu araştırmalar daha fazla olduğu görülmüştür. Makine öğrenimi ve derin öğrenme modelleri ile veri sayısının fazla olduğu ve sınıf etiketinin az olduğu veriler üzerinde daha kolay öğrenme gerçekleştirilip, daha başarılı sonuçlar alınabilmektedir. Ancak veri sayısının daha az, sınıf etiketinin ise fazla ve dengesiz olduğu durumlarda öğrenme zorlaşmaktadır. Bir de bunlar yapısal olmayan metinsel veriler ise öğrenme daha da zorlaşmaktadır. Bu tez çalışmasında yapısal olmayan ve 7 sınıf içeren haber verisi kullanılarak, sınıflandırma başarısını artırmaya yönelik deneysel çalışmalar yapılmıştır. Çalışmada detaylı veri önişleme yapıldıktan sonra farklı kelime temsil yöntemleri ile makine öğrenimi ve derin öğrenme sınıflandırma yöntemleri ile model başarısı ölçülmüştür. Ayrıca WordNet ontolojisi de kullanılarak kelimeler anlamsal yönden de değerlendirilip, öznitelik boyut indirgemesi de yapılmıştır. Yapılan çalışmalar sonucunda metin sınıflandırma probleminde çok sayıda, dengesiz sınıf etiketi olan ve az sayıda veri üzerinde yüksek doğrulukta sınıflandırma yapan ontoloji ve derin öğrenme tabanlı hibrit bir yaklaşım önerilmiştir. WordNet ontolojisi ve BERT kullanılarak sağlanan çözüm önerisi özgün olup, yapısal olmayan metinsel dokümanların sınıflandırılmasında bir yol gösterici olmaktadır.

Özet (Çeviri)

Unstructured data is disordered because it does not contain a predefined data model. With the increase of unstructured textual documents on the Internet, the manageability of these documents has become more difficult. Accurate manual labeling of ever-increasing data, devoid of class labeling, is extremely difficult. Artificial intelligence methods need to be used to facilitate this challenge. Researchers have so far applied many machine learning and deep learning models on different types of data. It is very important to make the data smooth for training in the successful operation of these models. At this stage, various methods are applied on the data in order to remove the words that do not make sense for training and to ensure that the training is done better. Detailed studies to be made here directly affect the success of the model. In addition, the large number of features and the size of the vector space affect both model success and performance. Besides, too many class labels make training difficult. In the literature research, it has been seen that there are more studies in which the class label is low and the number of data is high. With machine learning and deep learning models, it is easier to learn and more successful results can be obtained on data with a large number of data and a low class label. However, learning becomes difficult in cases where the number of data is less and the class label is large and inbalanced. Also, if these are unstructured textual data, learning becomes even more difficult. In this thesis, experimental studies were carried out to increase the classification success by using unstructured news data containing 7 classes. In the study, after detailed data preprocessing, model success was measured with different word representation methods, machine learning and deep learning classification methods. In addition, by using WordNet ontology, the words were also evaluated in terms of semantics and feature dimension reduction was made. As a result of the studies, a hybrid approach based on ontology and deep learning has been proposed in the text classification problem, which has a large number of imbalanced class labels and makes high accuracy classification on a small number of data. The solution proposal provided by using WordNet ontology and BERT is unique and guides the classification of unstructured textual documents.

Benzer Tezler

  1. Bodily experience and spatial thinking in architectural design process

    Mimari tasarım sürecinde bedensel deneyim ve uzamsal düşünme

    SEMA ALAÇAM

    Doktora

    İngilizce

    İngilizce

    2014

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. GÜLEN ÇAĞDAŞ

  2. Rollo May'in birey ve din anlayışı

    The idea of individual and religion in the thought of Rollo May

    YUNUS EMRE AKBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    FelsefeSüleyman Demirel Üniversitesi

    Felsefe ve Din Bilimleri Ana Bilim Dalı

    DOÇ. DR. BİLAL SAMBUR

  3. Slavoj Žižek etiğinde öznenin ontolojik boyutu

    The ontological dimension of the subject in Slavoj Žižek's ethics

    HAVVA ÜNLÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    FelsefeKırıkkale Üniversitesi

    Felsefe Ana Bilim Dalı

    DOÇ. DR. BANU ALAN SÜMER

  4. Öznel idealizm açısından sanatta ve sanat felsefesinde yaratıcılık

    Başlık çevirisi yok

    DERYA ÖLÇENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    FelsefeMaltepe Üniversitesi

    Felsefe Ana Bilim Dalı

    DOÇ. DR. GÜNCEL ÖNKAL

  5. Mimari tasarım eğitimine bütüncül/metaforik bir yaklaşım

    Holistic/metaphoric approach to architectural education

    TOLGA SAYIN

    Doktora

    Türkçe

    Türkçe

    2007

    MimarlıkMimar Sinan Güzel Sanatlar Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF.DR. FATİH GORBON