Geri Dön

Büyük veride derin öğrenme algoritmaları kullanılarak metin analizinin gerçekleştirilmesi

Application of text analysis processing using deep learning algorithms in big data

  1. Tez No: 607830
  2. Yazar: MURAT AYDOĞAN
  3. Danışmanlar: PROF. DR. ALİ KARCI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: İnönü Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 107

Özet

Bilişim dünyasında yüksek hızda yaşanan gelişmeler ve internet kullanımının çok yaygın hale gelmesi ile birlikte, dijital platformlarda üretilen verinin çeşitliliği ve miktarı artmıştır. Üretilen bu büyük verinin çoğunluğu metinlerden oluşan içeriklerdir. Ancak her geçen gün artan metin verilerini geleneksel yöntemlerle işlemek zor bir problem haline gelmiştir. Bu nedenle büyük veri teknolojileri ve özellikle büyük veriler üzerinde oldukça başarılı performans gösteren derin sinir ağları ve sinir ağı temelli kelime temsil yöntemleri geliştirilmiştir. Bu tez çalışmasında kelime temsil yöntemleri, büyük veri teknolojileri ile birlikte kullanılmış derin öğrenme mimarileri üzerinde detaylı analizler yapılmıştır. Yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe çalışmaların sayısının yeterli olmadığı görülmüştür. Bu nedenle çalışmanın hedef dili olarak Türkçe tercih edilmiş bununla birlikte tez çalışmasında üç uygulama geliştirilmiştir ve iki özgün yöntem önerilmiştir. İlk uygulamada çalışmaların yapılacağı ortamı belirlemek için büyük veri uygulaması yapılmıştır. İkinci uygulamada metin işleme öncesinde önişleme çalışmaları yapılmıştır. Bu kapsamda TF (Term Frequency) - IDF (Inverse Document Frequency) yöntemi ile ilk kez Türkçe için stopwords listesi oluşturulmuştur. Üçüncü uygulamada ise oldukça büyük Türkçe etiketsiz verilerden oluşan bir veri seti (Dataset-1) üretilmiştir. Bu veri seti üzerinde kelime temsil yöntemleri kullanılarak kelime vektörleri eğitilmiş ve farklı kelime temsil yöntemlerinin başarımları kıyaslanmıştır. Üçüncü uygulama için de yaklaşık 1,5 milyon veri ve 10 sınıftan oluşan ikinci bir Türkçe veri seti (Dataset-2) üretilmiştir. Bu veri seti üzerinde, kelime vektörleri, önceden eğitilmiş kelime vektörleri olarak transfer öğrenme yöntemi ile farklı derin öğrenme mimarileri üzerinde metin sınıflandırma problemi için kullanıldığı bir yöntem önerilmiştir. Önerilen bu yöntem ile hemen hemen tüm modeller üzerinde mevcut başarım değerleri %5-%7 arasında geliştirilmiştir. İkinci yöntem olarak sözlük yöntemi adı verilen yeni bir yöntem önerilmiştir. Türkçe için hali hazırda geliştirilmiş bir yazım denetleyicisi olmadığı için bu yöntem ile Dataset-2 üzerindeki yanlış yazılmış kelimeler tespit edilmiş ve bir derin öğrenme modeli olan LSTM (Long Short Term Memory) ile bu kelimelerin yerine doğru kelimeler tespit edilmeye çalışılmıştır. Uygulama sonucunda elde edilen sınıflandırma başarımı analiz edildiğinde yaklaşık 55.000 hatalı kelimenin doğru kelime ile değiştirildiği ve başarım değerinin %8.68 geliştirildiği görülmüştür. Bu tez çalışmasıyla birlikte Türkçe metin işleme çalışmalarına katkı sağlamak amacıyla iki adet büyük Türkçe veri seti üretilmiştir. Ayrıca bu veri setleri üzerinde şimdiye kadar eğitilmiş en büyük Türkçe kelime vektörleri üretilerek araştırmacıların kullanımına açık halde paylaşılmıştır.

Özet (Çeviri)

With the high-speed developments in the IT world and the widespread use of the Internet, the diversity and amount of data produced on digital platforms has increased. The majority of this big data generated is textual content. However, it has become a difficult problem to process the increasing text data with traditional methods. For this reason, deep neural networks and neural network-based word embedding methods have been developed that perform highly successfully on big data technologies and especially big data. In this thesis, detailed analysis has been made on deep learning architectures used word embedding methods with big data technologies. When the studies were examined, it was seen that there were many natural language specific studies, especially English, but the number of Turkish studies was not sufficient. Therefore, Turkish was chosen as the target language of the study. However, three applications were developed in the thesis and two novel methods were proposed. In the first application, a big data application was made to determine the platform in which the studies would be conducted. In the second application, preprocessing studies were performed before text processing. In this context, the stopwords list for Turkish was generated for the first time by TF (Term Frequency) - IDF (Inverse Document Frequency) method. In the third application, a dataset (Dataset-1) consisting of very large Turkish unlabeled data has been generated. Word vectors were trained on this dataset using word embedding methods and the performances of different word embedding methods were compared. For the third application, a second Turkish dataset (Dataset-2) consisting of approximately 1,5 million data and 10 classes were generated. A method has been proposed on this data set where word vectors are used for the problem of text classification on different deep learning architectures with the transfer learning method as pre-trained word vectors. With this proposed method, current performance values on almost all models have been improved between 5-7%. As a second method, a new method called the dictionary method has been proposed. Since there is no spelling checker developed for Turkish, the misspelled words on Dataset-2 have been identified and LSTM (Long Short Term Memory), which is a deep learning model, has tried to identify the correct words instead. When the classification performance obtained as a result of the analysis was analyzed, it was seen that approximately 55.000 incorrect words were replaced with the correct words and the performance value was improved by 8.68%. With this thesis, two large Turkish datasets were generated in order to contribute to Turkish text processing. In addition, the largest Turkish word vectors ever trained on these datasets were generated and shared open to researchers.

Benzer Tezler

  1. Implementation of data-driven decisions in urban governance and planning

    Kent yönetişim ve planlamasında veri odaklı kararların uygulanması

    JAFAR NAJAFLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    DOÇ. DR. ÖZHAN ERTEKİN

  2. Brain-inspired cortical-coding algorithm for multimedia processing

    Multimedya işlemek için beyinden esinlenilmiş kortikal kodlama algoritması

    AHMET EMİN ÜNAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BURAK BERK ÜSTÜNDAĞ

  3. Kümeleme yöntemleri ile müşteri kanal göçü analizi

    Customer channel migration analysis with clustering methods

    GİZEM ÇALIŞKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ

  4. Aircraft detection using deep learning

    Derin öğrenme kullanarak hava aracı tespiti

    UTKU MUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. SEDEF KENT PINAR

  5. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ