Büyük veride derin öğrenme algoritmaları kullanılarak metin analizinin gerçekleştirilmesi
Application of text analysis processing using deep learning algorithms in big data
- Tez No: 607830
- Danışmanlar: PROF. DR. ALİ KARCI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: İnönü Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 107
Özet
Bilişim dünyasında yüksek hızda yaşanan gelişmeler ve internet kullanımının çok yaygın hale gelmesi ile birlikte, dijital platformlarda üretilen verinin çeşitliliği ve miktarı artmıştır. Üretilen bu büyük verinin çoğunluğu metinlerden oluşan içeriklerdir. Ancak her geçen gün artan metin verilerini geleneksel yöntemlerle işlemek zor bir problem haline gelmiştir. Bu nedenle büyük veri teknolojileri ve özellikle büyük veriler üzerinde oldukça başarılı performans gösteren derin sinir ağları ve sinir ağı temelli kelime temsil yöntemleri geliştirilmiştir. Bu tez çalışmasında kelime temsil yöntemleri, büyük veri teknolojileri ile birlikte kullanılmış derin öğrenme mimarileri üzerinde detaylı analizler yapılmıştır. Yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe çalışmaların sayısının yeterli olmadığı görülmüştür. Bu nedenle çalışmanın hedef dili olarak Türkçe tercih edilmiş bununla birlikte tez çalışmasında üç uygulama geliştirilmiştir ve iki özgün yöntem önerilmiştir. İlk uygulamada çalışmaların yapılacağı ortamı belirlemek için büyük veri uygulaması yapılmıştır. İkinci uygulamada metin işleme öncesinde önişleme çalışmaları yapılmıştır. Bu kapsamda TF (Term Frequency) - IDF (Inverse Document Frequency) yöntemi ile ilk kez Türkçe için stopwords listesi oluşturulmuştur. Üçüncü uygulamada ise oldukça büyük Türkçe etiketsiz verilerden oluşan bir veri seti (Dataset-1) üretilmiştir. Bu veri seti üzerinde kelime temsil yöntemleri kullanılarak kelime vektörleri eğitilmiş ve farklı kelime temsil yöntemlerinin başarımları kıyaslanmıştır. Üçüncü uygulama için de yaklaşık 1,5 milyon veri ve 10 sınıftan oluşan ikinci bir Türkçe veri seti (Dataset-2) üretilmiştir. Bu veri seti üzerinde, kelime vektörleri, önceden eğitilmiş kelime vektörleri olarak transfer öğrenme yöntemi ile farklı derin öğrenme mimarileri üzerinde metin sınıflandırma problemi için kullanıldığı bir yöntem önerilmiştir. Önerilen bu yöntem ile hemen hemen tüm modeller üzerinde mevcut başarım değerleri %5-%7 arasında geliştirilmiştir. İkinci yöntem olarak sözlük yöntemi adı verilen yeni bir yöntem önerilmiştir. Türkçe için hali hazırda geliştirilmiş bir yazım denetleyicisi olmadığı için bu yöntem ile Dataset-2 üzerindeki yanlış yazılmış kelimeler tespit edilmiş ve bir derin öğrenme modeli olan LSTM (Long Short Term Memory) ile bu kelimelerin yerine doğru kelimeler tespit edilmeye çalışılmıştır. Uygulama sonucunda elde edilen sınıflandırma başarımı analiz edildiğinde yaklaşık 55.000 hatalı kelimenin doğru kelime ile değiştirildiği ve başarım değerinin %8.68 geliştirildiği görülmüştür. Bu tez çalışmasıyla birlikte Türkçe metin işleme çalışmalarına katkı sağlamak amacıyla iki adet büyük Türkçe veri seti üretilmiştir. Ayrıca bu veri setleri üzerinde şimdiye kadar eğitilmiş en büyük Türkçe kelime vektörleri üretilerek araştırmacıların kullanımına açık halde paylaşılmıştır.
Özet (Çeviri)
With the high-speed developments in the IT world and the widespread use of the Internet, the diversity and amount of data produced on digital platforms has increased. The majority of this big data generated is textual content. However, it has become a difficult problem to process the increasing text data with traditional methods. For this reason, deep neural networks and neural network-based word embedding methods have been developed that perform highly successfully on big data technologies and especially big data. In this thesis, detailed analysis has been made on deep learning architectures used word embedding methods with big data technologies. When the studies were examined, it was seen that there were many natural language specific studies, especially English, but the number of Turkish studies was not sufficient. Therefore, Turkish was chosen as the target language of the study. However, three applications were developed in the thesis and two novel methods were proposed. In the first application, a big data application was made to determine the platform in which the studies would be conducted. In the second application, preprocessing studies were performed before text processing. In this context, the stopwords list for Turkish was generated for the first time by TF (Term Frequency) - IDF (Inverse Document Frequency) method. In the third application, a dataset (Dataset-1) consisting of very large Turkish unlabeled data has been generated. Word vectors were trained on this dataset using word embedding methods and the performances of different word embedding methods were compared. For the third application, a second Turkish dataset (Dataset-2) consisting of approximately 1,5 million data and 10 classes were generated. A method has been proposed on this data set where word vectors are used for the problem of text classification on different deep learning architectures with the transfer learning method as pre-trained word vectors. With this proposed method, current performance values on almost all models have been improved between 5-7%. As a second method, a new method called the dictionary method has been proposed. Since there is no spelling checker developed for Turkish, the misspelled words on Dataset-2 have been identified and LSTM (Long Short Term Memory), which is a deep learning model, has tried to identify the correct words instead. When the classification performance obtained as a result of the analysis was analyzed, it was seen that approximately 55.000 incorrect words were replaced with the correct words and the performance value was improved by 8.68%. With this thesis, two large Turkish datasets were generated in order to contribute to Turkish text processing. In addition, the largest Turkish word vectors ever trained on these datasets were generated and shared open to researchers.
Benzer Tezler
- Implementation of data-driven decisions in urban governance and planning
Kent yönetişim ve planlamasında veri odaklı kararların uygulanması
JAFAR NAJAFLI
Yüksek Lisans
İngilizce
2020
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. ÖZHAN ERTEKİN
- Brain-inspired cortical-coding algorithm for multimedia processing
Multimedya işlemek için beyinden esinlenilmiş kortikal kodlama algoritması
AHMET EMİN ÜNAL
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Kümeleme yöntemleri ile müşteri kanal göçü analizi
Customer channel migration analysis with clustering methods
GİZEM ÇALIŞKAN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ
- Aircraft detection using deep learning
Derin öğrenme kullanarak hava aracı tespiti
UTKU MUTLU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR
- Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ