Büyük veride derin öğrenme algoritmaları kullanılarak metin analizinin gerçekleştirilmesi

Application of text analysis processing using deep learning algorithms in big data

PDF İndir

Tez No: 607830
Yazar: MURAT AYDOĞAN
Danışmanlar: PROF. DR. ALİ KARCI
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: İnönü Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 107

Özet

Bilişim dünyasında yüksek hızda yaşanan gelişmeler ve internet kullanımının çok yaygın hale gelmesi ile birlikte, dijital platformlarda üretilen verinin çeşitliliği ve miktarı artmıştır. Üretilen bu büyük verinin çoğunluğu metinlerden oluşan içeriklerdir. Ancak her geçen gün artan metin verilerini geleneksel yöntemlerle işlemek zor bir problem haline gelmiştir. Bu nedenle büyük veri teknolojileri ve özellikle büyük veriler üzerinde oldukça başarılı performans gösteren derin sinir ağları ve sinir ağı temelli kelime temsil yöntemleri geliştirilmiştir. Bu tez çalışmasında kelime temsil yöntemleri, büyük veri teknolojileri ile birlikte kullanılmış derin öğrenme mimarileri üzerinde detaylı analizler yapılmıştır. Yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok doğal dile özgü çalışmalar yapıldığı ancak Türkçe çalışmaların sayısının yeterli olmadığı görülmüştür. Bu nedenle çalışmanın hedef dili olarak Türkçe tercih edilmiş bununla birlikte tez çalışmasında üç uygulama geliştirilmiştir ve iki özgün yöntem önerilmiştir. İlk uygulamada çalışmaların yapılacağı ortamı belirlemek için büyük veri uygulaması yapılmıştır. İkinci uygulamada metin işleme öncesinde önişleme çalışmaları yapılmıştır. Bu kapsamda TF (Term Frequency) - IDF (Inverse Document Frequency) yöntemi ile ilk kez Türkçe için stopwords listesi oluşturulmuştur. Üçüncü uygulamada ise oldukça büyük Türkçe etiketsiz verilerden oluşan bir veri seti (Dataset-1) üretilmiştir. Bu veri seti üzerinde kelime temsil yöntemleri kullanılarak kelime vektörleri eğitilmiş ve farklı kelime temsil yöntemlerinin başarımları kıyaslanmıştır. Üçüncü uygulama için de yaklaşık 1,5 milyon veri ve 10 sınıftan oluşan ikinci bir Türkçe veri seti (Dataset-2) üretilmiştir. Bu veri seti üzerinde, kelime vektörleri, önceden eğitilmiş kelime vektörleri olarak transfer öğrenme yöntemi ile farklı derin öğrenme mimarileri üzerinde metin sınıflandırma problemi için kullanıldığı bir yöntem önerilmiştir. Önerilen bu yöntem ile hemen hemen tüm modeller üzerinde mevcut başarım değerleri %5-%7 arasında geliştirilmiştir. İkinci yöntem olarak sözlük yöntemi adı verilen yeni bir yöntem önerilmiştir. Türkçe için hali hazırda geliştirilmiş bir yazım denetleyicisi olmadığı için bu yöntem ile Dataset-2 üzerindeki yanlış yazılmış kelimeler tespit edilmiş ve bir derin öğrenme modeli olan LSTM (Long Short Term Memory) ile bu kelimelerin yerine doğru kelimeler tespit edilmeye çalışılmıştır. Uygulama sonucunda elde edilen sınıflandırma başarımı analiz edildiğinde yaklaşık 55.000 hatalı kelimenin doğru kelime ile değiştirildiği ve başarım değerinin %8.68 geliştirildiği görülmüştür. Bu tez çalışmasıyla birlikte Türkçe metin işleme çalışmalarına katkı sağlamak amacıyla iki adet büyük Türkçe veri seti üretilmiştir. Ayrıca bu veri setleri üzerinde şimdiye kadar eğitilmiş en büyük Türkçe kelime vektörleri üretilerek araştırmacıların kullanımına açık halde paylaşılmıştır.

Özet (Çeviri)

With the high-speed developments in the IT world and the widespread use of the Internet, the diversity and amount of data produced on digital platforms has increased. The majority of this big data generated is textual content. However, it has become a difficult problem to process the increasing text data with traditional methods. For this reason, deep neural networks and neural network-based word embedding methods have been developed that perform highly successfully on big data technologies and especially big data. In this thesis, detailed analysis has been made on deep learning architectures used word embedding methods with big data technologies. When the studies were examined, it was seen that there were many natural language specific studies, especially English, but the number of Turkish studies was not sufficient. Therefore, Turkish was chosen as the target language of the study. However, three applications were developed in the thesis and two novel methods were proposed. In the first application, a big data application was made to determine the platform in which the studies would be conducted. In the second application, preprocessing studies were performed before text processing. In this context, the stopwords list for Turkish was generated for the first time by TF (Term Frequency) - IDF (Inverse Document Frequency) method. In the third application, a dataset (Dataset-1) consisting of very large Turkish unlabeled data has been generated. Word vectors were trained on this dataset using word embedding methods and the performances of different word embedding methods were compared. For the third application, a second Turkish dataset (Dataset-2) consisting of approximately 1,5 million data and 10 classes were generated. A method has been proposed on this data set where word vectors are used for the problem of text classification on different deep learning architectures with the transfer learning method as pre-trained word vectors. With this proposed method, current performance values on almost all models have been improved between 5-7%. As a second method, a new method called the dictionary method has been proposed. Since there is no spelling checker developed for Turkish, the misspelled words on Dataset-2 have been identified and LSTM (Long Short Term Memory), which is a deep learning model, has tried to identify the correct words instead. When the classification performance obtained as a result of the analysis was analyzed, it was seen that approximately 55.000 incorrect words were replaced with the correct words and the performance value was improved by 8.68%. With this thesis, two large Turkish datasets were generated in order to contribute to Turkish text processing. In addition, the largest Turkish word vectors ever trained on these datasets were generated and shared open to researchers.

Benzer Tezler

Tez No
934727
İş kazaları ve meslek hastalıklarının önlenmesinde yapay zekâ kullanımı
Use of artificial intelligence in preventing work accidents and occupational diseases
ADNAN KARABULUT
Doktora
Türkçe
2025
Mühendislik Bilimleri Ankara Yıldırım Beyazıt Üniversitesi
İş Güvenliği Ana Bilim Dalı
PROF. DR. MEHMET BARAN
Tez No
637308
Implementation of data-driven decisions in urban governance and planning
Kent yönetişim ve planlamasında veri odaklı kararların uygulanması
JAFAR NAJAFLI
Yüksek Lisans
İngilizce
2020
Şehircilik ve Bölge Planlama İstanbul Teknik Üniversitesi
Şehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. ÖZHAN ERTEKİN
Tez No
887325
Brain-inspired cortical-coding algorithm for multimedia processing
Multimedya işlemek için beyinden esinlenilmiş kortikal kodlama algoritması
AHMET EMİN ÜNAL
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ
Tez No
803918
Kümeleme yöntemleri ile müşteri kanal göçü analizi
Customer channel migration analysis with clustering methods
GİZEM ÇALIŞKAN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ
Tez No
732793
Aircraft detection using deep learning
Derin öğrenme kullanarak hava aracı tespiti
UTKU MUTLU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
İletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR

Geri Dön