Geri Dön

Derin öğrenme ve büyük veri yaklaşımları ile metin analizi

Text analysis with deep learning and big data approaches

  1. Tez No: 521781
  2. Yazar: BETÜL AY KARAKUŞ
  3. Danışmanlar: DOÇ. DR. GALİP AYDIN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 246

Özet

Büyük veri analitiği ve derin öğrenme, gelişen dijital dünyada veri biliminin son yıllarda odaklandığı iki önemli araştırma ve çalışma alanıdır. Büyük miktarda ve farklı çeşitlikteki metin verilerini geleneksel yazılım araçları ve teknolojileri kullanarak analiz etmek ve yönetmek zor bir problemdir. Bu tez çalışmasında büyük veri teknolojileri ve derin öğrenme mimarileri detaylı bir şekilde analiz edilmiş olup dört temel uygulama sunularak akademik katkı sunulması hedeflenmiştir. İlk olarak çağrı merkezleri için bulut tabanlı dağıtık performans analizi ve değerlendirme sistemi geliştirilmiştir. Bu sistemin, iç ve dış çağrı kayıtlarını dağıtık bir şekilde işleyen bulut tabanlı bir performans ölçüm sistemi sunarak müşteri memnuniyeti, satış ve pazarlama, hizmet kalitesi ve performans yönetiminde yüksek bir performans ile önemli bir katkı sağlaması hedeflenmiştir. İkinci uygulamada büyük veri teknolojileri kullanarak Türk dili için dağıtık okunabilirlik analiz sistemi geliştirilmiştir. Türkiye'de eğitim kurumları tarafından kullanılan herhangi bir okunabilirlik uygulaması yoktur ve bu ihtiyaçtan dolayı Türkçe okuma kitaplarını kısa bir sürede analiz edecek okunabilirlik sistemi geliştirilmiştir. Üçüncü uygulamada, farklı mimariler, yöntemler, katmanlar ve hiper parametre optimizasyonları ile oluşturulan derin öğrenme modelleri ile duygu analizi ve haberler veri setinde çok kategorili metin sınıflandırma çalışmaları gerçekleştirilmiştir. Dördüncü uygulamada ise dil bağımsız metin sınıflandırma problemlerinde kullanılabilecek yeni bir Ortalama Doküman Vektörü (ADE) yöntemi sunulmuştur. Önerilen yöntem Türkçe ve İngilizce film yorumlarında duygu sınıflandırması için test edilmiş ve başarılı bir performans göstermiştir. Türkçe metin sınıflandırma çalışmalarında kullanılabilecek büyük ölçekli bir kıyaslama veri seti yoktur. Bu tez çalışmasının diğer temel katkısı ise bu ihtiyacı karşılamaya yönelik yaklaşık 1 milyon benzersiz kelime içeren Türkçe haberler veri setinin ve 150 bin adet etiketli Türkçe film yorumları veri setinin oluşturulması ve akademik kullanıma açık olarak sunulmasıdır.

Özet (Çeviri)

Big data analytics and deep learning are two significant areas of research and study that data science has focused on in the developing digital world over the last few years. Analyzing and managing large amounts of text data using a variety of traditional software tools and technologies is a difficult problem. In this thesis, big data technologies and deep learning architectures have been analyzed in detail and four basic applications have been proposed as academic contributions. First, a cloud based distributed performance analysis and evaluation system was developed for call centers. The proposed system aims to provide significant contribution in terms of customer satisfaction, sales and marketing, high quality of service and performance management by offering a cloud based performance measurement system that handles both internal and external call records in a distributed manner. Second, a distributed readability analysis system for the Turkish language was developed using big data technologies. There is no readability application used by educational institutions in Turkey and due to this need, a readability system has been developed to analyze Turkish reading books in a short time. Third, using various deep learning models which are created with different architectures, methods, layers and hyper parameters sentiment analysis and multi-category text classification on news datasets studies are performed. Lastly, a novel Average Document Embeddings (ADE) approach is presented which can be used for multi-category language independent text classification. The proposed method has been tested for sentiment classification in Turkish and English movie reviews and has performed well. There is no large scale benchmark dataset that can be used in Turkish text classification studies. The other main contribution of this thesis is that the Turkish news data set containing about 1 million unique words to meet this need and the creation of the 150,000 labeled Turkish movie reviews dataset, which is made available for academic use.

Benzer Tezler

  1. Text clustering and topic modeling on Covid-19 vaccine tweets using machine learning, natural language processing, and deep learning

    Makine öğrenimi, doğal dil işleme ve derin öğrenme kullanılarak Covıd-19 aşısı tweetlerinde metin kümeleme ve konu modelleme

    DAVID OKORE UKWEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT KARABATAK

  2. Development of deep learning-basedsentiment analysis approaches withneural network-based languagemodels

    Sinir ağı tabanlı dil modelleriyle derin öğrenme tabanlı duygu analizi yaklaşımlarının geliştirilmesi

    KHADIJA MOHAMAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. KÜRŞAT MUSTAFA KARAOĞLAN

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators

    Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi

    MAHMUT SAMİ SİVRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  5. Türkçe için sahte haber tespit modelinin oluşturulması

    A fake news detection model for Turkish language

    UĞUR MERTOĞLU

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURKAY GENÇ

    PROF. DR. HAYRİ SEVER