Geri Dön

Derin öğrenme algoritmaları kullanarak yazar, tür ve cinsiyet tanıma

Author, genre and gender identification using deep learning algorithms

  1. Tez No: 654853
  2. Yazar: MELİKE BEKTAŞ
  3. Danışmanlar: DOÇ. DR. PINAR TÜFEKCİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Tekirdağ Namık Kemal Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Günümüzde artan veri miktarı, bu verilerin sınıflandırılma ihtiyacını beraberinde getirmiştir. Sınıflandırma, benzer özellikte olan verilerin kategorize edilmesi işlemidir. Bu çalışmada, veri olarak Türkçe haber metinlerinin seçildiği ve bu verilerin yazar, tür ve cinsiyete göre sınıflandırılabilmelerini sağlayan, makine öğrenmesi ve derin öğrenme algoritmalarının sınıflandırıcı olarak kullanıldığı geniş kapsamlı bir modelleme çalışması yapılması amaçlanmıştır. Bu amaçla ilk olarak, bir gazetenin köşe yazarlarına ait köşe yazılarını içeren, yazar tanıma, tür tanıma ve cinsiyet tanıma işlemlerinde kullanılabilecek, büyük ölçekli ve çoklu sınıflara sahip, toplam 14 adet yeni veri seti oluşturulmuştur. Yazar tanıma için 7, tür tanıma için 6 ve cinsiyet tanıma için de 1 adet olan bu veri setleri, Türkçe diline özel, doğal dil işleme adımlarından geçirilerek, sınıflandırma işlemlerinin yapılacağı sınıflandırıcıların uygulandığı ve en yüksek doğruluk başarılarının araştırıldığı, modelleme aşaması için hazır hale getirilmiştir. Modelleme aşamasında, Türkçe metinlerde yazar tanıma, tür tanıma ve cinsiyet tanıma problemlerinin çözümüne yönelik makine öğrenmesi algoritmalarından Multinominal Naive Bayes (MNB) ve Random Forest (RF) algoritmaları, derin öğrenme algoritmalarından da Convolutional Neural Networks (CNN) ve Long Short Term Memory (LSTM) algoritmaları, sınıflandırıcı olarak veri setlerine uygulanmıştır. Ayrıca, bu sınıflandırıcılardan en yüksek performansın alındığı hiperparametre değerleri, uzun deneysel çalışmalar sonucunda bulunmaya çalışılmıştır. Modelleme sonucunda, her bir veri seti için en iyi modellere ait, doğruluk, kesinlik ve duyarlılık değerleri kullanılarak her modelin performansı bulunmuştur. Modelleme aşamasının sonucunda, yazar tanıma için, genel olarak tüm veri setleri arasında, en yüksek başarının alındığı en iyi model, % 95,81 doğruluk başarı değeriyle, AI-TNKU-7 veri seti için, CNN algoritmasının sınıflandırıcı olarak kullanıldığı model olarak bulunmuştur. Tür tanıma içinse, en yüksek başarının alındığı en iyi model, GI-TNKU-6 veri seti için LSTM algoritmasının sınıflandırıcı olarak kullanıldığı ve %96,73 doğruluk başarı değerinin alındığı model olmuştur. Cinsiyet tanıma için de, en yüksek başarının alındığı en iyi model, %88,68 doğruluk başarı değeriyle LSTM algoritmasının sınıflandırıcı olarak kullanıldığı model olarak bulunmuştur.

Özet (Çeviri)

Nowadays, the increasing amount of data has brought the need to classify these data. Classification is the process of categorizing similar data. In this study, it is aimed to make a modeling study in which Turkish news texts are selected as data and that these data can be classified according to author, genre and gender, machine learning and deep learning algorithms are used as classifiers. For this purpose, firstly, a total of 14 new data sets with large-scale and multiple classes, which can be used in author identification, genre identification and gender identification processes, containing columnists of a newspaper, were created. These data sets, which are 7 for author identification, 6 for genre identification and 1 for gender identification, have been made ready for the modeling phase, where the classifiers for identification are applied and the highest accuracy successes are investigated by passing through natural language processing steps specific to Turkish language. In the modeling phase, Multinominal Naive Bayes (MNB) and Random Forest (RF) algorithms, which are machine learning algorithms for the solution of author identification, genre identification and gender identification problems in Turkish texts, and Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM) from deep learning algorithms have been applied to data sets as classifiers. In addition, hyperparameter values with the highest performance from these classifiers have been tried to be found as a result of long experimental studies. As a result of modeling, using the accuracy, precision and recall values of the best models for each data set, the performance of each model was found. As a result of the modeling stage for author identification, it was seen that the CNN algorithm achieved the highest 95.81% accuracy in the AI-TNKU-7 data set compared to other algorithms used. As a result of the modeling for genre identification, an accuracy of 96.73% was achieved with the LSTM algorithm in the GI-TNKU-6 data set. It has been observed that the success of deep learning algorithms is higher than machine learning algorithms in other data sets used in genre identification. As a result of the modeling phase for gender identification, the LSTM algorithm performed better than other classifiers and an accuracy success of 88.68% was achieved.

Benzer Tezler

  1. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ

  2. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  3. Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi

    Recovering JPEG compression loss via deep learning-based super resolution techniques

    MUHAMMET BOLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. LÜTFİYE DURAK ATA

    DR. NURULLAH ÇALIK

  4. Speeding up branch and bound algorithm for airline Crew scheduling problem by using machine learning techniques

    Makine öğrenme teknikleri kullanarak Crew programlama sorunu için şube ve sınava algoritmasının hızlanması

    LEILA GHASEMZADEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Havacılık Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NAZIM KEMAL ÜRE

  5. Makine öğrenmesi yöntemleri ve derin öğrenme yöntemeleri ile yüz ifadesi tanıma

    Facial expression recognition using machine learning techniques and deep learning methods

    NIBRAS FAROOQ AKRAM ALKHALEELI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YAŞAR BECERİKLİ