Geri Dön

Üretken rakip ağlar ile Türkçe metin üretimi

Turkish text generation with generative adversarial networks

  1. Tez No: 661410
  2. Yazar: BARIŞ GÜCÜK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ RAFET DURGUT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Karabük Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 49

Özet

Makinelerin çeşitli algoritmalar aracılığı ile kendisine verilen örneklerden öğrenip, gelecek durumlar için tahminlerde bulunmasına makine öğrenmesi denir. Makine öğrenmesi yöntemlerinde eğitim aşamasının başarısı için kullanılan eğitim veri seti kümesi oldukça önemlidir. Doğal dil işlemede en çok karşılaşılan problemlerden birisi yeterli veri bulunamaması veya bulunan verilerin etiketsiz olmasıdır. Özellikle sınıflandırma problemlerinde belirli bir sınıftaki verinin azlığı sınıflandırmanın başarısını düşürmektedir. Bu problemin doğal dil işleme alanında çözümü için metin üretimi kullanılmaktadır. Metin üretimi, metnin ayrık doğası ve sözlükte bulunmayan farklı yüzey formlarına sahip olduğundan çözülmesi zor bir problemdir. Bu çalışmada veri kümesinde bulunan metinlerin arttırılması amacı ile üretken rakip ağlar yöntemi kullanılmıştır. Üretilen bu metinlerin konuşma diline yakın olması amaçlanmıştır. Çalışmada morfolojik açıdan zengin bir dil olan Türkçe üzerinde üretken rakip ağlar kullanılarak normal dağılımlı olmayan bir veri setindeki eksik sınıfa ait metinlerin üretimi yapılmıştır. Çalışmada problem olarak haber metinlerinin olumlu veya olumsuz olarak sınıflandırılması ele alınmıştır. Oluşturulan veri kümesinde toplam 3058 haber metni bulunmaktadır. Bu haber metinlerinin 2949 tanesi olumlu 109 tanesi olumsuz sınıfa aittir. Olumsuz sınıfa ait örneklerin az olması nedeniyle bu sınıfta başarının düşük olduğu gözlenmiştir. Ardından, üretken rakip ağ ile olumsuz sınıftaki veriler test aşamasında 50 örnekten başlayarak 2750 örneğe kadar çoğaltılmıştır. Elde edilen sonuçlar n-gram, destek vektör makinesi, TF-IDF ve lojistik regresyon gibi makine öğrenmesi teknikleriyle birlikte kullanılarak performansları değerlendirilmiştir. Elde edilen sonuçlara göre üretken rakip ağların Türkçe metin üretimi için kullanılması sınıflandırma başarısını yaklaşık % 47 oranında arttırmıştır. Sınıflara ait örnek sayılarında aşırı farklılık olduğu durumda başarı oldukça düşük çıkmakta, örnek sayısı yapay zekâ ile artırıldığında ise başarı % 90 üzerine çıkmaktadır. Ayrıca üretilen sonuçlar incelendiğinde çalışmada kurulan model ile konuşma diline yakın cümleler üretilebileceği gözlenmiştir.

Özet (Çeviri)

Machine learning is when machines learn from the examples given to them through various algorithms and make predictions for future situations. The training data set used for the success of the training phase in machine learning methods is very important. One of the most common problems in natural language processing is the lack of sufficient data or the untagged data found. Especially in classification problems, the scarcity of data in a certain class reduces the success of the classification. Text generation is used to solve this problem in natural language processing. Text generation is a difficult problem to solve as it has the discrete nature of the text and different surface forms not found in the dictionary. In this study, generative adversarial network method was used to increase the texts in the data set. These texts are aimed to be close to the spoken language. In the study, texts belonging to the missing class in a non-normally distributed data set were produced by using generative adversarial network in Turkish, a morphologically rich language. The problem of the study is to categorize news texts as positive or negative. There is a total of 3058 news texts in the data set created. 2949 of these news texts belong to the positive and 109 of them belong to the negative category. It was observed that success was low in this class due to the small number of samples belonging to the negative class. Then, with the generative adversarial network, data in the negative class were replicated from 50 samples to 2750 samples in the test phase. The results obtained were evaluated together with machine learning techniques such as n-grams, support vector machine, TF-IDF and logistic regression. According to the results, the use of generative adversarial network for Turkish text generation increased the success of classification by approximately 47%. In cases where there is an excessive difference in the number of samples belonging to the classes, the success is low, and when the number of samples is increased with artificial intelligence, the success increases over 90%. In addition, when the results produced were examined, it was observed that sentences close to the spoken language could be produced with the model established in the study.

Benzer Tezler

  1. Dijital medyada fanatizm: futbola ilişkin sosyal ağlarda nefret söylemi

    Fanaticism on digital media: hate speech related to football on social networks

    MERVE APSAR GÜZELKOKAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Radyo-TelevizyonGalatasaray Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    DOÇ. DR. ÖZLEM DANACI YÜCE

  2. Üretken çekişmeli ağların (Gan) tıp alanındaki uygulamaları: Görüntü işleme ve tanı süreçlerinde Gan'ların rolü

    Applications of generative adversarial networks (Gan) in medicine: The role of Gans in image processing and diagnostic processes

    HAMİT OLĞAÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilim ve TeknolojiDicle Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSA ATAŞ

  3. Serratia türlerinin metabolitleri üzerine çalışmalar

    Studies on metabolites of serratia SPP.

    UFUK İNCE

    Doktora

    Türkçe

    Türkçe

    2020

    MikrobiyolojiAnkara Üniversitesi

    Farmasötik Mikrobiyoloji Ana Bilim Dalı

    PROF. DR. SULHİYE YILDIZ

  4. Hybridization of probabilistic graphical models and metaheuristics for handling dynamism and uncertainty

    Değişimin ve belirsizliğin ele alınması için olasılıksal çizgesel biçelerin ve sezgi-üstlerinin melezleştirilmesi

    GÖNÜL ULUDAĞ

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE ŞİMA UYAR

  5. Short term electricity load forecasting with deep learning

    Derin öğrenme ile kısa dönemli elektrik yük talep tahmini

    İBRAHİM YAZICI

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA