Geri Dön

Çift yönlü enkoder transformatör tabanlı Türkçe metin sınıflandırma derin öğrenme modeli geliştirilmesi

Başlık çevirisi mevcut değil.

  1. Tez No: 735613
  2. Yazar: KAMİL AKARSU
  3. Danışmanlar: DOÇ. DR. AKIN ÖZÇİFT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Çift Yönlü Kodlayıcı Temsilleri Transformatörler, Doğal Dil İşleme, Türkçe Metin Sınıflandırma, Bidirectional Encoder Representations Transformers, Natural Language Processing, Turkish Text Classification
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Manisa Celal Bayar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 67

Özet

Yazının icadından günümüz dünyasına kadar geçen sürede katlamalı olarak artan sayıda yazılı bilgi kaynakları mevcuttur. Çok büyük miktarda metin verisi beraberinde kaçınılmaz sorunları da getirmiştir. Elde edilen yazılı verilerin incelenmesi, etiketlenmesi, konularının tahmin edilmesi gibi problemler Doğal Dil İşleme, Makine Öğrenmesi ve son yıllarda adını sıkça duyduğumuz Derin Öğrenme teknikleri ile çözüme kavuşturulmaktadır. Yapısal olarak birbirinden farklı diller üzerinde çıkarım ve inceleme yapmak ise çok daha zordur. Bu sorunun bilincinde olarak her dil için aynı teknikleri ve işlemleri kullanmak yerine dillerin kökenine ve morfolojik yapısına göre çözüm geliştirmek daha akılcı olacaktır. Bu tez çalışmasında yapısal olarak zengin bir dil olan Türkçe üzerinde BERT modeli başarımının geleneksel Makine Öğrenmesi algoritmalarına kıyasla daha fazla olduğunun gösterilmesi hedeflenmektedir. Morfolojik olarak zengin diller üzerinde geleneksel Makine Öğrenmesi algoritmalarını uygulamak için çok yoğun ön işleme adımları gerekmektedir. Fakat BERT modeli kullanılırken bu yoğun ön işleme adımlarına gerek kalmamaktadır. Yarı eğitimli bir model olan BERT etiketlenmemiş ham veri üzerinde daha performanslı çalışmaktadır. Bu çalışmada literatürden Metin Sınıflandırma, Duygu Analizi, Spam Tespiti olmak üzere üç farklı Türkçe veri seti üzerinde deneyler yapılmıştır. Yapılan deneyler sonucunda BERT modelinin geleneksel Makine Öğrenmesi algoritmalarının birçoğundan daha iyi performansla çalıştığı kanıtlanmıştır. Deneylerden elde edilen çıktılar sonuç ve öneriler bölümünde paylaşılmıştır.

Özet (Çeviri)

From the invention of writing to today's world, an exponentially increasing number of written information sources are available. The huge amount of text data brought with it inevitable problems. It is possible with Natural Language Processing, Machine Learning and Deep Learning techniques, which we have heard frequently in recent years, for problems such as examining, labeling, estimating the subjects of the written data obtained. It is much more difficult to make inferences and analyzes on languages that are structurally different from each other. Being aware of this problem, instead of using the same techniques and operations for each language, it would be more rational to develop solutions according to the origin and morphological structure of the languages. In this thesis, it is aimed to show that the performance of the BERT model on Turkish, which is a structurally rich language, is higher than traditional Machine Learning algorithms. Extensive preprocessing steps are required to implement traditional Machine Learning algorithms on morphologically rich languages. However, these intensive preprocessing steps are not required when using the BERT model. BERT, which is a semi-trained model, performs better on unlabeled raw material. In this study, experiments were conducted on three different Turkish datasets from the literature: Text Classification, Sentiment Analysis, Spam Detection. As a result of the experiments, it has been proven that the BERT model works better than most of the traditional Machine Learning algorithms. The results and findings obtained from the experiments are shared in the conclusion and recommendations section.

Benzer Tezler

  1. Çift yönlü enkoder transformatör tabanlı duygu analizi derin öğrenme modeli geliştirilmesi

    Bidirectional encoder transformer based emotion analysis deep learning modeldevelopment

    CEVHERNUR SÖYLEMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolManisa Celal Bayar Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AKIN ÖZÇİFT

    DOÇ. DR. DENİZ KILINÇ

  2. Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

    Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek

    NECLA NİSA SOYLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  3. Sentiment analysis of Arabs in Turkey using deep learning on social media data

    Sosyal medya verileri üzerinde derin oğrenme kullanılarak Türkeyedeki Arabların duygu analizi

    İNAS CUMAOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YÜKSEL ÇELİK

    DR. ÖĞR. ÜYESİ VEDAT TÜMEN

  4. Improving document ranking with query expansion based on bert word embeddings

    Bert word embeddings'i temel alan sorgu genişletme ile belge sıralamasını geliştirme

    DOĞUHAN YEKE

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FEHİME NİHAN ÇİÇEKLİ