Geri Dön

Multiclass classification of scientific texts written in Turkish by applying deep learning technique

Türkçe dilinde yazılan bilimsel metinlerin derin öğrenme tekniği uygulanarak çoklu sınıflandırılması

  1. Tez No: 724362
  2. Yazar: MUSTAFA ÖZKAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÖRKEM KAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Ekim 2018 yılında Google tarafından geliştirilen BERT derin öğrenme tekniği, makine öğrenimi ve doğal dil işleme dünyasında çok popüler oldu. Transformatörlerin Çift Yönlü Kodlayıcı Gösterimleri anlamına gelen BERT, yapay zeka ve makine öğrenimi teknolojilerini bir arada kullanan bir doğal dil işleme tekniği olarak açıklanabilir. Günümüzde, gözetimli öğrenme metodolojisinin bir parçası olan sınıflandırma problemleriyle çokça karşılaşılmaktadır. Sınıflandırmanın temeli eğitilen bir makinenin yeni gelen bir veri hakkında tahminleme yapabilmesine ve sınıflandırabilmesine dayanır. Buradaki amaç bir veri kümesi üzerinde tanımlı olan sınıflar arasında veriyi dağıtabilmektir. Türkçe'nin morfolojisinin zengin ama karmaşık olması, sondan eklemeli bir dil olması ve dil bilgisinden kaynaklanan zorluklar çoklu sınıflandırma problemlerinin çözümünde başlıca sorun teşkil etmekte iken BERT derin öğrenme tekniği ile bu sorun daha kolay çözülebilir hale gelmiştir. Bu çalışmada, son 10 yıl içinde Türkçe dili ile yazılmış akademik araştırma ve bilimsel çalışmalar veri seti olarak kullanıldı. Çoklu sınıflandırma problemlerinde kullanmak üzere, veri setine BERT derin öğrenme tekniği uygulanarak önceden eğitilmiş Türkçe bir BERT modeli üzerinde ince ayar (fine tuning) yapıldı. Deneylerin sonucunda, eğitilmiş olan sistemin doğruluğu %96 başarım oranına sahip olmuştur.

Özet (Çeviri)

The BERT deep learning technique, which is developed by Google in October 2018, has become very popular in the world of machine learning and natural language processing. BERT, which stands for Bidirectional Encoder Representations of Transformers, can be explained as a natural language processing technique that uses artificial intelligence and machine learning technologies together. Nowadays, classification problems that are part of the supervised learning methodology are frequently encountered. Classification is based on the ability of a trained machine to predict and classify new data. The purpose is to distribute data between classes defined on a dataset. In Turkish many of the difficulties arise from being an agglutinative language and having a rich but complex morphology. These difficulties cause hard to solving multiclass classification problems. However, it has become more easily solvable with using BERT deep learning technique. We used academic research and scientific studies written in Turkish in the last 10 years as our dataset. We fine-tuned our dataset on a pre-trained Turkish BERT model by applying BERT deep learning technique to use in multiclass classification problems. As a result of experiments, it is seen that the accuracy of the system we have trained has achieved 96% accuracy.

Benzer Tezler

  1. Makine öğrenmesi ile etkileşimli yardım masası sistemi tasarımı

    Interactive helpdesk system design with machine learning

    BUĞRA KAAN TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ

  2. Bulut bilişim sistemlerinde eşle/indirge yöntemi uygulanarak veri madenciliği yazılım çatısının geliştirilmesi

    Development of data mining software framework by using map/reduce method in cloud computing systems

    FERHAT ÖZGÜR ÇATAK

    Doktora

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. MEHMET ERDAL BALABAN

  3. Akciğer anomalilerinin çok sınıflı sınıflandırılması: Fantom malzemelerden akciğer dokularına

    Multi-class classification of lung anomalies: From pantom materials to lung tissues

    DERYA NARİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiZonguldak Bülent Ecevit Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUĞBA ÖZGE ONUR

  4. A mixed-integer programming approach to multi-class data classification problem

    Çok sınıflı veri sınıflandırma probleminin tam sayı karışık programlama metodu ile çözülmesi

    FADİME YÜKSEKTEPE ÜNEY

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Endüstri ve Endüstri MühendisliğiKoç Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. METİN TÜRKAY

  5. Classifying subcellular protein patterns in human cells

    İnsan hücrelerinde alt hücresel protein desenlerinin sınıflandırılması

    MAHMUT MOL

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET KARAARSLAN