Geri Dön

Development of data augmentation methods to improve performance of supervised machine learning models in natural language processing

Doğal dil işlemede denetimli makine öğrenimi modellerinin performansını arttırmak için veri zenginleştirme yöntemlerinin geliştirilmesi

  1. Tez No: 755178
  2. Yazar: ABDUL MAJEED ISSIFU
  3. Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 61

Özet

Başlangıçta,“Basit veri zenginleştirme”(Easy Data Augmentation) metin sınıflandırma görevleri için geliştirilmiştir. Temel olarak bu yaklaşım dört yöntemi kapsar: Eşanlamlı Değiştirme, Rastgele Ekleme, Rastgele Silme ve Rastgele Değiştirme. Bunlar derin sinir ağı modellerinde doğruluğu artırmak için hizalanır. Bu çalışma, bu yöntemleri medikal alanda Adlandırılmış Varlık Tanıma görevleri için genişletmeyi amaçlamaktadır. Adlandırılmış varlıkların (cümlelerdeki bir kelime veya kelime gruplarından veya ailelerden oluşan) doğası, veri zenginleştirme alanında bazı zorluklar getirse de, adlandırılmış varlık tanıma başarımını iyileştirilmesine öne sürmektedir. Bu yöntemleri biyomedikal kıyaslama veri kümelerinin boyutunu artırmak ve biyomedikal adlı varlık tanıma modellerinin performansını geliştirmek için kullanıyoruz. BERT gibi dönüştürücü modelleri üzerinde yapılan çalışmaları değerlendirmek için deneyler yaptık. Aktarım yoluyla öğrenme ile, veri kümeleri üzerinde bir biyomedikal dil modeli olan BioBERT'e ince ayar yaptık. BioBERT ve BERT modelleri ile tüm veri setlerinde genel bir iyileştirme ve BC5CDR-hastalık veri setinde sırasıyla %5.95 ve %8.49 F1 puanı artışı sağladık.

Özet (Çeviri)

Originally, Easy Data Augmentation holds its development to tasks of text classification. Basically, it encapsulates four methods: Synonym Replacement, Random Insertion, Random Deletion, and Random Swap aligned to improving accuracy on several deep neural network models. This study aimed at deploying these methods to new domains by augmenting Named Entity Recognition datasets from the medical domain. Although the nature of the named entities (consisting of a word or word groups or families in sentences) posed some challenges to the augmentation task, a case is advanced that an improvement of the named entity recognition performance is achievable. We use these methods to increase the size of biomedical benchmark datasets and improved the performance of biomedical named entity recognition models. We carried out experiments to evaluate the work on transformer model like BERT. With transfer learning, we fine-tuned BioBERT, a biomedical language model on the datasets. We achieved a general improvement on all datasets and a 5.95% and 8,49% increment of F1-score on BC5CDR-disease dataset with BioBERT and BERT models respectively.

Benzer Tezler

  1. Measuring and evaluating the maintainability of microservices

    Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi

    RAHİME YILMAZ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FEZA BUZLUCA

  2. Transfer learning based facial emotion recognition and action unit detection

    Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti

    SÜLEYMAN ENGİN BAĞLAYİCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  3. Self-supervised learning for non-alcoholic fatty liver disease diagnosis using ultrasound imaging

    Ultrason görüntüleme ile alkolik olmayan yağlı karaciğer hastalığı teşhisinde öz-denetimli öğrenme

    ALI ABDULAMEER BUKTASH BUKTASH

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDÜL KADİR GÖRÜR

  4. Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi

    Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques

    ÖZLEM YILDIZ BUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED FATİH ADAK

  5. Derin öğrenme için yenilikçi düzgünleştirme yaklaşımlarının geliştirilmesi ve medikal görüntülere uygulanması

    Development of new regularization approaches for deep learning and application to medical images

    KAZIM FIRILDAK

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHAMMED FATİH TALU

    DR. ÖĞR. ÜYESİ GAFFARİ ÇELİK