Geri Dön

Development of data augmentation methods to improve performance of supervised machine learning models in natural language processing

Doğal dil işlemede denetimli makine öğrenimi modellerinin performansını arttırmak için veri zenginleştirme yöntemlerinin geliştirilmesi

  1. Tez No: 755178
  2. Yazar: ABDUL MAJEED ISSIFU
  3. Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 61

Özet

Başlangıçta,“Basit veri zenginleştirme”(Easy Data Augmentation) metin sınıflandırma görevleri için geliştirilmiştir. Temel olarak bu yaklaşım dört yöntemi kapsar: Eşanlamlı Değiştirme, Rastgele Ekleme, Rastgele Silme ve Rastgele Değiştirme. Bunlar derin sinir ağı modellerinde doğruluğu artırmak için hizalanır. Bu çalışma, bu yöntemleri medikal alanda Adlandırılmış Varlık Tanıma görevleri için genişletmeyi amaçlamaktadır. Adlandırılmış varlıkların (cümlelerdeki bir kelime veya kelime gruplarından veya ailelerden oluşan) doğası, veri zenginleştirme alanında bazı zorluklar getirse de, adlandırılmış varlık tanıma başarımını iyileştirilmesine öne sürmektedir. Bu yöntemleri biyomedikal kıyaslama veri kümelerinin boyutunu artırmak ve biyomedikal adlı varlık tanıma modellerinin performansını geliştirmek için kullanıyoruz. BERT gibi dönüştürücü modelleri üzerinde yapılan çalışmaları değerlendirmek için deneyler yaptık. Aktarım yoluyla öğrenme ile, veri kümeleri üzerinde bir biyomedikal dil modeli olan BioBERT'e ince ayar yaptık. BioBERT ve BERT modelleri ile tüm veri setlerinde genel bir iyileştirme ve BC5CDR-hastalık veri setinde sırasıyla %5.95 ve %8.49 F1 puanı artışı sağladık.

Özet (Çeviri)

Originally, Easy Data Augmentation holds its development to tasks of text classification. Basically, it encapsulates four methods: Synonym Replacement, Random Insertion, Random Deletion, and Random Swap aligned to improving accuracy on several deep neural network models. This study aimed at deploying these methods to new domains by augmenting Named Entity Recognition datasets from the medical domain. Although the nature of the named entities (consisting of a word or word groups or families in sentences) posed some challenges to the augmentation task, a case is advanced that an improvement of the named entity recognition performance is achievable. We use these methods to increase the size of biomedical benchmark datasets and improved the performance of biomedical named entity recognition models. We carried out experiments to evaluate the work on transformer model like BERT. With transfer learning, we fine-tuned BioBERT, a biomedical language model on the datasets. We achieved a general improvement on all datasets and a 5.95% and 8,49% increment of F1-score on BC5CDR-disease dataset with BioBERT and BERT models respectively.

Benzer Tezler

  1. Measuring and evaluating the maintainability of microservices

    Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi

    RAHİME YILMAZ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FEZA BUZLUCA

  2. Transfer learning based facial emotion recognition and action unit detection

    Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti

    SÜLEYMAN ENGİN BAĞLAYİCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  3. Derin öğrenme için yenilikçi düzgünleştirme yaklaşımlarının geliştirilmesi ve medikal görüntülere uygulanması

    Development of new regularization approaches for deep learning and application to medical images

    KAZIM FIRILDAK

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHAMMED FATİH TALU

    DR. ÖĞR. ÜYESİ GAFFARİ ÇELİK

  4. Bankacılık sektöründe yöneticilere sağlanan faydalar ve banka performansı arasındaki ilişki: Borsa İstanbul'da işlem gören bankalar üzerine inceleme

    The relationship between benefits provided to executives and company performance in banking sector: Investigation on banks traded in Borsa Istanbul

    EYLÜL YARDIMCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    BankacılıkGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. OĞUZHAN BAHADIR

  5. Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks

    Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz

    AHMET KEMAL YETKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE