Development of data augmentation methods to improve performance of supervised machine learning models in natural language processing
Doğal dil işlemede denetimli makine öğrenimi modellerinin performansını arttırmak için veri zenginleştirme yöntemlerinin geliştirilmesi
- Tez No: 755178
- Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 61
Özet
Başlangıçta,“Basit veri zenginleştirme”(Easy Data Augmentation) metin sınıflandırma görevleri için geliştirilmiştir. Temel olarak bu yaklaşım dört yöntemi kapsar: Eşanlamlı Değiştirme, Rastgele Ekleme, Rastgele Silme ve Rastgele Değiştirme. Bunlar derin sinir ağı modellerinde doğruluğu artırmak için hizalanır. Bu çalışma, bu yöntemleri medikal alanda Adlandırılmış Varlık Tanıma görevleri için genişletmeyi amaçlamaktadır. Adlandırılmış varlıkların (cümlelerdeki bir kelime veya kelime gruplarından veya ailelerden oluşan) doğası, veri zenginleştirme alanında bazı zorluklar getirse de, adlandırılmış varlık tanıma başarımını iyileştirilmesine öne sürmektedir. Bu yöntemleri biyomedikal kıyaslama veri kümelerinin boyutunu artırmak ve biyomedikal adlı varlık tanıma modellerinin performansını geliştirmek için kullanıyoruz. BERT gibi dönüştürücü modelleri üzerinde yapılan çalışmaları değerlendirmek için deneyler yaptık. Aktarım yoluyla öğrenme ile, veri kümeleri üzerinde bir biyomedikal dil modeli olan BioBERT'e ince ayar yaptık. BioBERT ve BERT modelleri ile tüm veri setlerinde genel bir iyileştirme ve BC5CDR-hastalık veri setinde sırasıyla %5.95 ve %8.49 F1 puanı artışı sağladık.
Özet (Çeviri)
Originally, Easy Data Augmentation holds its development to tasks of text classification. Basically, it encapsulates four methods: Synonym Replacement, Random Insertion, Random Deletion, and Random Swap aligned to improving accuracy on several deep neural network models. This study aimed at deploying these methods to new domains by augmenting Named Entity Recognition datasets from the medical domain. Although the nature of the named entities (consisting of a word or word groups or families in sentences) posed some challenges to the augmentation task, a case is advanced that an improvement of the named entity recognition performance is achievable. We use these methods to increase the size of biomedical benchmark datasets and improved the performance of biomedical named entity recognition models. We carried out experiments to evaluate the work on transformer model like BERT. With transfer learning, we fine-tuned BioBERT, a biomedical language model on the datasets. We achieved a general improvement on all datasets and a 5.95% and 8,49% increment of F1-score on BC5CDR-disease dataset with BioBERT and BERT models respectively.
Benzer Tezler
- Measuring and evaluating the maintainability of microservices
Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi
RAHİME YILMAZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FEZA BUZLUCA
- Transfer learning based facial emotion recognition and action unit detection
Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti
SÜLEYMAN ENGİN BAĞLAYİCİ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Derin öğrenme için yenilikçi düzgünleştirme yaklaşımlarının geliştirilmesi ve medikal görüntülere uygulanması
Development of new regularization approaches for deep learning and application to medical images
KAZIM FIRILDAK
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUHAMMED FATİH TALU
DR. ÖĞR. ÜYESİ GAFFARİ ÇELİK
- Bankacılık sektöründe yöneticilere sağlanan faydalar ve banka performansı arasındaki ilişki: Borsa İstanbul'da işlem gören bankalar üzerine inceleme
The relationship between benefits provided to executives and company performance in banking sector: Investigation on banks traded in Borsa Istanbul
EYLÜL YARDIMCI
Yüksek Lisans
Türkçe
2021
BankacılıkGalatasaray Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. OĞUZHAN BAHADIR
- Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks
Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz
AHMET KEMAL YETKİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE