Multiclass classification of scientific texts written in Turkish by applying deep learning technique
Türkçe dilinde yazılan bilimsel metinlerin derin öğrenme tekniği uygulanarak çoklu sınıflandırılması
- Tez No: 724362
- Danışmanlar: DR. ÖĞR. ÜYESİ GÖRKEM KAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 61
Özet
Ekim 2018 yılında Google tarafından geliştirilen BERT derin öğrenme tekniği, makine öğrenimi ve doğal dil işleme dünyasında çok popüler oldu. Transformatörlerin Çift Yönlü Kodlayıcı Gösterimleri anlamına gelen BERT, yapay zeka ve makine öğrenimi teknolojilerini bir arada kullanan bir doğal dil işleme tekniği olarak açıklanabilir. Günümüzde, gözetimli öğrenme metodolojisinin bir parçası olan sınıflandırma problemleriyle çokça karşılaşılmaktadır. Sınıflandırmanın temeli eğitilen bir makinenin yeni gelen bir veri hakkında tahminleme yapabilmesine ve sınıflandırabilmesine dayanır. Buradaki amaç bir veri kümesi üzerinde tanımlı olan sınıflar arasında veriyi dağıtabilmektir. Türkçe'nin morfolojisinin zengin ama karmaşık olması, sondan eklemeli bir dil olması ve dil bilgisinden kaynaklanan zorluklar çoklu sınıflandırma problemlerinin çözümünde başlıca sorun teşkil etmekte iken BERT derin öğrenme tekniği ile bu sorun daha kolay çözülebilir hale gelmiştir. Bu çalışmada, son 10 yıl içinde Türkçe dili ile yazılmış akademik araştırma ve bilimsel çalışmalar veri seti olarak kullanıldı. Çoklu sınıflandırma problemlerinde kullanmak üzere, veri setine BERT derin öğrenme tekniği uygulanarak önceden eğitilmiş Türkçe bir BERT modeli üzerinde ince ayar (fine tuning) yapıldı. Deneylerin sonucunda, eğitilmiş olan sistemin doğruluğu %96 başarım oranına sahip olmuştur.
Özet (Çeviri)
The BERT deep learning technique, which is developed by Google in October 2018, has become very popular in the world of machine learning and natural language processing. BERT, which stands for Bidirectional Encoder Representations of Transformers, can be explained as a natural language processing technique that uses artificial intelligence and machine learning technologies together. Nowadays, classification problems that are part of the supervised learning methodology are frequently encountered. Classification is based on the ability of a trained machine to predict and classify new data. The purpose is to distribute data between classes defined on a dataset. In Turkish many of the difficulties arise from being an agglutinative language and having a rich but complex morphology. These difficulties cause hard to solving multiclass classification problems. However, it has become more easily solvable with using BERT deep learning technique. We used academic research and scientific studies written in Turkish in the last 10 years as our dataset. We fine-tuned our dataset on a pre-trained Turkish BERT model by applying BERT deep learning technique to use in multiclass classification problems. As a result of experiments, it is seen that the accuracy of the system we have trained has achieved 96% accuracy.
Benzer Tezler
- Makine öğrenmesi ile etkileşimli yardım masası sistemi tasarımı
Interactive helpdesk system design with machine learning
BUĞRA KAAN TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ
- Bulut bilişim sistemlerinde eşle/indirge yöntemi uygulanarak veri madenciliği yazılım çatısının geliştirilmesi
Development of data mining software framework by using map/reduce method in cloud computing systems
FERHAT ÖZGÜR ÇATAK
Doktora
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
PROF. DR. MEHMET ERDAL BALABAN
- Akciğer anomalilerinin çok sınıflı sınıflandırılması: Fantom malzemelerden akciğer dokularına
Multi-class classification of lung anomalies: From pantom materials to lung tissues
DERYA NARİN
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik MühendisliğiZonguldak Bülent Ecevit ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUĞBA ÖZGE ONUR
- A mixed-integer programming approach to multi-class data classification problem
Çok sınıflı veri sınıflandırma probleminin tam sayı karışık programlama metodu ile çözülmesi
FADİME YÜKSEKTEPE ÜNEY
Yüksek Lisans
İngilizce
2005
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. METİN TÜRKAY
- Classifying subcellular protein patterns in human cells
İnsan hücrelerinde alt hücresel protein desenlerinin sınıflandırılması
MAHMUT MOL
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET KARAARSLAN