Çift yönlü enkoder transformatör tabanlı Türkçe metin sınıflandırma derin öğrenme modeli geliştirilmesi
Başlık çevirisi mevcut değil.
- Tez No: 735613
- Danışmanlar: DOÇ. DR. AKIN ÖZÇİFT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Çift Yönlü Kodlayıcı Temsilleri Transformatörler, Doğal Dil İşleme, Türkçe Metin Sınıflandırma, Bidirectional Encoder Representations Transformers, Natural Language Processing, Turkish Text Classification
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Manisa Celal Bayar Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
- Sayfa Sayısı: 67
Özet
Yazının icadından günümüz dünyasına kadar geçen sürede katlamalı olarak artan sayıda yazılı bilgi kaynakları mevcuttur. Çok büyük miktarda metin verisi beraberinde kaçınılmaz sorunları da getirmiştir. Elde edilen yazılı verilerin incelenmesi, etiketlenmesi, konularının tahmin edilmesi gibi problemler Doğal Dil İşleme, Makine Öğrenmesi ve son yıllarda adını sıkça duyduğumuz Derin Öğrenme teknikleri ile çözüme kavuşturulmaktadır. Yapısal olarak birbirinden farklı diller üzerinde çıkarım ve inceleme yapmak ise çok daha zordur. Bu sorunun bilincinde olarak her dil için aynı teknikleri ve işlemleri kullanmak yerine dillerin kökenine ve morfolojik yapısına göre çözüm geliştirmek daha akılcı olacaktır. Bu tez çalışmasında yapısal olarak zengin bir dil olan Türkçe üzerinde BERT modeli başarımının geleneksel Makine Öğrenmesi algoritmalarına kıyasla daha fazla olduğunun gösterilmesi hedeflenmektedir. Morfolojik olarak zengin diller üzerinde geleneksel Makine Öğrenmesi algoritmalarını uygulamak için çok yoğun ön işleme adımları gerekmektedir. Fakat BERT modeli kullanılırken bu yoğun ön işleme adımlarına gerek kalmamaktadır. Yarı eğitimli bir model olan BERT etiketlenmemiş ham veri üzerinde daha performanslı çalışmaktadır. Bu çalışmada literatürden Metin Sınıflandırma, Duygu Analizi, Spam Tespiti olmak üzere üç farklı Türkçe veri seti üzerinde deneyler yapılmıştır. Yapılan deneyler sonucunda BERT modelinin geleneksel Makine Öğrenmesi algoritmalarının birçoğundan daha iyi performansla çalıştığı kanıtlanmıştır. Deneylerden elde edilen çıktılar sonuç ve öneriler bölümünde paylaşılmıştır.
Özet (Çeviri)
From the invention of writing to today's world, an exponentially increasing number of written information sources are available. The huge amount of text data brought with it inevitable problems. It is possible with Natural Language Processing, Machine Learning and Deep Learning techniques, which we have heard frequently in recent years, for problems such as examining, labeling, estimating the subjects of the written data obtained. It is much more difficult to make inferences and analyzes on languages that are structurally different from each other. Being aware of this problem, instead of using the same techniques and operations for each language, it would be more rational to develop solutions according to the origin and morphological structure of the languages. In this thesis, it is aimed to show that the performance of the BERT model on Turkish, which is a structurally rich language, is higher than traditional Machine Learning algorithms. Extensive preprocessing steps are required to implement traditional Machine Learning algorithms on morphologically rich languages. However, these intensive preprocessing steps are not required when using the BERT model. BERT, which is a semi-trained model, performs better on unlabeled raw material. In this study, experiments were conducted on three different Turkish datasets from the literature: Text Classification, Sentiment Analysis, Spam Detection. As a result of the experiments, it has been proven that the BERT model works better than most of the traditional Machine Learning algorithms. The results and findings obtained from the experiments are shared in the conclusion and recommendations section.
Benzer Tezler
- Çift yönlü enkoder transformatör tabanlı duygu analizi derin öğrenme modeli geliştirilmesi
Bidirectional encoder transformer based emotion analysis deep learning modeldevelopment
CEVHERNUR SÖYLEMEZ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolManisa Celal Bayar ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. AKIN ÖZÇİFT
DOÇ. DR. DENİZ KILINÇ
- Çift yönlü enkoder transformatör tabanlı siber zorbalık tespiti derin öğrenme modeli geliştirilmesi
Başlık çevirisi yok
FATMA ÖZ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolManisa Celal Bayar ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. AKIN ÖZÇİFT
- Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers
Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek
NECLA NİSA SOYLU
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SEFER
- Sentiment analysis of Arabs in Turkey using deep learning on social media data
Sosyal medya verileri üzerinde derin oğrenme kullanılarak Türkeyedeki Arabların duygu analizi
İNAS CUMAOĞLU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YÜKSEL ÇELİK
DR. ÖĞR. ÜYESİ VEDAT TÜMEN
- Improving document ranking with query expansion based on bert word embeddings
Bert word embeddings'i temel alan sorgu genişletme ile belge sıralamasını geliştirme
DOĞUHAN YEKE
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FEHİME NİHAN ÇİÇEKLİ