Geleneksel makine öğrenimi ve derin öğrenme modelleri ile Türkçe metin sınıflandırmada kelime temsil yöntemlerinin etkisi
The effect of word representation methods on Turkish text classification with traditional machine learning and deep learning models
- Tez No: 859818
- Danışmanlar: PROF. DR. OĞUZ KAYNAR
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Sivas Cumhuriyet Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: İşletme Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 157
Özet
Yapay zekânın bir kolu olan doğal dil işleme metin verilerin üretilmesine, işlenmesine, sınıflandırılmasına ve idare edilebilmesine olanak sağlar. Doğal dil işleme büyük metin verilerinin işlenmesi ve farklı amaçlar için kullanılması açısından etkin ve önemlidir. Doğal dil işleme alanlarından metin sınıflandırma metin verilerden anlamlı bilgiler çıkarılmasında önemli bir yere sahiptir. Çalışmada Türkçe metin verileri üzerinde farklı kelime temsil yöntemleri kullanılarak, geleneksel makine öğrenimi algoritmaları, derin öğrenme modelleri ve transformer modelleri ile sınıflandırma işlemi yapılmış ve ortaya koydukları sınıflandırma performansları karşılaştırılmıştır. Literatürde Türkçe metinlerin sınıflandırılmasına yönelik uygulamaların az olması sebebiyle çalışma için Türkçe bir veri seti tercih edilmiştir. Kullanılan veri seti, yaklaşık 25 bin Türkçe haber metninden oluşmaktadır. Veri setinde yer alan haber metinleri, python programlama dili kullanılarak belirtilen yöntem ve modeller ile 9 farklı kategori başlığı altında sınıflandırılmıştır. Sınıflandırma öncesinde, veri önişleme adımları ile normalize edilen metinler, klasik, dağıtılmış ve bağlamsallaştırılmış kelime temsil yöntemleri ile vektörleştirilmiştir. Daha sonra belirlenen kategorilere göre geleneksel makine öğrenimi algoritmaları ve derin öğrenme modelleri ile metin sınıflandırma yapılmıştır. Farklı kelime temsil yöntemlerinin, makine öğrenimi ile metin sınıflandırma sürecine katkıları, farklı dillerde başarılı sınıflandırma performansı göstermiş olan derin öğrenme modellerinin Türkçe metin sınıflandırma performansları ve farklı transformer modellerin sınıflandırma performansları karşılaştırılmıştır.
Özet (Çeviri)
Natural Language Processing, a branch of artificial intelligence, allows the generation, processing, classification and management of text data. Natural language processing is effective and important in processing large text data and using it for different purposes. Text classification, one of the natural language processing fields, has an important place in extracting meaningful information from text data. In the study, classification was carried out on Turkish text data using different word representation methods, traditional machine learning algorithms, deep learning models and transformer models, and their classification performances were compared. Since there are few applications for classifying Turkish texts in the literature, a Turkish data set was preferred for the study. The data set used consists of approximately 25 thousand Turkish news texts. The news texts in the data set were classified under 9 different categories by the specified methods and models using the Python programming language. Before the classification, the texts were normalized with data preprocessing steps and vectorized with classical, distributed and contextualized word representation methods. Then, according to the categories determined, text classification was performed with traditional machine learning algorithms and deep learning models. The contributions of different word representation methods to the text classification process with machine learning, the Turkish text classification performance of deep learning models that have shown successful classification performance in different languages, and the classification performance of different transformer models are compared.
Benzer Tezler
- Using traditional and deep machine learning methods on predicting triage level in an emergency room
Geleneksel makine öğrenmesi ve derin öğrenme yöntemleriyle acil servis triyaj tahminlemesi
MEHMET YILDIRIM
Yüksek Lisans
İngilizce
2024
Acil TıpBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE UĞUR
PROF. DR. AYŞE BAŞAR
- Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı
Use of word embedding vectors in text classification through graph conversion
ELİF DORUKBAŞI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. İLKER TÜRKER
- Deep learning based Turkish video indexing and retrieval system
Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi
JAWAD RASHEED
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AKHTAR JAMIL
- Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi
Graph based supervi̇sed data augmentati̇on method for short text classificati̇on
OMAR BAYRAMLI
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ARZU KAKIŞIM
- Covid-19 hastalığının sınıflandırılmasında derin öğrenme modellerinin performanslarının karşılaştırılması
Comparison of the performances of deep learning models in classification of Covid-19 disease
PERVİN SÜRGÜÇOĞLU
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiKastamonu ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. KEMAL AKYOL