Kısa metinlerde makine öğrenmesi yöntemleriyle yüksek performanslı dil tanıma
High performance language recognition in short texts using machine learning methods
- Tez No: 884709
- Danışmanlar: DOÇ. DR. HİDAYET TAKCI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Dil tanıma, makine öğrenmesi, sınıflandırma, metin sınıflandırma, Language identification, machine learning, classification, text classification
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Sivas Cumhuriyet Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 63
Özet
Dil tanıma doğal dil işlemede öne çıkan çalışma başlıklarından birisidir. Bugüne kadar manuel, otomatik ya da yarı otomatik yöntemlerle yerine getirilmiştir. Son dönemde artan metin boyutları ve miktarı nedeniyle makine öğrenmesi tabanlı dil tanıma çalışmalarında bir artış meydana gelmiştir. Özellikle sosyal medya üzerinde paylaşılan metinler gibi kısa boyutlu metinlerde dil tanıma her geçen gün daha fazla önem kazanan bir konudur. Bu çalışmada beş farklı makine öğrenmesi algoritması Python programlama dili imkânları ile çalıştırılmıştır. Dil tanıma verisi olarak Hugging Face tarafından oluşturulan Papluca veri seti kullanılmıştır. Veri setinde yer alan 20 farklı dile ait örnekler kısa boyutlu metinlerden meydana gelmektedir. Dil tanımada en yüksek doğruluğu %97,0 ile Lojistik Regresyon algoritması vermiştir. Lojistik regresyon algoritmasını Karar Ağacı algoritması takip etmiştir. Elde edilen en düşük sınıflandırma doğruluğunu %47,0 ile Tf-idf vektörize yöntemini kullanan K-En Yakın Komşu algoritması vermiştir. Yapılan çalışmalardan elde edilen en değerli bulgu; dil tanıma doğruluklarına dilin kendisinin, kullanılan makine öğrenmesi algoritmalarının ve kullanılan vektörize yönteminin etki etmesidir. Çalışmamız dil tanıma alanında çalışacaklara yardımcı olacak içerikte hazırlanmıştır.
Özet (Çeviri)
Language recognition is one of the prominent research topics in natural language processing. To date, it has been carried out by manual, automatic or semi-automatic methods. Recently, there has been an increase in machine learning-based language recognition studies due to increasing text sizes and amounts. Language recognition is an issue that becomes more important every day, especially in short-sized texts such as texts shared on social media. In this study, five different machine learning algorithms were run with Python programming language facilities. The Papuan dataset created by Hugging Face was used as language recognition data. The samples from 20 different languages in the data set consist of short-sized texts. The Logistic Regression algorithm gave the highest accuracy in language recognition with 97.0%. The logistic regression algorithm was followed by the Decision Tree algorithm. The K-Nearest Neighbor algorithm using the Tf-idf vectorized method gave the lowest classification accuracy of 47.0%. The most valuable finding obtained from the studies; The language recognition accuracy is affected by the language itself, the machine learning algorithms used, and the vectorization method used. Our study has been prepared with content that will help those working in the field of language recognition.
Benzer Tezler
- Makine öğrenmesi ile elde edilen statik sözlükleri kullanarak kısa metin sıkıştırma
Short text compression using static dictionaries obtained by machine learning
MURAT ASLANYÜREK
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya ÜniversitesiHesaplamalı Bilimler Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALTAN MESUT
- Makine öğrenmesi yöntemleri ile türkçe haberlerin özetlenmesi
Summarization of turkish news with machine learning
BURAK ÖZDEMİR
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
- Twıtter üzerinden müşteri duygularının analiz edilerektürkiye'deki telekom operatörleri ile ilgili müşterimemnuniyetinin değerlendirilmesi
Evaluation of customer satisfaction about telecom operators in turkey by analyzing sentiments of customer through twitter
DOĞUKAN KÜNDÜM
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MİTAT UYSAL
DR. ÖĞR. ÜYESİ ZEYNEP HİLAL KİLİMCİ
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN
- Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ