Geri Dön

Kısa metinlerde makine öğrenmesi yöntemleriyle yüksek performanslı dil tanıma

High performance language recognition in short texts using machine learning methods

  1. Tez No: 884709
  2. Yazar: BERFİN AYDIN
  3. Danışmanlar: DOÇ. DR. HİDAYET TAKCI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Dil tanıma, makine öğrenmesi, sınıflandırma, metin sınıflandırma, Language identification, machine learning, classification, text classification
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Sivas Cumhuriyet Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Dil tanıma doğal dil işlemede öne çıkan çalışma başlıklarından birisidir. Bugüne kadar manuel, otomatik ya da yarı otomatik yöntemlerle yerine getirilmiştir. Son dönemde artan metin boyutları ve miktarı nedeniyle makine öğrenmesi tabanlı dil tanıma çalışmalarında bir artış meydana gelmiştir. Özellikle sosyal medya üzerinde paylaşılan metinler gibi kısa boyutlu metinlerde dil tanıma her geçen gün daha fazla önem kazanan bir konudur. Bu çalışmada beş farklı makine öğrenmesi algoritması Python programlama dili imkânları ile çalıştırılmıştır. Dil tanıma verisi olarak Hugging Face tarafından oluşturulan Papluca veri seti kullanılmıştır. Veri setinde yer alan 20 farklı dile ait örnekler kısa boyutlu metinlerden meydana gelmektedir. Dil tanımada en yüksek doğruluğu %97,0 ile Lojistik Regresyon algoritması vermiştir. Lojistik regresyon algoritmasını Karar Ağacı algoritması takip etmiştir. Elde edilen en düşük sınıflandırma doğruluğunu %47,0 ile Tf-idf vektörize yöntemini kullanan K-En Yakın Komşu algoritması vermiştir. Yapılan çalışmalardan elde edilen en değerli bulgu; dil tanıma doğruluklarına dilin kendisinin, kullanılan makine öğrenmesi algoritmalarının ve kullanılan vektörize yönteminin etki etmesidir. Çalışmamız dil tanıma alanında çalışacaklara yardımcı olacak içerikte hazırlanmıştır.

Özet (Çeviri)

Language recognition is one of the prominent research topics in natural language processing. To date, it has been carried out by manual, automatic or semi-automatic methods. Recently, there has been an increase in machine learning-based language recognition studies due to increasing text sizes and amounts. Language recognition is an issue that becomes more important every day, especially in short-sized texts such as texts shared on social media. In this study, five different machine learning algorithms were run with Python programming language facilities. The Papuan dataset created by Hugging Face was used as language recognition data. The samples from 20 different languages in the data set consist of short-sized texts. The Logistic Regression algorithm gave the highest accuracy in language recognition with 97.0%. The logistic regression algorithm was followed by the Decision Tree algorithm. The K-Nearest Neighbor algorithm using the Tf-idf vectorized method gave the lowest classification accuracy of 47.0%. The most valuable finding obtained from the studies; The language recognition accuracy is affected by the language itself, the machine learning algorithms used, and the vectorization method used. Our study has been prepared with content that will help those working in the field of language recognition.

Benzer Tezler

  1. Makine öğrenmesi ile elde edilen statik sözlükleri kullanarak kısa metin sıkıştırma

    Short text compression using static dictionaries obtained by machine learning

    MURAT ASLANYÜREK

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Hesaplamalı Bilimler Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALTAN MESUT

  2. Makine öğrenmesi yöntemleri ile türkçe haberlerin özetlenmesi

    Summarization of turkish news with machine learning

    BURAK ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM EROL

  3. Twıtter üzerinden müşteri duygularının analiz edilerektürkiye'deki telekom operatörleri ile ilgili müşterimemnuniyetinin değerlendirilmesi

    Evaluation of customer satisfaction about telecom operators in turkey by analyzing sentiments of customer through twitter

    DOĞUKAN KÜNDÜM

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MİTAT UYSAL

    DR. ÖĞR. ÜYESİ ZEYNEP HİLAL KİLİMCİ

  4. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN

  5. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ