Geri Dön

Urdu news categorization using machine learning approaches

Makine öğrenmesi yaklaşımları kullanarak urduca haberlerin kategorizasyonu

  1. Tez No: 800435
  2. Yazar: MUHAMMAD TALHA SATTI
  3. Danışmanlar: YRD. DOÇ. DR. ÖZLEM FEYZA ERKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: BEYKOZ ÜNİVERSİTESİ
  10. Enstitü: Lisansüstü Programlar Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 59

Özet

Hızlı teknolojik gelişmeler medyada haber içeriğinin sunuluş biçimini değiştirmiştir. Son otuz yıl, işletmeden ekonomiye, bilim ve teknolojiden spora kadar geniş bir yelpazede haber içeriği sunan dijital medya platformlarının ortaya çıkışına tanık oldu. Üretilen büyük miktarda veri nedeniyle, bunları otomatik olarak kategorize etme ihtiyacı ortaya çıkmıştır. Bu gelişmelere paralel olarak, Urduca haberlerin metin kategorizasyonu problemi dört makine öğrenme yaklaşımı kullanarak (Naïve Bayes, Destek Vektör Makineleri, Lojistik Regresyon ve Karar ağacı) ele alınmıştır. İlk aşamada, dört farklı kategoriye (Spor, İş & Ekonomi, Bilim & Teknoloji ve Eğlence) ait 4000 haber metni içeren veriler toplanarak bir veri kümesi oluşturulmuştur. Toplanan veriler işlenmemiş olduğundan makine öğrenimi modeli kurulmadan önce, dizge parçalama, durdurma sözcüklerinin kaldırılması ve baş kelimeyi bulma gibi ön işleme teknikleri uygulanmıştır. Daha sonra öznitelikler, Kelime Torbası ve Terim Sıklığı-Ters Doküman Sıklığı yöntemleriyle çıkartılmıştır. Son aşamada, doğruluk, kesinlik, geri çağırma ve F1 puanı metrikleri kullanılarak makine öğrenimi algoritmalarının performansı değerlendirilmiştir. İleride yapılacak çalışmalarda, daha fazla veri toplanması ile derin öğrenme modellerinden yararlanılabilir ve gerçek zamanlı kategorileştirme yapan bir sistem geliştirilebilir.

Özet (Çeviri)

Rapid technological developments have changed the way of presenting news content in media. The last three decades have witnessed the emergence of digital media platforms that offer a broad variety of news content ranging from business to, economics, from Science&Technology to sports. Due to massive amount of data produced, the need for automatically categorizing them has arisen. Motivated by this, we have addressed the problem of text categorization of Urdu news by using four machine learning approaches namely (Naïve Bayes, Support Vector Machines, Logistic Regression and Decision tree). In the first step we have collected the data which contains 4000 news belonging to four different categories (Sports, Business-&-Economics, Science-&- Technology and Entertainment). The data is in the raw format so before setting up the machine learning model, we applied pre-processing techniques like tokenization, removing the stop words and lemmatization. Then, the features are extracted Bag of Words and Term Frequency-Inverse Document Frequency methods. In the last step, we evaluate the performance of machine learning algorithms utilizing accuracy, precision, recall, and F1-score metrics. In future work, deep learning models can be can be utilized provided that more data is collected and a system can be developed which performs real-time categorization.

Benzer Tezler

  1. Ebû'l Kelâm Azâd ve El-Hilâl gazetesi çerçevesinde Türkiye ve Türkler

    Turkey and Turks according to Abul Kalam Azad and Al-Hilal newspaper

    ZEKAİ KARDAŞ

    Doktora

    Türkçe

    Türkçe

    2011

    Doğu Dilleri ve Edebiyatıİstanbul Üniversitesi

    Doğu Dilleri ve Edebiyatları Ana Bilim Dalı

    PROF. HALİL TOKER

  2. Bir edebiyat dergisi olarak Büyük Doğu

    Büyük Doğu (The great east) as a literary journal

    ŞULE ÇETİN

    Doktora

    Türkçe

    Türkçe

    2016

    Türk Dili ve Edebiyatıİstanbul Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. ALİ ŞÜKRÜ ÇORUK

  3. Urduca manzum ve mansur eserleri ışığında Allama Muhammed İkbal

    Allama Mohammad İqbal, in the light of his own Urdu poetry and prose

    CELAL SOYDAN

    Doktora

    Türkçe

    Türkçe

    1999

    Doğu Dilleri ve EdebiyatıAnkara Üniversitesi

    Doğu Dilleri ve Edebiyatları Ana Bilim Dalı

    YRD. DOÇ. DR. ŞEVKET BULU

  4. 1850-1900 yılları arası Hint yarımadasındaki İslami fikir akımları

    The Different schools of Islamic thought in the sub-continent of indo-Pakistan between 1850 and 1900

    DURMUŞ BULGUR

    Doktora

    Türkçe

    Türkçe

    1999

    DinAnkara Üniversitesi

    Doğu Dilleri ve Edebiyatları Ana Bilim Dalı

    YRD. DOÇ. DR. SELMA BENLİ

  5. Mevlevi Nezir Ahmed ve romancılığı

    Mevlevi Nezir Ahmed and his novel authorship

    NURAY ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Doğu Dilleri ve EdebiyatıSelçuk Üniversitesi

    Doğu Dilleri ve Edebiyatları Ana Bilim Dalı

    YRD. DOÇ. DR. NURİYE BİLİK