Geri Dön

A similarity based oversampling method for multi-label imbalanced text data

Çok etiketli dengesiz metin veri kümeleri için benzerliğe dayalı bir aşkın örnekleme yöntemi

  1. Tez No: 763558
  2. Yazar: İSMAİL HAKKI KARAMAN
  3. Danışmanlar: PROF. DR. GÜLSER KÖKSAL, DOÇ. DR. LEVENT ERİŞKİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 129

Özet

Dünyamızda veri miktarı artmasına rağmen veri etiketlemenin maliyeti ve zorluğu nedeniyle etiketlenmiş veri bulmak kolay değildir. Ayrıca makine öğrenmesi projelerinde, özellikle çok etiketli sınıflandırma problemlerinde, veri dengesizliği nedeniyle başarım sorunlarıyla karşılaşılmaktadır. Çok etiketli sınıflandırma problemlerinde bazı sınıflar için bir sınıflandırıcı eğitmek için bile yeterli veri olmayabilir. Bu çalışmada çok etiketli sınıflandırma problemlerindeki başarım problemlerini çözmek için bir aşkın örnekleme yöntemi geliştirilmiştir. Önerilen yöntem etiketsiz veri kümesinden benzerlik yardımıyla yeni örnekler bulur ve bu örnekler, başarımı iyileştirmesi halinde etiketli sınıfa dahil edilir. Etiketsiz küme tekrarlı olarak taranır ve başarımı iyileştiren örnekler etiketli kümeye eklenerek bu sınıf genişletilir. Yapılan denemelerde algoritma başarımının iyileştiği gözlemlenmiştir. Önerilen yöntem ile insan çabası gerekmeden veri etiketlemenin mümkün olacağı düşünülmektedir.

Özet (Çeviri)

In the real world, while the amount of data increases, it is not easy to find labeled data for Machine Learning projects, because of the compelling cost and effort requirements for labeling data. Also, most Machine Learning projects, especially multi-label classification problems, struggle with the data imbalance problem. In these problems, some classes, even, do not have enough data to train a classifier. In this study, an oversampling method for multi-label text classification problems is developed and studied to solve performance problems arising from the data imbalance. The proposed method finds new samples from unlabeled data by utilizing similarities between instances. It finds similar instances for a class from the unlabeled set and checks for improvement to see the effect on the performance of these instances. The unlabeled set is searched iteratively and the instances that assist the performance improvement are added to the labeled set. The experiments show that our method works well and the performance of the classifier is improved after oversampling.

Benzer Tezler

  1. Purchase prediction and item prediction with RNN using different user-item interactions

    Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi

    FULYA ÇELEBİ SARIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  2. Computer aided detection of spina bifida using features derived from curvature scale space and Zernike moments

    Eğrilik ölçek uzayından ve Zernike momentlerinden türetilen özniteliklerle spina bifidanın bilgisayar destekli tanısı

    UMUT KONUR

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SADIK FİKRET GÜRGEN

  3. Investigation of SO2 pollution from coal-fired and geothermal power plants using high resolution satellite retrievals

    Yüksek çözünürlüklü uydu verileri kullanılarak kömür yakıtlı ve jeotermal santrallerden kaynaklı SO2 kirliliğinin incelenmesi

    SÜMEYYE SENA DEĞER

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BURÇAK KAYNAK TEZEL

  4. Measuring and evaluating the maintainability of microservices

    Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi

    RAHİME YILMAZ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FEZA BUZLUCA

  5. An unsupervised semantic similarity based method for word sense disambiguation

    Kelime anlamı berraklaştırma için anlam benzerliği tabanli denetimsiz bir yöntem

    SEDAT ÇANKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Mütercim-TercümanlıkBoğaziçi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. BİRGÜL KUTLU