A similarity based oversampling method for multi-label imbalanced text data
Çok etiketli dengesiz metin veri kümeleri için benzerliğe dayalı bir aşkın örnekleme yöntemi
- Tez No: 763558
- Danışmanlar: PROF. DR. GÜLSER KÖKSAL, DOÇ. DR. LEVENT ERİŞKİN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
- Sayfa Sayısı: 129
Özet
Dünyamızda veri miktarı artmasına rağmen veri etiketlemenin maliyeti ve zorluğu nedeniyle etiketlenmiş veri bulmak kolay değildir. Ayrıca makine öğrenmesi projelerinde, özellikle çok etiketli sınıflandırma problemlerinde, veri dengesizliği nedeniyle başarım sorunlarıyla karşılaşılmaktadır. Çok etiketli sınıflandırma problemlerinde bazı sınıflar için bir sınıflandırıcı eğitmek için bile yeterli veri olmayabilir. Bu çalışmada çok etiketli sınıflandırma problemlerindeki başarım problemlerini çözmek için bir aşkın örnekleme yöntemi geliştirilmiştir. Önerilen yöntem etiketsiz veri kümesinden benzerlik yardımıyla yeni örnekler bulur ve bu örnekler, başarımı iyileştirmesi halinde etiketli sınıfa dahil edilir. Etiketsiz küme tekrarlı olarak taranır ve başarımı iyileştiren örnekler etiketli kümeye eklenerek bu sınıf genişletilir. Yapılan denemelerde algoritma başarımının iyileştiği gözlemlenmiştir. Önerilen yöntem ile insan çabası gerekmeden veri etiketlemenin mümkün olacağı düşünülmektedir.
Özet (Çeviri)
In the real world, while the amount of data increases, it is not easy to find labeled data for Machine Learning projects, because of the compelling cost and effort requirements for labeling data. Also, most Machine Learning projects, especially multi-label classification problems, struggle with the data imbalance problem. In these problems, some classes, even, do not have enough data to train a classifier. In this study, an oversampling method for multi-label text classification problems is developed and studied to solve performance problems arising from the data imbalance. The proposed method finds new samples from unlabeled data by utilizing similarities between instances. It finds similar instances for a class from the unlabeled set and checks for improvement to see the effect on the performance of these instances. The unlabeled set is searched iteratively and the instances that assist the performance improvement are added to the labeled set. The experiments show that our method works well and the performance of the classifier is improved after oversampling.
Benzer Tezler
- Purchase prediction and item prediction with RNN using different user-item interactions
Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi
FULYA ÇELEBİ SARIOĞLU
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
- Computer aided detection of spina bifida using features derived from curvature scale space and Zernike moments
Eğrilik ölçek uzayından ve Zernike momentlerinden türetilen özniteliklerle spina bifidanın bilgisayar destekli tanısı
UMUT KONUR
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SADIK FİKRET GÜRGEN
- Investigation of SO2 pollution from coal-fired and geothermal power plants using high resolution satellite retrievals
Yüksek çözünürlüklü uydu verileri kullanılarak kömür yakıtlı ve jeotermal santrallerden kaynaklı SO2 kirliliğinin incelenmesi
SÜMEYYE SENA DEĞER
Yüksek Lisans
İngilizce
2022
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURÇAK KAYNAK TEZEL
- Measuring and evaluating the maintainability of microservices
Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi
RAHİME YILMAZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FEZA BUZLUCA
- An unsupervised semantic similarity based method for word sense disambiguation
Kelime anlamı berraklaştırma için anlam benzerliği tabanli denetimsiz bir yöntem
SEDAT ÇANKAYA
Yüksek Lisans
İngilizce
2010
Mütercim-TercümanlıkBoğaziçi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. BİRGÜL KUTLU