Geri Dön

Performance comparison of locality sensitive hashing and random forest algorithms for handwritten digits recognition

Yerelliğe duyarlı adresleme ve rastsal karar ormanı algoritmalarının el yazısı rakam tanımlaması için performans karşılaştırması

  1. Tez No: 352257
  2. Yazar: AYKUT ÇAYIR
  3. Danışmanlar: YRD. DOÇ. DR. TANER ARSAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Kadir Has Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Data üretimindeki önemli artış büyük veri denilen yeni bir kavramın ortaya çıkmasına sebep olmuştur. Buna ilaveten büyük veri kümelerindeki birçok veri örneği çok boyutlu özelliklere sahiptir. Bu sebeple, büyük veri kümelerindeki veri analizinde bir takım sorunlar çok daha kritik bir hale gelmektedir. Bu önemli sorunlardan bir tanesi çok boyutlu veri örneklerinin bulunduğu büyük veri kümelerinde makul bir zamanda sınıflandırma yapılması işlemidir. Sınıflandırma işlemi makine öğrenimi ve veri madenciliği alanlarındaki K-Nearest Neighbors problemiyle ilişkilidir. Sınıflandırma probleminin gerçek dünya uygulamalarındaki güzel bir örneği resimlerde nesne ya da örüntü tanımlamadır. Örüntü ya da nesne tanımlama ise benzerlik araması problemine indirgenebilir. Bu çalışmada, biz büyük ölçekli veritabanlarında benzerlik araması problemine odaklandık. Öncelikle, iki popüler makine öğrenimi algoritmasını gerçekledik: Yerelliğe Duyarlı Adresleme (YDA) ve Rastsal Karar Ormanları (RKO) Python programlama dili ile. Sonra bu iki parametre bağımlı algoritmayı iki farklı el yazısı rakam ve karakter veri kümesinde karşılaştırdık: MNIST ve NOTMNIST. Bu deneyde, algoritmaların performanslarını tanımlama isabeti, merkezi işlemci birimi süresi cinsinden algoritmaya özgü parametreleri değiştirerek inceledik. Son olarak, YDA ve RKO algoritmalarının parametrelerine göre pozitif ve negatif davranışları olduğunu gözlemledik ve YDA algoritmasının zaman kritik uygulamalarda daha kullanışlı olduğu, RKO algortimasının ise kesinlik kritik durumlarda daha avantajlı olduğu sonucuna vardık.

Özet (Çeviri)

The significant increase in data created has caused to come out a new concept which is called big data. In addition to that multidimensional data instances in big data sets have many new features. Therefore, some problems become much more critical for data analysis in big data sets. One of these very important problems is classification of multidimensional data instances in big data sets in a reasonable time. Classification is also related to K-Nearest Neighbors problem in machine learning and data mining areas. A perfect example of the classification problem is object or pattern recognition for images in real world applications. Pattern or object recognition can be reduced to similarity search problem. In this work, we focused on the similarity search problem in large scale databases. Firstly, we implemented two popular machine learning algorithms: Locality Sensitive Hashing (LSH) and Random Forest (RF) with the Python programming language. Then we compared these two parameter-dependent algorithms in two different handwritten digits-characters datasets: MNIST and NOTMNIST. In the experiments, we examined the algorithms performance in terms of recognition accuracy, CPU time for various algorithm specific parameters. Finally, we observed that LSH and RF exhibit positive and negative features according to their parameters and we reached the conclusion that LSH is more useful for time critical applications and RF is more favorable for accuracy critical applications.

Benzer Tezler

  1. Advancements in vector retrieval: Analyzing methods and applications in NLP and LLM

    Vektör çıkarımındaki gelişmeler: Yöntemlerin ve uygulamaların NLP ve büyük dil modellerinde incelenmesi

    YAZIM BERİL ULUER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstinye Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALPER ÖNER

  2. Audio fingerprinting using wavelet transform

    Dalgacık dönüşümleri ile ses parmak izi kontrolü

    EVREN KANALICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN BİLGİN

  3. Büyük boyutlu veri sınıflandırmada doğrusal boyut indirgeme yöntemlerinin karşılaştırılması

    Comparison of linear dimensionality reduction methods on big data classification

    ERAY YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiKaradeniz Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF SEVİM

  4. Batı Anadolu'da kabak kemane ve icra geleneği

    Kabak kemane and its performance tradition in western Anatolia

    ÖZGÜR ÇELİK

    Doktora

    Türkçe

    Türkçe

    2018

    Halk Bilimi (Folklor)Ege Üniversitesi

    Türk Halk Bilimi Ana Bilim Dalı

    PROF. DR. ALİMCAN İNAYET

  5. Gezgin satıcı probleminin hadoop üzerinde çalışan paralel genetik algoritma ile çözümü

    Parallel genetic algorithm to solve traveling salesman problem on hadoop cluster

    HARUN RAŞİT ER

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NADİA ERDOĞAN