Geri Dön

A benchmark study of clustering based record linkage methods

Öbekleştirme temelli kayıt eşleştirme yöntemlerinin karşılaştırmalı değerlendirmesi

  1. Tez No: 259012
  2. Yazar: KEREM UĞURLU
  3. Danışmanlar: YRD. DOÇ. DR. YÜCEL SAYGIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 65

Özet

Kayıt bağlama (ya da kayıt eşleştirme) veri setlerindeki aynı nesneyi kasteden kayıtları belirlemeye çalışır. Bu nesneler kişi veya ilgilenilen her hangi bir nesne olabilir. Bu çalışmada, kayıt eşleştirmelerinde kullanılan öbekleştirme algoritmalarının bir performans kıyaslaması yerine getirildi. Bu ilginin sebebi şuydu, makine öğrenmesinin yükselmesi ile kayıt eşleştirme uyan ve uymayan diye iki sınıflı bir sınıflandırma olarak düşünülmeye başladı. Karşılaştırılacak çiftler, ikinci dereceden zorluğu önlemek için olası bir karşılaştırmaların azaltılması ile veri setindeki kayıtlardır. Performans kıyaslama ihtiyacı sebebi deneylerin sınıflandırma işlemi için elde yeterince eğitme verisinin bulunması nedeniyle deneycinin denetlenen şekilde ilerleyebildiği varsayımıdır. Ancak, gerçek hayat senaryolarında durum genelde bu değildir. Bu sebeple, bu kıyaslama çalışmasında, üç ana öbekleştirme algoritması üç kasten farklı karakteristikte seçilmiş veri seti üzerinde uygulanmıştır.

Özet (Çeviri)

Record linkage (or record matching) tries to identify the records in datasets which represent the same entity. These entities could be people or any other entity of interest. In this study, there has been processed a benchmark of clustering algorithms used in record linkage was conducted. The reason for the interest was that with the rise of the machine learning, record linkage has been considered as a classification problem with two classes of matched and unmatched pairs. The pairs to be compared are the entries in the dataset with a possible reduction of comparisons to avoid the quadratic complexity. The reason for the need for the clustering benchmark is that the experiments are processed by assuming that the experimenter has substantial training data for the classification procedure so that he can proceed in a supervised fashion. However, this is usually not the case in real life scenarios. For that reason, in this benchmarking study, the main three clustering algorithms are applied on three different datasets which are selected with different characteristics on purpose.

Benzer Tezler

  1. A location-routing problem for the municipal solid waste management system

    Evsel katı atık yönetim sistemi için bir yerleşim-rotalama problemi

    CEMAL CAN AYANOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2007

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SEDEF MERAL

  2. Neighborhood construction-based multi-objective evolutionary clustering algorithm with feature selection

    Komşuluk kurma bazlı çok amaçlı evrimsel kümeleme ve öznitelik seçimi

    CANSU ALAKUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Yöneylem Araştırması Ana Bilim Dalı

    PROF. DR. NUR EVİN ÖZDEMİREL

    DOÇ. DR. CEM İYİGÜN

  3. A K-means clustering-based shape retrieval technique for 3D mesh models

    Üç boyutlu çözüm ağları için K-means kümeleme tabanlı şekil araması

    MOHAMMADHASSAN REZAEI

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ERKAN GÜNPINAR

  4. Characterizing and detecting cohesive subgroups with applications tosocial and brain network

    Yogun ve uyumlu alt grupları karakterize etme ve tespit etme, sosyal media ağları ve beyin ağlari

    MAKBULE ZEYNEP ERTEM OKTAY

    Doktora

    İngilizce

    İngilizce

    2015

    Endüstri ve Endüstri MühendisliğiTexas A&M University

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. SERGİY BUTENKO

  5. Type-2 fuzzy clustering for fuzzy modeling applications

    Bulanık modelleme uygulamaları için tip-2 bulanık kümeleme

    AYŞE ÇİSEL ARAS

    Doktora

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. OKYAY KAYNAK