Geri Dön

Çizge tabanlı örneklerde kullanıcı destekli veri madenciliği

User assisted data mining in graph based datasets

  1. Tez No: 271581
  2. Yazar: BURCU YILMAZ ŞENSOY
  3. Danışmanlar: YRD. DOÇ. DR. MEHMET GÖKTÜRK
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: Türkçe
  9. Üniversite: Gebze Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 137

Özet

Çizge veri kümelerinin kullanımının artmasıyla, çizgelerde veri ve örüntü madenciliği alanına araştırmacıların ilgisi artmaktadır. Özellikle de, çizgelerde sıklıkla tekrarlayan örüntülerin bulunması uygulama alanlarının genişliği ve çeşitliliği sebebiyle oldukça ilgi toplamaktadır. Bu tez çalışmasında, söz konusu alanda yapılmış çalışmalar incelenmiş ve eksikliklerinden bahsedilmiştir. Bu eksikliklerin bir kısmını giderecek ve daha başarılı sonuçlar elde edilmesine olanak sağlayacak çizge veri kümelerinde kullanıcı destekli örüntü madenciliği için yeni bir yaklaşım önerilmiştir.Önerilen yaklaşımın temeli çizge veri yapıları ile ifade edilen veri kümelerinin özellik uzayına aktarılmasına dayanmaktadır. Bu sayede benzer örüntüleri bulmak amacıyla veri kümesi üzerinde çeşitli veri madenciliği yöntemlerinin uygulanmasına olanak sağlanmaktadır. Ayrıca önerilen yaklaşım, otomatik parametre seçimindeki dezavantajları görsel destekli veri madenciliği yöntemlerinin avantajlarını kullanarak azaltmaktadır. Ara adımlarda elde edilen bilgileri grafikler ve istatistiksel bilgiler olarak uzmanlara sunmaktadır. Böylece uzmanların veri kümesi ve ara adımlardaki sonuçlar hakkında bilgi sahibi olması sağlanmakta, gerekli yerlerde parametre seçiminde veya otomatik hesaplanan parametrelerde ince ayar yapılmasına olanak tanınmaktadır.Önerilen yaklaşım ile çizge veri kümelerinin, üç boyutlu özellik uzayına izdüşümü alınır. Bir çizgedeki her bir kenar ve kenarın iki ucundaki düğümler özellik uzayında bir nokta olarak gösterilir. Aynı sınıfa ait tüm çizgeler noktalar seklinde özellik uzayına dönüştürüldüğünde, benzer özellikte tekrar eden yapılar nokta küme gruplarını oluşturur. Tekrarlayan örüntüler, kümeleme yöntemleri ile çıkarılır. Çok geniş veri kümeleri ile çalışıldığında tüm çizgelerin aynı özellik uzayına aktarılması nokta kümelerinin elde edilmesini zorlaştırmaktadır. Özellik uzayındaki tekrar eden alt çizgeleri ortaya çıkarmak için örüntüler haricindeki diğer kenarlar histogram tabanlı görsel veri madenciliği yöntemleri ile filtrelenir. Tüm bu işlemler boyunca uzmanlar gerekli gördüğü yerlerde (ör: filtreleme, kümeleme) grafikleri inceleyerek gerektiğinde parametre değerlerinde ince ayar yapabilirler.Bu tez çalışmasında önerilen yaklaşım, gerçek bir veri kümesinde ve sentetik veri kümelerinde ayrıntılı olarak test edilmiştir. Her veri kümesinde iki sınıf vardır, her sınıf az miktarda gürültü ile birlikte aynı özellikteki örüntülere sahip çizgeleri içermektedir. Detaylı testlerden elde edilen sonuçlara göre, gürültüsüz veri kümelerinde önerilen yöntemin, örüntüleri %100 başarılı olarak bulduğu görülmüştür. Gürültülü veri kümelerinde ise ortalama başarı %95 olarak gerçekleşmiştir. Literatürdeki diğer yöntemler gürültüsüz ortamda başarılı bir şekilde örüntüleri bulurken, gürültülü veri kümelerinde örüntüleri çoğunlukla bulamamışlardır.

Özet (Çeviri)

With the increasing use of graph datasets, pattern and data mining in graphs are attracting more attention of the researchers. Especially, finding frequently repeating patters in graphs is increasingly drawing more attention, because of its wide and versatile application areas. In this dissertation, previous studies on frequent pattern mining in graphs are analyzed and their deficiencies are discussed. To overcome some of these deficiencies and to allow more successful results in graph data sets, a user-assisted pattern mining method is proposed.The proposed approach is based on the transformation of graph data structures into a feature space. In this way, various data mining methods can be applied to the data to find similar patterns. Proposed approach eliminates the disadvantages of the automatic parameter selection methods using the advantages of visual data mining methods. The information obtained through intermediary steps is represented to the experts as graphs and statistical data. Hence, the experts are informed about the dataset and steps of the process; moreover, the selection or fine-tuning of computed parameters by the experts are permitted.With the proposed approach, graph representations of structural data are projected into a 3D feature space. Each graph piece, which is a triple composed of an edge and two nodes at each end, is represented as a point in the feature space. Once we represent each graph in the dataset as a set of points in the feature space, using a clustering algorithm, we determine clusters of points that have similar characteristics. However, discovering the clusters is non-trivial because of the noisy points that represent infrequent bonds. At this stage, noise is filtered using a histogram-based visual data mining method, so that the clusters can be discovered more clearly by various clustering algorithms. Once the clusters are discovered, frequent sub-structures are computed. During all these steps, a domain expert can intervene to guide the system or fine-tune the parameters if necessary (e.g., during filtering, clustering and so on).The approach proposed in the dissertation is tested in detail with a real-life dataset and various synthetic datasets. Datasets may include samples belonging to two classes, where each class contains graphs with some common patterns and properties with some noise. According to detailed analysis of our test results, the proposed approach can find frequent patterns with 100% success when noise is not included to the datasets. The average success in the noisy datasets is 95%. While other methods in the literature find the patterns successfully only when noise is not included to the datasets, they couldn?t successfully find patterns in the noisy data sets.

Benzer Tezler

  1. Mimarlıkta güzel kavramının araştırılmasına yönelik bilgisayar tabanlı bir çizgi analizi modeli denemesi: Üç Mimar Sinan yapısı

    A computer-based line analysis model for researching the concept of beautiful in architecture: The three structures of Mimar Sinan

    MEHMET TEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Sabahattin Zaim Üniversitesi

    Mimarlık Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERHAT ANIKTAR

    DR. ÖĞR. ÜYESİ ERDEM KÖYMEN

  2. Massive multiple-input multiple-output communication systems with low-resolution quantizers

    Düşük çözünürlüklü nicemleyicilere sahip kitlesel çok-girdili çok-çıktılı haberleşme sistemleri

    ALİ BULUT ÜÇÜNCÜ

    Doktora

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ ÖZGÜR YILMAZ

  3. Purchase prediction and item prediction with RNN using different user-item interactions

    Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi

    FULYA ÇELEBİ SARIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  4. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. Evaluation of land use land cover change around istanbul airport between years of 2011-2021

    2011 – 2021 yılları arasında istanbul havalimanı çevresi arazi ortusu arazi kullanımı degişiminin degerlendirilmesi

    KANER LEVENT

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. ÇİĞDEM GÖKSEL