Sık alt çizge madenciliği algoritmalarının kullanım alanları ve uygulanabilirliği
Application areas and usage of frequent subgraph mining algorithms
- Tez No: 819022
- Danışmanlar: PROF. DR. MUSTAFA ÇETİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Yönetim Bilişim Sistemleri, Computer Engineering and Computer Science and Control, Management Information Systems
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Aydın Adnan Menderes Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 64
Özet
Çizge madenciliği, veri madenciliğinin bir alt dalıdır ve veri tabanını çizge olarak ifade eder. Çizgeler, veri madenciliğinin birçok alanında güçlü veri yapıları olarak kullanılır. Özellikle son yıllarda, çizge madenciliği konusuna olan ilgi giderek artmaktadır. Bunun bir nedeni, sosyal medyanın yükselişi ve tıbbi araştırmaların bilgisayar ortamına taşınmasıyla birlikte yapılandırılmış veri yapılarına olan ihtiyacın artması ve araştırmacıların önemli bilgilere olan talepleridir. Yapılandırılmış veri kümelerinde, tekrar eden altyapıların kaldırılmasıyla veriler yorumlanabilir ve genelleştirilebilir. Aynı zamanda, bir bilgi alanında çalışan bir kullanıcı, önceden tanımlanmış bir türde veya bu alana özgü altyapılarda arama yapar. Çizge veri tabanı sayesinde nesneler arasındaki ilişkiler ortaya çıkarılır. Çizge veri tabanı, düğümlerden ve kenarlardan oluşur, düğümler nesneleri temsil ederken, kenarlar nesneler arasındaki ilişkileri ifade eder. Çizge veri tabanı, birçok küçük çizgeden veya tek bir büyük çizgeden oluşabilir. Birçok küçük çizgeden oluşan veri tabanı işlemsel çizge veri tabanı olarak adlandırılırken, tek bir büyük çizgeden oluşan veri tabanı tek bir büyük çizge veri tabanı olarak adlandırılır. Çizge veri tabanları, kimyasal bileşenler, genetik yapılar, bilgisayar ağları, sosyal medya gibi farklı disiplinlerden gelen verilerin ifade edilmesine olanak sağlar. Sık alt çizge madenciliği, büyük veri kümelerinde tekrar eden desenleri ve önemli ilişkileri keşfetmek amacıyla kullanılan bir veri madenciliği tekniğidir. Bu teknik, veri kümesinde sıklıkla tekrarlanan alt çizgeleri bulmak için özel algoritmalar ve yöntemler kullanır. Sık alt çizgeler, veri kümesinde belirli bir sıklık eşiğini geçen ve anlamlı desenler taşıyan çizgelerdir. Sık alt çizge madenciliği, farklı alanlarda çeşitli uygulama alanlarına sahiptir. Örneğin, veri tabanı yönetimi, sosyal ağ analizi, biyoinformatik ve çizge analizi gibi alanlarda sık alt çizge madenciliği önemli bir rol oynar. Bu teknik, veri kümesinde tekrar eden desenleri belirleyerek işletmelerin daha iyi kararlar almasını sağlar, pazarlama stratejilerini optimize eder, ağ yapısını analiz eder ve biyolojik verilerde önemli bilgileri ortaya çıkarır. Sık alt çizge madenciliği, terabaytlarca bilgi üzerinde analiz yapabilir ve verinin ilişkilerini, değiştiğinde ve geliştiğinde bile koruyabilir. Bu nedenle, çizge veri tabanları sık alt çizge madenciliği için etkili bir araç sağlar. Bu çalışmanın amacı, sık alt çizge madenciliğinin nasıl ortaya çıkarılabileceği, sık alt çizgelerin nasıl keşfedilebileceği ve bu çizgelerin kurumlar ve araştırmacılar için nasıl değerli hale getirilebileceğini araştırmaktır. Çalışma üç aşamadan oluşmaktadır. İlk aşamada, gerçek dünya verilerinin çizge veri tabanına dönüştürülmesi gerçekleştirilmiştir. İkinci aşamada, oluşturulan çizge veri tabanından sık alt çizgelerin keşfedilmesi sağlanmıştır. Üçüncü aşamada ise, bu sık alt çizgelerin bilgisel olarak önem derecelerinin kanıtlanması gerçekleştirilmiştir. Ayrıca, literatürde yer alan işlemsel çizge veri tabanı için önceden geliştirilmiş güncel bir sık alt çizge algoritması olan GSPAN algoritması, örnek bir vaka üzerinde uygulanır. Örnek vaka olarak, IMDb internet sitesinden 2000-2022 yılları arasında vizyona giren Türk filmleri ve bu filmlerin özellikleri kullanılır. IMDb veri tabanı, işlemsel veri tabanı şeklinde çizge veri tabanına dönüştürülür. Oluşturulan işlemsel veri tabanı üzerinde GSPAN (referans) algoritması çalıştırılmış ve sık alt çizgeler ortaya çıkarılmıştır.
Özet (Çeviri)
Graph mining is a subfield of data mining that represents the database as a graph. Graphs are powerful data structures used in various domains of data mining. In recent years, there has been a growing interest in graph mining. This can be attributed to the rise of social media, the digitization of medical research, and the increasing need for structured data in different disciplines. In structured data sets, the removal of repetitive infrastructure allows for interpretation and generalization of the data. Furthermore, users in a specific knowledge domain search for predefined types or domain-specific infrastructures. Graph databases reveal relationships between objects, where nodes represent objects and edges represent relationships between them. A graph database can consist of many small graphs or a single large graph. A database consisting of many small graphs is referred to as an operational graph database, while a database consisting of a single large graph is referred to as a single large graph database. Graph databases facilitate the representation of data from various disciplines such as chemical compounds, genetic structures, computer networks, and social media. Frequent subgraph mining is a data mining technique used to discover repeated patterns and significant relationships in large data sets. This technique employs specialized algorithms and methods to identify frequently occurring subgraphs in the data set. Frequent subgraphs are graphs that surpass a certain frequency threshold in the data set and carry specific patterns of meaning. Frequent subgraph mining has diverse application areas. For instance, it plays a crucial role in database management, social network analysis, bioinformatics, and graph analysis. This technique enables businesses to make better decisions by identifying recurring patterns in the data, optimizing marketing strategies, analyzing network structures, and revealing important information in biological data. Frequent subgraph mining can analyze terabytes of information and preserve data relationships even when they change and evolve. Therefore, graph databases provide an effective tool for frequent subgraph mining. The objective of this study is to explore how frequent subgraph mining can be applied, how frequent subgraphs can be discovered, and how these subgraphs can be valuable for organizations and researchers. The study consists of three stages. In the first stage, real-world data is transformed into a graph database. In the second stage, frequent subgraphs are discovered from the generated graph database. In the third stage, the informational significance of these frequent subgraphs is validated. Furthermore, a state-of-the-art frequent subgraph mining algorithm, GSPAN, specifically designed for operational graph databases, is applied to a sample case. The IMDb website is used as the sample case, specifically focusing on Turkish films released between 2000 and 2022 and their properties. The IMDb database is transformed into an operational graph database. The GSPAN algorithm (reference) is then executed on the operational graph database, resulting in the discovery of frequent subgraphs.
Benzer Tezler
- Frequent subgraph mining over dynamic graphs
Değişken veri üzerinde sık alt çizge madenciliği
NOURHAN N I ABUZAYED
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. BELGİN ERGENÇ BOSTANOĞLU
- Development of space and time efficiency improvement methods and appling onto frequent subgraph mining algorithms
Sık alt çizge madenciliği algoritmalarına uygulanabilir alan ve zaman verimliliği arttıran metotların geliştirilmesi
MURAT OĞUZ
Doktora
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TURGAY TUGAY BİLGİN
- Çizge madenciliği ve algoritmaları
Graph mining and algorithms
SEMA BODUR
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. VECDİ AYTAÇ
- Data distribution and performance optimization models for parallel data mining
Koşut veri madenciliği için veri dağıtımı ve başarım optimizasyon modelleri
ERAY ÖZKURAL
Doktora
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEVDET AYKANAT
- Information extraction from news related texts using graph mining techniques
Çizge madenciliği tekniklerini kullanarak haber ile ilgili metinlerden bilgi çıkarımı
RECEP FIRAT ÇEKİNEL
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PINAR KARAGÖZ