Hierarchical structures in data science
Veri bilimi'nde hiyerarşik yapılar
- Tez No: 565950
- Danışmanlar: DR. ÖĞR. ÜYESİ AYŞEGÜL ULUS
- Tez Türü: Yüksek Lisans
- Konular: Matematik, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
Son yıllarda, veri analizinin karmaşık sistemler olarak ele alınması, kümelenme yönteminin bu konularda kilit rol oynamasına neden olmaktadır. Hiyerarşik kümelenme, veri biliminde en önemli veri analizi yöntemlerinden biri haline gelmiştir. Anlaşılır uygulaması, grafik analizi ve sonuçta ortaya çıkan hiyerarşik ağacı ile yararlı bir yöntemdir. Bu tezin amacı verilerin hiyerarşik kümelenme yapılarını metrik ve ultrametrik uzay özellikleri ve çizge kuramı yöntemlerini kullanarak ele almaktır. Bu sebeple, bu tezde, veri üzerinde yapılacak uygulamalara matematiksel bir iskelet oluşturabilmek için öncelikle metric uzaylar, normlu uzaylar ve ultrametrik uzaylar çalışılmıştır. P-sel uzaylar gibi özel öneme sahip örneklerin yanı sıra başka örnekler de çalışılmış ve adı geçen uzayların topolojik karakterizasyonları da verilmiştir. Daha sonra hiyeraşik yapılar ele alınarak kümelenme kavramının matematiksel içeriği üzerine çalışılmıştır. Veri üzerinde benzerlik ve bağlam ifadelerden nasıl bir metric ve ultrametrik uzay elde edildiği anlatılmıştır. Çizge Teorisi'nin bazı tanımlamaları sayesinde veriyi görselleştirebilme yöntemleri ifade edilmiştir ve çizge üzerinde bir optimizasyon yapılarak bize anlamlı bir çizge çıkaran Minimal Geren Ağaç yöntemi ele alınmıştır. En son olarak yapılan çalışmalar bir veri üzerine uygulanır. Üzerinde çalışılan veri $10$ tane OECD ülkesinin PISA-matematik ve PISA-okuma performanslarının $4$ yıllık bir zaman serisidir. Bu tez, tek bağla toplanabilir hiyerarşik kümelenme yöntemi ve çizge kuramsal bir yöntem olan Minimal Geren Ağaç yönteminin eşitliğinden yola çıkarak veriyi analiz etmemizi sağlamıştır. Tezden elde ettiğimiz sonuçlar sözkonusu veriden ilgili $10$ ülkedeki matematik performansları hakkında anlamlı bir sonuç çıkarmamızı sağlamaktadır.
Özet (Çeviri)
In recent years, the increase of studies analyzing data as complex systems lead clustering to play key role. Hierarchical clustering is one of the most popular clustering method in data science. It is a useful method with its comprehensible application, graphical analysis and with its resulting hierarchical tree. This thesis aims to study the mathematical background of the hierarchical clustering structures of a particular data by using metric and ultrametric spaces' features as well as graph theoretical tools. First of all, we study metric spaces, normed spaces and ultrametric spaces. Besides some examples, including the remarkable p-adic spaces, the topological properties of these spaces are studied. Then, we study how to interpret a particular data by means of a metric and ultrametric space. Ultrametric tree models of similarity and association are used to produce the representation of the data. We gave the equivalence of agglomerative hierarchical clustering model using single linkage and the graph theoretical model using minimal spanning tree. We tackled here some notions of Graph Theory which helps us to visualize the data and mainly the question how to obtain a Minimum Spanning Tree (MST) from a graph which represents the optimization process. Finally, we analyze the data obtained from PISA-mathematical and PISA-reading performance evolution over $4$ years for $10$ OECD countries. We analyze these particular data by using minimum spanning tree model which are obtained by using certain algorithms (Prim\& Kruskal) and programs (Python\& Sage). The results of our data analysis allow us to make a meaningful conclusion about the evolution of mathematics and reading performance in the considered $10$ OECD countries.
Benzer Tezler
- Spatial decompositions for geometric interpolation and efficient rendering
.
FATMA BETÜL ATALAY SATOĞLU
Doktora
İngilizce
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of Maryland College ParkPROF. DAVID M. MOUNT
- Compression of geometry videos by 3D-SPECK wavelet coder
Geometri videolarının 3D-SPECK wavelet kodlayıcı ile kodlanması
CANAN GÜLBAK BAHÇE
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- Televizyon üzerinden dindar/mütedeyyin kadınları anlamak: Dindar kadınların televizyonu alımlama ve kullanım biçimleri
Understanding religious/pious women through television: Religious women's reception and usage of television
ERGEN DEVRİM KARAGÖZ
Doktora
Türkçe
2022
Radyo-TelevizyonGalatasaray ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
DOÇ. DR. ÖZLEM DANACI YÜCE
- Sayısal hücre görüntülerinin kodlanması ve nicel analizi
Coding and quantitative analysis of the digital cell images
NEŞE APAK
Yüksek Lisans
Türkçe
1993
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiY.DOÇ.DR. MUHİTTİN GÖKMEN
- Kriptoparalarda kümeleme analizi uygulamaları
Cluster analysis applications of cryptocurrencies
EZGİ DOĞAN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN BAYYURT