Improvements in K-means algorithm to execute on large amounts of data
Büyük veriler üzerinde çalışabilmesi için K-means algoritmasının iyileştirilmesi
- Tez No: 152038
- Danışmanlar: PROF.DR. HALİS PÜSKÜLCÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2004
- Dil: İngilizce
- Üniversite: İzmir Yüksek Teknoloji Enstitüsü
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 89
Özet
Günümüzün büyük saklama kapasiteli bilgisayar sistemlerinin desteğiyle şirketlerin veritabanı boyutları yakın tarihte ciddi bir şekilde artmıştır. Zaman şirketler açısından büyük önem taşıdığı için, günümüz şirketlerinin hızla büyümüş olan veritabanları daha hızlı veri madenciliği algoritmaları ihtiyacını da birlikte getirmiştir. Şirketlerin tarihsel hareketlerini tutan büyük boyutlardaki veritabanları şirketlere rekabet avantajı sağlayacak olan değerli gizli bilgiler içermektedir. Ayrıca zaman da şirketler açısından çok önemli olduğu için bu şirketler yüklü miktarlardaki veritabanlarını kısa sürede veri madenciliği ile inceleyip kısa sürede kendilerine rekabet avantajı sağlayacak doğru kararları almaları gerekmektedir. Bu nedenle, klasik veri madenciliği algoritmalarının gözden geçirilerek iyileştirilmesi ve daha kısa sürede veritabanlarındaki gizli bilgileri ortaya çıkaracak hale getirilmeleri gerekmektedir. Bu projede K-means veri madenciliği algoritmasının büyük veri tabanlarını kısa sürede gruplandıracak şekilde geliştirileceği öne sürülmüştür. Algoritmanın, paralelleştirme yöntemi ile geliştirilmesine karar verilmiştir. Günümüzde, işleme gücünün artırılmasının en popüler yolunun bilgisayarların birbirine bağlanması ve algoritmaların bilgisayar ağları üzerinde eş zamanlı olarak çalıştırılması olduğu için paralelleştirme yöntemi bu geliştirme çalışması için uygun görülmüştür. Ayrıca bu popülarite, paralel bilgisayar laboratuarlarının bulunulabilirliğini de günden güne artırmaktadır. K-means algoritmasının paralel versiyonu C Programlama Dili kullanılarak geliştirildi. Paralelleştirme işlemi için ise MPI (Message Passing Interface) kütüphanesi kullanıldı. Zaman açısından bir karşılaştırma yapılabilmesi için klasik (seri versiyon) algoritma da C Programlama Dili kullanılarak geliştirildi. Daha sonra, algoritmalar aynı şartlar altında birden fazla kez çalıştırılarak sonuçları tartışıldı. Tablolar ve grafikler kullanılarak özet haline getirilen çalıştırma sonuçları göstermiştir ki K-means algorithmasının paralelleştirilmesi sonucunda hemen hemen paralel çalıştırmada kullanılan bilgisayar sayısı kadar performans kazanımı elde edilmiştir.
Özet (Çeviri)
By the help of large storage capacities of current computer systems, datasets of companies has expanded dramatically in recent years. Rapid growth of current companies' databases has raised the need of faster data mining algorithms as time is very critical for those companies. Large amounts of datasets have historical data about the transactions of companies which hold valuable hidden patterns which can provide competitive advantage to them. As time is also very important for these companies, they need to mine these huge databases and make accurate decisions in short durations in order to gain marketing advantage. Therefore, classical data mining algorithms need to be revised such that they discover hidden patterns and relationships in databases in shorter durations. In this project, K-means data mining algorithm has been proposed to be improved in performance in order to cluster large datasets in shorter time. Algorithm is decided to be improved by using parallelization. Parallelization of the algorithm has been considered to be a suitable solution as the popular way of increasing computation power is to connect computers and execute algorithms simultaneously on network of computers. This popularity also increases the availability of parallel computation clusters day by day. Parallel version of the K-means algorithm has been designed and implemented by using C language. For the parallelisation, MPI (Message Passing Interface) library has been used. Serial algorithm has also been implemented by using C language for the purpose of comparison. And then, algorithms have been run for several times under same conditions and results have been discussed. Summarized results of these executions by using tables and graphics has showed that parallelization of the K-means algorithm has provied a performance gain almost proportional by the count of computers used for parallel execution.
Benzer Tezler
- Sıkı geçme operasyonu için ANFIS ve yapay sinir ağları modellemesinin matematiksel model ile karşılaştırılması
Comparison of ANFIS and ann modeling with mathematical model for press-fitting operation
OĞUZHAN ŞİMŞİR
Yüksek Lisans
Türkçe
2024
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ FUAT ERGENÇ
- Elektriğin dirençli ortamda hareketini temel alan yeni bir meta sezgisel algoritma tasarımı
Design of a new metaheuristic algorithm based on the movement of electricity in highly resistant environment
HÜSEYİN DEMİRCİ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
- Pasif sistemlerde türbülanslı doğal taşınım
Turbulent naturel convection in passive systems
SEYHAN UYGUR
- Düşük maliyetli ve kaynakları verimli kullanabilen sürekli öğrenebilen akıllı cihaz çekirdeği
Low-cost and resource-aware intelligent device: A core of thing
ONUR AKDEMİR
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. DENİZ TURGAY ALTILAR
- Active learning based human in the loop deep object detectionfor scalable data annotation
Ölçeklenebilir veri etiketlenmesi için aktif öğrenme tabanlı insan katılımlı derin nesne tespiti sistemi
ATABERK ARMAN KAYHAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE