Examining the portability of deep learning runtime optimization methods

Derin öğrenme çalışma zamanı eniyileme yöntemlerinin taşınabilirliğinin irdelenmesi

PDF İndir

Tez No: 948881
Yazar: MUHAMMET ALPASLAN TAVUKÇU
Danışmanlar: DR. ÖĞR. ÜYESİ AYŞE YILMAZER METİN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 69

Özet

Derin öğrenme modelleri artan ivmeyle büyümektedir. Gerek akademide gerekse endüstride yapılan son çalışmalar, derinleşen ve büyüyen modellerin daha karmaşık problemlere çözüm üretebildiğini göstermiştir. Modellerin büyümesi, parametre sayısının artması, maliyetsiz bir gelişme değildir. Büyük modeller hem eğitilirken hem de kullanılırken çok fazla zaman ve işlem kaynağı gerektirmektedir. Hesaplama maliyetlerindeki artış problemi, donanım kaynaklarını daha etkin ve verimli kullanabilmek adına çalışmalar yapılmasını tetiklemektedir. Donanımı derin öğrenme görevleri için verimli bir şekilde kullanmak amacıyla, derin öğrenme derleyicileri adı verilen çeşitli eniyileme araçları geliştirilmiştir. Bu derleyiciler, derin öğrenme çerçevesinden (framework) bir model alır ve modelin davranışını değiştirmeden çeşitli eniyilemeler uygulayarak daha hızlı, verimli çalışan sürümünü üretmeye çalışır. Bu eniyilemeleri iki ana katmana ayırabiliriz: çizge seviyesinde eniyileme ve operatör seviyesinde eniyileme. Bu çalışmanın odak noktası, hesaplama çizgesi seviyesindeki eniyilemelerdir. Çizge seviyesi eniyilemeler, hesaplama çizgesindeki işleç ya da işleç gruplarının cebirsel olarak denk fakat alternatif biçimlerde yeniden yazılması işlemlerini kapsamaktadır. Temelde yeniden yazma işlemleri, ardışık işleçlerin birleştirilmesi (fusion), işleçlerin daha küçük alt işleçlere bölünmesi (decomposition), paralel ya da ardışık konumlanmış aynı türden işleçlerin gruplanarak hesaplarının tekleştirilmesi ya da lineer cebir özelliklerinden türetilen farklı çizge yeniden yazma (graph rewriting) gibi başlıklarda gruplanabilecek işlemlerden oluşmaktadır. Hesaplama çizgelerinin büyüklüğü ve işleç kombinasyonlarının çeşitliliği nedeniyle, eniyileme sırasında uygulanabilecek çok sayıda dönüşüm alternatifi bulunmaktadır. Hesaplama çizgesi üzerinde hangi dönüşümün uygulanacağına karar verme problemine yönelik naif çözüm, kural tabanlı yaklaşımdır. Bu yaklaşımda, uzmanlar tarafından önceden tanımlanmış dönüşüm kuralları kullanılır ve çizge içinde bu kurallar uygulanabildiği sürece dönüşümler gerçekleştirilir. Bu yöntemde dönüşüm kurallarının çalışma zamanına etkisi ve cebirsel tutarlılığı bozmasa dahi performansı düşürebilecek yan etkileri dikkate alınmaz. Kural tabanlı yaklaşıma alternatif olarak, dönüşüm işlemini geniş bir arama problemi olarak ele alan daha esnek yöntemler de geliştirilmiştir. Bu yöntemlerde, genel olarak, yalnızca önceden tanımlı kural kümesi değil, bu kurallardan türetilebilecek ardışık dönüşümlerle oluşan daha büyük bir dönüşüm uzayı otomatik biçimde oluşturulur. Bu dönüşüm uzayından en uygun adayı ya da aday dizisini seçebilmek için, alternatiflerin çalışma zamanı üzerindeki etkisinin hesaplanması gereklidir. Bu nedenle, bu tür yaklaşımlar bir maliyet (çalışma zamanı) modeline (cost model) dayanır. Maliyet, burada modelin toplam çalışma zamanını ifade etmektedir. Bazı yöntemler her işlecin maliyetini ayrı ayrı ölçerek toplam çalışma zamanını bu şekilde tahmin ederken, güncel çalışmalarda uçtan uca ölçüm yapan yaklaşımların daha başarılı sonuçlar verdiği gösterilmiştir. Maliyet tabanlı aramada öncül yöntemler dönüşüm seçimi için fırsatçı (greedy) algoritmalar kullanmaktadır. Bu algoritmalar, kural tabanlı yöntemlere kıyasla daha esnek seçim yapma imkânı tanısa da, her bir adımda yapılan dönüşümün sonraki adımlardaki dönüşüm uzayını değiştirmesi nedeniyle hâlâ sınırlıdır. Örneğin eniyilemenin bir adımında modeli yavaşlatan bir dönüşüm uygulanıp yeni çizge elde edildiğinde, sonraki adımlarda çok daha iyi sonuçları üretecek dönüşümlerin uygulanabilmesini sağlayabilir. Fırsatçı arama yöntemleri, dönüşüm uzayındaki değişimlerin uzun vadeli etkilerini yeterince dikkate alamamaktadır. Bu sorunu aşmak amacıyla, yakın zamanda pekiştirmeli öğrenme (reinforcement learning) tabanlı arama yöntemlerinin kullanılması önerilmiştir. Aday dönüşüm uzayından arama problemini bir pekiştirmeli öğrenme problemine dönüştürerek, dönüşüm seçiminde ve sıralanmasında uzun vadeli etkileri hesaba katabilmeleri sayesinde daha etkili eniyileme akışları oluşturabildikleri görülmektedir. Ancak, maliyet tabanlı arama yöntemlerin başarısı sadece arama stratejisine değil, aynı zamanda kullanılan maliyet modelinin doğruluğuna ve modelin çalıştırılacağı çalışma ortamına da bağlıdır. Tez çalışmamızı iki aşamada ele alabiliriz: Mevcut çizge seviyesi eniyileme çalışmalarının kendi deneysel çalışma ortamlarında gösterdikleri eniyileme başarısının, aynı donanım üzerinde çalışan, anaakım bir çalışma ortamına doğrudan taşınabilirliğinin sınanması ve mevcut yöntemlerin pratik bir şekilde anaakım çalışma ortamlarında da fayda sağlar hale getirilmesi için yeni bir maliyet modelinin geliştirilmesi. Burada“çalışma ortamı”ile kastettiğimiz şey modeli çalıştırmak için kullanılan yazılım katmanıdır, tüm çalışma aynı donanım üzerinde gerçekleştirilmiştir. Mevcut çizge eniyileme araçlarının taşınabilirliğini sınamak için belirlediğimiz öncül çalışmaların akışlarını tekrarlayarak eniyileme deneyleri yaptık. Yaptığımız deneylerle ilgili çalışmaların modeli kendi deneysel ortamlarında, ve ortam için geliştirdikleri maliyet modeliyle, tutarlı bir şekilde iyileştirmeyi başardığını ancak ürettikleri eniyilenmiş modeli doğrudan başka bir çalışma ortamına taşıdığımızda aynı başarımın görülmediğini tespit ettik. Deneylerde hedef çalışma ortamı olarak anaakım çalışma ortamlarından ONNX Runtime'ı tercih ettik. Bir çalışma ortamında hızlanma sağlayan eniyilemelerin, farklı bir çalışma ortamında performans kaybına yol açabildiğini gördük. Bu durum, ortamlar arasındaki gerçeklenim farklılıkları, çizelgeleme yöntemleri ve altyapı özellikleri nedeniyle, bir ortamda elde edilen maliyet bilgisinin diğer bir ortam için geçerli bir tahmin olamamasından kaynaklanmaktadır. Özellikle mevcut eniyileme araçlarının takip ettikleri gerçeklenimlerin, buna bağlı olarak maliyet modellerinin, çizelgeleme, bellek işlemleri gibi nihai bir çalışma ortamında olan mekanizmalardan soyutlanmış olması aradaki farkın temel sebeplerindendir. Öncül çalışmalarda önerilen eniyileme yöntemlerinin anaakım çalışma ortamlarında kullanılabilirliğini, geçerliliğini sınamak için hedef çalışma ortamının maliyetinin tutarlı bir şekilde modellenmesi gerektiğini tespit ettik. Eniyilemeler sırasında maliyeti hesaplamak için naif sezgisel yöntem doğrudan modeli tekrarlı çalıştırarak uçtan uca ölçüm yapmaktır. Bununla beraber eniyileme sırasında hemen her adımda (iterasyon) ölçüm yapılması gerektiği için sürekli uçtan uca ölçüm yapmak eniyileme sürecini kayda değer şekilde yavaşlatmaktadır. Örneğin pekiştirmeli öğrenme kullanan yöntemlerdeki ajan eğitim süresini 4 katına çıkardığını yapmış olduğumuz deneylerde gözlemledik. Bu çalışmada hedef ortamın maliyet modellenmesindeki yukarıda değinilen sınırlamayı, hızlı ve pratik biçimde aşmak amacıyla, hesaplama çizgesinin çalışma zamanını tahmin edebilen Çizge Sinir Ağı (GNN) tabanlı model yaklaşımı geliştirdik. Eniyileme sürecinde önemli olan bir çizgenin çalışma zamanını belirlemekten ziyade aday çizgeler arasından hangisinin daha iyi bir aday, hızlı çalışır, olduğunu belirlemektir. Aday çizgelerin büyük ölçüde birbirine benzemesi, tek bir çizgenin çalışma zamanını doğrudan tahmin ederek karşılaştırma yapmayı zorlaştırmaktadır. Bu sebeple, çizge benzerliği modellerinden ilham alarak, iki hesaplama çizgesi arasındaki çalışma zamanı farkını tahmin edebilen bir model geliştirdik. Böylelikle model iki çizge arasındaki farkları ve buna bağlı olarak çalışma zamanı sürelerindeki farklılığı daha başarılı bir şekilde tahmin edebilmektedir. Bu yöntem eniyileme sürecine oldukça küçük bir ek maliyet getirmektedir, örneğin pekiştirmeli öğrenme ajanı eğitim süresini yalnızca %5 artırmaktadır. Mevcut eniyileme yöntemlerinde kullanılan maliyet modellerini, eğittimiz tahminleyici modellerle değiştirdiğimizde, hedef çalışma ortamıyla uyumlu ve tutarlı eniyilemeler yapılabildiğini tespit ettik. Böylece öncül çalışmalarda önerilen eniyileme yöntemlerinin uygun maliyet modeliyle anaakım araçlara uygulanabileceğini gösterdik. Sonuç olarak bu çalışmada mevcut çizge eniyileme yöntemlerinin, maliyet modelinin dayandığı nokta olması sebebiyle çalışma ortamından bağımsız değerlendirilemeyeceğini, bir çalışma ortamı için geliştirilmiş maliyet modeliyle yapılan eniyilemenin başka bir çalışma ortamına taşınarak doğrudan kullanılabilir olmadığını, tutarsızlıklar sebebiyle negatif sonuçlanabildiğini gösterdik. Bunun yanında önerdiğimiz tahminlemeye dayalı maliyet modeliyle, modelimizi çalıştırmak istediğimiz çalıştırma ortamıyla tutarlı bir şekilde eniyileme yapmamızı sağlayabilecek bir akışı gösterdik. Tahminleme yaklaşımının diğer katkısı da, eniyileyicilerin doğrudan eğitilemediği uç cihazlar gibi donanımlarda da eniyileme imkanı doğurmasıdır. İlgili donanımda yalnızca ölçümler yapılarak tahminci ve eniyileyici güçlü makinede eğitilip, ardından eniyilenmiş model o donanıma taşınabilir. Bu gelecekteki çalışmalar için araştırma konusu olabilir.

Özet (Çeviri)

Deep learning models are rapidly growing in size and complexity. Recent studies in academia and industry have shown that deeper and larger models can solve more complex problems. However, increasing the size and parameter count of these models is not without cost. Large models require substantial computational resources and processing time during both training and inference. This increased computational cost has driven efforts to use existing hardware resources more efficiently. To optimize hardware utilization for deep learning tasks, various optimization tools called deep learning compilers have been developed. These compilers take a model from a deep learning framework and apply optimizations without altering its behavior, generating a faster and more efficient version. Optimizations can be broadly categorized into two main levels: graph-level optimizations and operator-level optimizations. This thesis focuses specifically on graph-level optimizations. Graph-level optimizations involve algebraically rewriting operations or groups of operations within a computational graph into equivalent but more efficient forms. Typical graph rewriting operations include fusion of sequential operators, decomposition into smaller operations, grouping parallel or sequential operators, and leveraging linear algebra properties to rewrite graph structures. Due to the large size and variety of operator combinations in computational graphs, many alternative transformations can be applied during optimization. A naive solution to choosing transformations is a rule-based approach, where expert-defined transformation rules are applied whenever possible. However, this method does not account for the performance impact or potential negative side-effects that may decrease computational efficiency, despite maintaining algebraic correctness. As an alternative to rule-based methods, more flexible optimization approaches treat the transformation process as a search problem. Instead of relying solely on predefined rules, these approaches automatically create a broader search space composed of sequential transformations. Selecting the optimal transformations requires modeling their impact on runtime performance, thus depending on a cost (runtime) model. Some approaches estimate the runtime by aggregating individual operator costs, but recent studies have shown that end-to-end runtime measurements yield more accurate results. Early cost-based optimization methods use greedy algorithms, which, although more flexible than rule-based methods, still have limitations. Greedy algorithms struggle to account for long-term effects of transformations on future optimization steps. Recently, reinforcement learning-based approaches have been proposed to address this issue. By modeling transformation selection as a reinforcement learning problem, these methods effectively consider long-term impacts, resulting in better optimization outcomes. However, the success of these methods depends not only on the search strategy but also heavily on the accuracy of the cost model and the runtime environment. This thesis has two primary goals: First, we evaluate whether the success of existing graph-level optimization methods demonstrated in their experimental environments can directly transfer to a mainstream runtime environment on identical hardware. Second, we develop a new cost model that enables existing methods to effectively optimize models in mainstream runtime environments. Here, the runtime environment refers to the software stack used to execute the models, while experiments are conducted on identical hardware. To test the portability of existing optimization methods, we replicated experiments from selected previous studies. Our experiments demonstrated that, although these methods effectively optimize models in their original environments, the same optimized models do not perform equally well when directly transferred to a mainstream environment (in this case, ONNX Runtime). We observed that optimizations beneficial in one environment can negatively impact performance in another, primarily due to differences in implementations, scheduling strategies, and memory handling. The existing optimization tools abstract away these critical details, causing discrepancies across different runtime environments. We concluded that for existing optimization methods to be valid and practical in mainstream runtime environments, their costs must be modeled accurately. A straightforward method to estimate these costs is repeated end-to-end measurement during optimization. However, this approach significantly slows down the optimization process due to the repeated measurements required at nearly every step. For instance, reinforcement learning-based optimizers showed training time increases of up to fourfold in our experiments. To address this limitation efficiently, we proposed a Graph Neural Network (GNN)-based model to estimate computational graph runtimes quickly. Since the crucial factor during optimization is not the exact runtime of individual graphs but rather the comparative runtime differences between candidate graphs, we designed a model inspired by graph similarity methods that predicts runtime differences. Our proposed method incurs minimal additional overhead, increasing reinforcement learning agent training time by only 5%. By replacing the cost models of existing optimization methods with our learned predictor, we achieved optimizations aligned closely with the target runtime environment. Thus, we demonstrated that existing graph-level optimization methods could be effectively applied to mainstream environments using a suitable cost model. In conclusion, our study shows that existing graph optimization methods relying heavily on specific cost models are not inherently portable between different runtime environments due to inconsistencies. Our proposed prediction-based cost model addresses this limitation, enabling consistent optimizations aligned with the target environment. Additionally, our approach enables optimization for devices where direct training is infeasible, as models can be trained on powerful hardware using measurements collected from target devices and then deployed. Exploring this direction further represents a promising avenue for future research.

Benzer Tezler

Tez No
930988
Aralıklı tekrar yönteminin akademik başarıya etkisinin makine öğrenim ve derin öğrenme modelleriyle incelenmesi
Examining the effect of spaced repetition method on academic success with machine learning and deep learning models
TUĞBA ÇIRDAKLI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Manisa Celal Bayar Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMİN BORANDAĞ
Tez No
933958
Yanıltıcı gözlem saldırılarına karşı çok etmenli rehberli derin pekiştirmeli öğrenme yaklaşımı
Multi agent guided deep reinforcement learning approach against state perturbed adversarial attack
ÇAĞRI ÇERÇİ
Doktora
Türkçe
2025
Mekatronik Mühendisliği İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN TEMELTAŞ
Tez No
685264
Elektronik izleme uygulanan hükümlülerin hareketliliğinin mekansal-zamansal analizi: İstanbul ili örneği
Spatio-temporal analysis of applied electronic monitoring on parolees of mobility: A case study in Istanbul
YUNUS SERHAT BIÇAKÇI
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
Tez No
507280
Audio visual attention for robots from a developmental perspective
Gelişimsel perspektiften robotlar için görsel ve işitsel diıkkat
NADA AL AZZAWI
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÖKHAN İNCE
Tez No
839596
Derin öğrenme algoritmaları ile hisse senetlerinin fiyat hareketliliği öngörüsü
Prediction of stock price movements with deep learning algorithms
CEREN CAMKIRAN
Doktora
Türkçe
2023
İstatistik Marmara Üniversitesi
Ekonometri Ana Bilim Dalı
PROF. DR. DİLEK ALTAŞ KARACA

Geri Dön