Optimizing core signal processing functions on a superscalar SIMD architecture
Büyük ölçekli bir SIMD mimarisi üzerinde çekirdek sinyal işleme fonksiyonlarının performanslarının iyileştirilmesi
- Tez No: 581481
- Danışmanlar: DOÇ. DR. CÜNEYT FEHMİ BAZLAMAÇCI
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 142
Özet
Görüntü İşleme, Konuşma Tanıma, Radar gibi teknolojilerin temelinde Sayısal Sinyal İşleme (SSİ) bulunmaktadır. Bu teknolojileri kullanan elektronik cihazlar yaygınlaştıkça, bu teknolojilerin daha ucuz ve daha az enerji harcayan donanımlar tarafından gerçekleştirilmesi büyük önem kazanacaktır. Cortex-A15 işlemci mimarisi ise ARM'ın bu gereksinime yönelik geliştirdiği bir çözümdür. Bu sebeple, SSİ fonksiyonlarının bu mimari üzerinde olabilen en iyi şekilde çalışması faydalı olacaktır. Bu tezde, sık kullanılan 4 SSİ operasyonu ARM Cortex-A15 üzerinde, yardımcı paralel işlemci NEON olabildiğince etkin biçimde kullanılacak şekilde gerçeklenmiştir. Gerçeklenen operasyonlar, Matris Toplamı, Matris Çarpımı, Evrişim ve Fourier Dönüşümü'dür. Bu operasyonlar sayısız yazılım kütüphanesi tarafından gerçekleştirilmiş olsalar da bunların hiç biri belirli bir işlemciye yönelik geliştirilmemişlerdir. Bu tezde yazılan fonksiyonlar, büyük ölçekli, sırasız işleme yapabilen Cortex-A15 üzerinde en etkin çalışacak şekilde yazılmıştır. Her tipteki işlemci ardışık düzen oyalanmalarına maruz kalabilir. Fakat normal ölçekli işlemcilerden farklı olarak, büyük ölçekli işlemciler ardışık düzen oyalanması durumlarında bile büyük ölçekli performans gösterebilirler. Bu, işlemcide bulunan işletme birimlerinden yüksek oranda faydalanılmasıyla sağlanabilir. Bu işletme birimlerinden alınan faydanın artılırmasının bir yolu komutların doğru bir şekilde sıralanması olabilir. Komutların en doğru şekilde sıralanabilmesi için mimari hakkında çeşitli özelliklerin bilinmesi gerekmektedir. Bu özellikler arasında yer alan, her komutun kaç saat döngüsü sürdüğü bilgisinin keşfi için bir metot geliştirilmiştir. Buna ek olarak, komut sıralaması sırasında yol gösterebilecek bazı yönergeler oluşturulmuştur. Başka yöntemlerle beraber bu yönergeler de kullanılarak yukarıda bahsedilen SSİ fonksiyonları geliştirilerek daha yüksek performans elde edilmeye çalışılmıştır.
Özet (Çeviri)
Digital Signal Processing (DSP) is the basis of many technologies, such as Image Processing, Speech Recognition, Radars, etc. Use of electronic devices such as smartphones, smartwatches, self-driving cars and autonomous robots that take advantage of these technologies becomes widespread and hence it is more critical than ever for these technologies to be realized with high efficiency on cheaper and less power-hungry devices. Cortex-A15 processor architecture is one of the solutions from ARM to this requirement. Therefore, it is worth to optimize certain DSP functions on the Cortex-A15. In this thesis, four commonly used DSP operations are implemented on an ARM Cortex-A15 processor, heavily utilizing the vector co-processor NEON. The optimized operations are Matrix Addition, Matrix Multiplication, Convolution, and Fourier Transform. Although numerous DSP libraries implement these operations, they are not tailored to a specific processor. The functions implemented in this thesis aim to be most efficient on Cortex-A15, which is a superscalar, out-of-order executing processor. All types of processors may suffer from pipeline stalls. However, unlike scalar processors, superscalar processors may achieve a superscalar performance even in the presence of pipeline stalls. This could be accomplished by utilizing the execution units of the processor better. One way of possibly increasing the utilization of the execution units is instruction reordering. To reorder instructions optimally, one must know certain specifications of the architecture. To discover one of those specifications, i.e. the cost of instructions in clock cycles, a method is developed for performing the appropriate time measurements. Additionally, a set of guidelines for instruction reordering is conceived. Using these guidelines, among other optimization techniques, the DSP functions mentioned earlier are manually optimized to achieve a high execution performance.
Benzer Tezler
- Improvements for chip-chip interconnects and mems packaging through materials and processing research
Başlık çevirisi yok
ERDAL UZUNLAR
- Real-time video encoder on TMSC6000 platform
Gerçek zamanlı video kodlayıcısının TMSC6000 platformunda gerçekleşmesi
BARAN ERDOĞAN
Yüksek Lisans
İngilizce
2004
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖZDE BOZDAĞI AKAR
- A review of FFT algorithms and a real-time algorithm development for airborne vibration testing applications
FFT algoritmalarının incelenmesi ve uçuşta titreşim testi uygulamaları için gerçek zamanlı algoritma geliştirilmesi
OSMAN BİRKAN ÖZSEVEN
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA HELVACI
- Analysis of pressure wave propagation in multiphase flow in oil production lines and numerical modeling of process
Petrol üretim hatlarında çok fazlı akışta basınç dalgası yayılımının analizi ve sürecin sayısal modellemesi
RABİA TUĞÇE ÖZDEMİR
Doktora
İngilizce
2024
Petrol ve Doğal Gaz MühendisliğiOrta Doğu Teknik ÜniversitesiPetrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL DURGUT