Geri Dön

Conditional generative adversarial network based room impulseresponse generator

Koşullu çekişmeli ağ tabanlı oda yankı izi üreteci

  1. Tez No: 951865
  2. Yazar: MEHMET PEKMEZCİ
  3. Danışmanlar: DOÇ. DR. YAKUP GENÇ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 176

Özet

Uzak alan otomatik konuşma tanıma uygulamaları, yankı etkilerini ele almayı gerektirir; bu ya alınan ses sinyallerini yankıdan arındırarak ya da belirli çevresel koşullara uygun şekilde yankılanmış ses verileri üzerinde tanıyıcı sinir ağlarını eğiterek gerçekleştir- ilir. Benzer şekilde, sanal ve artırılmış gerçeklik uygulamaları, sanal ortamlardaki ses sinyallerinin doğru şekilde işitselleştirmesini gerektirir. Bu, ses kaynağının ve alıcının konumlarına uyum sağlayarak doğal bir işitsel deneyim oluşturmayı hedefler. Ayrıca, oda boyutu ve şekil tahmini, geliş yönü tahmini, bir odadaki malzeme tespiti, konser salonlarındaki dinleyici çevreleme değerlendirmesi, yansıtıcı yüzeylerin kon- umlarının çıkarılması, ultrason tomografisi, binalardaki su borusu arıza tespiti ve daha fazlası gibi uygulamalar, yankılanmış ses sinyallerinin üretilmesini gerektirir. Yankılanmış ses sinyalleri, ya sinüzoidal fonksiyonlar ya da oda yankı izi (RIR) fonksiy- onları kullanılarak üretilebilir. Sinüzoidal fonksiyon tabanlı yöntem genellikle mekanik bir yankı sesi üretirken, oda yankı izi yaklaşımı çok daha doğal bir yankı sesi sunar. Oda Yankı İzi (Room Impulse Response, RIR), bir ortamda bulunan ses kaynağından çıkan sesin, aynı ortamda bulunan bir mikrofona gelinceye kadar, oda içindeki fiziksel ve geometrik koşullara göre değişimini tanımlamak için kullanılan“matematiksel fonksiyon parametresidir”. Burada kullanılan matematiksel fonksiyon genellikle Denklem 0.1 'de görüldüğü gibi bir evrişimdir (konvolüsyondur) . Evrişimin sol taraftaki parametresi, ses kaynağından çıkan ses, sağ taraftaki parametresi de oada yankı izidir, sonuç ise mikrofondan algılanan sestir. (Ses kaynagindan cikan ses) ∗ (RIR) = (M ikrof ondan algilanan ses) (0.1) Aslında“Oda Yankı İzi”de bir ses dalgasıdır. Dolayısıyla bilgisayarda wav dosyası formatında saklanmaktadır. Yankı izini en iyi şekilde bir“ses darbesi”(impulse) kulla- narak elde edebiliriz. Ses kaynağından ses darbesi şeklinde çıkan ses, ortamdaki diğer düşük seviyeli gürültü kaynaklarından kolaylıkla ayrışır. Oda yankı izleri gerçek dünya ortamlarında doğrudan ölçülebilir olsa da, bu her zaman mümkün değildir—özellikle sanal gerçeklik ortamlarında veya karmaşık ya da erişilmesi zor ortamlarda. Bu tür durumlarda, oda yankı izlerinin sentetik olarak üretilmesi zorunlu hale gelir. Bunu başarmak için ortamın geometrisi (bir ağ olarak sağlanır), hoparlör ve mikrofon konumları ve ortamda bulunan malzemelerin yansıma katsayıları dikkate alınmalıdır. Bu yaklaşım, doğrudan ölçümün pratik olmadığı çeşitli senaryolarda yankı simülasyonunun gerçekçi bir şekilde gerçekleştirilmesini sağlar. Oda yankı izi (RIR) üretim teknikleri dalga tabanlı, ışın tabanlı ve istatistiksel yöntemler olarak sınıflandırılabilir. Bunlar arasında derin sinir ağı (DNN) tabanlı yöntemler istatis- tiksel kategoriye girer. Dalga tabanlı ve ışın tabanlı yaklaşımlarla karşılaştırıldığında, DNN tabanlı yöntemler en iyi performans-kompleksite oranını sunar, bu da onları hem verimlilik hem de doğruluk gerektiren uygulamalar için özellikle uygun kılar. Çekişmeli Üretken Ağlar (GAN'lar), görüntü ve ses üretimindeki başarılarıyla tanın- makta olup, oda yankı izi üretiminde de son derece etkilidir. Çekişmeli Üretken Ağlar sayesinde gerçekçi oda yankı izleri sentezlenirken hesaplama yükü azaltılabilir. Bu, geleneksel dalga veya ışın tabanlı tekniklerin sınırlamalarını aşar ve Çekişmeli Üretken Ağları, karmaşık veya dinamik ortamlarda yüksek kaliteli oda yankı izi üretimi gerek- viiitiren görevler için cazip bir seçenek haline getirir. Çekişmeli Üretken Ağlar (GAN'lar) kullanılarak oda yankı izleri (RIR'ler) üretmeye yönelik önceki çalışmalar, umut verici sonuçlar göstermiş ancak aynı zamanda iki önemli sorunu ortaya çıkarmıştır: • Üretilen Oda Yankı İzlerindeki Kusurlar: Bu kusurlar, oda yankı izlerinin kaynak ses ile evrişime tabi tutulduğunda bozulmalara neden olabilir ve sonuçtaki ses kalitesini olumsuz etkileyebilir. Bu çalışmada, bu kusurları azaltmak ve daha pürüzsüz ve doğal sesli oda yankı izleri sağlamak için bir yöntem öneriyoruz. • Geometri ve Akustik Eğitimde Bağlılık: Mevcut modeller, geometri gömülü kodlaması ve akustik modellemeyi sıkı bir şekilde entegre eder ve her iki bileşenin birlikte eğitilmesini gerektirir. Bu bağımlılık, yeni geometri türleri için oda yankı izlerinin genelleştirilmesini ve üretilmesini sınırlar. Bu çalışmada, sinir ağı modelinin geometrik ve akustik bileşenlerini ayıran bir yöntem sunarak bağımsız eğitim yapılmasını sağlıyor ve farklı oda geometrileriyle başa çıkma esnekliğini artırıyoruz. Bu zorlukların ele alınmasıyla, önerilen yaklaşım sadece üretilen oda yankı izlerinin kalitesini artırmakla kalmaz, aynı zamanda modeli yeni geometrik yapılandırmalara uyarlama yeteneğini de geliştirir.

Özet (Çeviri)

Far-field automatic speech recognition applications require addressing reverberation effects, either by dereverberating the received audio signals or by training the recognizer neural networks on reverberated sound data tailored to specific environmental conditions. Similarly, virtual and augmented reality applications demand accurate auralization of sound signals within virtual environments, adapting to specific sound source and receiver locations to create a natural auditory experience. Additionally, applications such as room size and shape estimation, direction of arrival estimation, material detection within a room, listener envelopment evaluation in concert halls, inferring the location of reflecting surfaces, ultrasound tomography, water pipeline defect detection in buildings, and more require the ability to generate reverberated sound signals. Reverberated sound signals can be generated using either sinusoidal functions or room impulse response (RIR) functions. While the sinusoidal function-based method often produces a mechanical-sounding reverberation, the RIR approach results in a much more natural-sounding reverberation. Although RIRs can be directly measured in real-world environments, this is not always feasible—particularly in virtual reality settings or situations involving complex or inac- cessible environments. In such cases, synthetic generation of RIRs becomes essential. To achieve this, we must account for the environment's geometry (provided as a mesh), the positions of the loudspeaker and microphone, and the reflection coefficients of the materials present in the space. This approach enables the realistic simulation of reverberation in a variety of scenarios where direct measurement is impractical. Room impulse response (RIR) generation techniques can be categorized into wave-based, ray-based, and statistical methods. Among these, deep neural network (DNN)-based methods fall under the statistical category. Compared to wave-based and ray-based ap- proaches, DNN-based methods offer the best performance-to-complexity ratio, making them particularly suitable for applications requiring both efficiency and accuracy. Generative Adversarial Networks (GANs), widely recognized for their success in image and sound generation tasks, are highly effective for generating RIRs. By leveraging GANs, we can synthesize realistic RIRs while reducing computational overhead, thereby addressing the limitations of traditional wave- or ray-based techniques. This makes GANs a compelling choice for tasks requiring high-quality RIR generation in complex or dynamic environments. Previous works employing Generative Adversarial Networks (GANs) for generating room impulse responses (RIRs) have shown promise but also revealed two significant issues: • Glitches in Generated RIRs: These glitches can introduce distortions when the RIRs are convolved with the source sound, adversely affecting the resulting audio quality. In this study, we propose a method to mitigate these glitches, ensuring smoother and more natural-sounding RIRs. • Coupled Geometry and Acoustic Training: Existing models tightly integrate geometry embedding and acoustic modeling, requiring joint training of both com- ponents. This dependency limits the ability to generalize and generate RIRs for unseen types of geometries. In this work, we present a method to decouple the vigeometric and acoustic components of the neural network model, enabling inde- pendent training and improving flexibility for handling diverse room geometries. By addressing these challenges, our approach not only enhances the quality of the generated RIRs but also increases the adaptability of the model to novel geometric configurations.

Benzer Tezler

  1. Producing synthetic person images with deep generative artificial neural networks

    Derin üretici yapay sinir ağları ile sentetik kişi görüntülerinin üretilmesi

    MEHMET GÜNEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

  2. Synthesis of realistic photo-masks using supervised artificial neural networks

    Denetimli yapay sinir ağları kullanılarak gerçekçi foto-maske sentezi

    YUSUF BURAK FİDAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiMarmara Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET UNUTULMAZ

  3. Çok katmanlı küresel derinlik parametreleri ve derin öğrenme yöntemleri ile 3B şekil tamamlama ve üretme

    3D shape completion and generation using multilayer spherical depth parameters with deep learning methods

    ABDÜLLATİF AĞCA

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FATMA BETÜL ATALAY SATOĞLU

  4. Üretken çekişmeli ağ ve UNet kullanılarak segmente edilmiş tomografi görüntülerden Covid-19 sınıflandırmasında farklı derin öğrenme mimarilerinin kullanımı

    Using different deep learning methods for Covid-19 classification from CT scans segmented by generative adversarial networks and UNet

    KIELEH NGONG IVOLINE CLARISSE

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NURDAN BAYKAN

  5. Tekstil makinalarında kumaştaki üretim hatalarının tespiti

    Fabric defect detection in textile manufacturing processes

    SWASH SAMI MOHAMMED MOHAMMED

    Doktora

    Türkçe

    Türkçe

    2025

    Elektrik ve Elektronik MühendisliğiOndokuz Mayıs Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HÜLYA GÖKALP CLARKE