Conditional generative adversarial network based room impulseresponse generator

Koşullu çekişmeli ağ tabanlı oda yankı izi üreteci

PDF İndir

Tez No: 951865
Yazar: MEHMET PEKMEZCİ
Danışmanlar: DOÇ. DR. YAKUP GENÇ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Gebze Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 176

Özet

Uzak alan otomatik konuşma tanıma uygulamaları, yankı etkilerini ele almayı gerektirir; bu ya alınan ses sinyallerini yankıdan arındırarak ya da belirli çevresel koşullara uygun şekilde yankılanmış ses verileri üzerinde tanıyıcı sinir ağlarını eğiterek gerçekleştir- ilir. Benzer şekilde, sanal ve artırılmış gerçeklik uygulamaları, sanal ortamlardaki ses sinyallerinin doğru şekilde işitselleştirmesini gerektirir. Bu, ses kaynağının ve alıcının konumlarına uyum sağlayarak doğal bir işitsel deneyim oluşturmayı hedefler. Ayrıca, oda boyutu ve şekil tahmini, geliş yönü tahmini, bir odadaki malzeme tespiti, konser salonlarındaki dinleyici çevreleme değerlendirmesi, yansıtıcı yüzeylerin kon- umlarının çıkarılması, ultrason tomografisi, binalardaki su borusu arıza tespiti ve daha fazlası gibi uygulamalar, yankılanmış ses sinyallerinin üretilmesini gerektirir. Yankılanmış ses sinyalleri, ya sinüzoidal fonksiyonlar ya da oda yankı izi (RIR) fonksiy- onları kullanılarak üretilebilir. Sinüzoidal fonksiyon tabanlı yöntem genellikle mekanik bir yankı sesi üretirken, oda yankı izi yaklaşımı çok daha doğal bir yankı sesi sunar. Oda Yankı İzi (Room Impulse Response, RIR), bir ortamda bulunan ses kaynağından çıkan sesin, aynı ortamda bulunan bir mikrofona gelinceye kadar, oda içindeki fiziksel ve geometrik koşullara göre değişimini tanımlamak için kullanılan“matematiksel fonksiyon parametresidir”. Burada kullanılan matematiksel fonksiyon genellikle Denklem 0.1 'de görüldüğü gibi bir evrişimdir (konvolüsyondur) . Evrişimin sol taraftaki parametresi, ses kaynağından çıkan ses, sağ taraftaki parametresi de oada yankı izidir, sonuç ise mikrofondan algılanan sestir. (Ses kaynagindan cikan ses) ∗ (RIR) = (M ikrof ondan algilanan ses) (0.1) Aslında“Oda Yankı İzi”de bir ses dalgasıdır. Dolayısıyla bilgisayarda wav dosyası formatında saklanmaktadır. Yankı izini en iyi şekilde bir“ses darbesi”(impulse) kulla- narak elde edebiliriz. Ses kaynağından ses darbesi şeklinde çıkan ses, ortamdaki diğer düşük seviyeli gürültü kaynaklarından kolaylıkla ayrışır. Oda yankı izleri gerçek dünya ortamlarında doğrudan ölçülebilir olsa da, bu her zaman mümkün değildir—özellikle sanal gerçeklik ortamlarında veya karmaşık ya da erişilmesi zor ortamlarda. Bu tür durumlarda, oda yankı izlerinin sentetik olarak üretilmesi zorunlu hale gelir. Bunu başarmak için ortamın geometrisi (bir ağ olarak sağlanır), hoparlör ve mikrofon konumları ve ortamda bulunan malzemelerin yansıma katsayıları dikkate alınmalıdır. Bu yaklaşım, doğrudan ölçümün pratik olmadığı çeşitli senaryolarda yankı simülasyonunun gerçekçi bir şekilde gerçekleştirilmesini sağlar. Oda yankı izi (RIR) üretim teknikleri dalga tabanlı, ışın tabanlı ve istatistiksel yöntemler olarak sınıflandırılabilir. Bunlar arasında derin sinir ağı (DNN) tabanlı yöntemler istatis- tiksel kategoriye girer. Dalga tabanlı ve ışın tabanlı yaklaşımlarla karşılaştırıldığında, DNN tabanlı yöntemler en iyi performans-kompleksite oranını sunar, bu da onları hem verimlilik hem de doğruluk gerektiren uygulamalar için özellikle uygun kılar. Çekişmeli Üretken Ağlar (GAN'lar), görüntü ve ses üretimindeki başarılarıyla tanın- makta olup, oda yankı izi üretiminde de son derece etkilidir. Çekişmeli Üretken Ağlar sayesinde gerçekçi oda yankı izleri sentezlenirken hesaplama yükü azaltılabilir. Bu, geleneksel dalga veya ışın tabanlı tekniklerin sınırlamalarını aşar ve Çekişmeli Üretken Ağları, karmaşık veya dinamik ortamlarda yüksek kaliteli oda yankı izi üretimi gerek- viiitiren görevler için cazip bir seçenek haline getirir. Çekişmeli Üretken Ağlar (GAN'lar) kullanılarak oda yankı izleri (RIR'ler) üretmeye yönelik önceki çalışmalar, umut verici sonuçlar göstermiş ancak aynı zamanda iki önemli sorunu ortaya çıkarmıştır: • Üretilen Oda Yankı İzlerindeki Kusurlar: Bu kusurlar, oda yankı izlerinin kaynak ses ile evrişime tabi tutulduğunda bozulmalara neden olabilir ve sonuçtaki ses kalitesini olumsuz etkileyebilir. Bu çalışmada, bu kusurları azaltmak ve daha pürüzsüz ve doğal sesli oda yankı izleri sağlamak için bir yöntem öneriyoruz. • Geometri ve Akustik Eğitimde Bağlılık: Mevcut modeller, geometri gömülü kodlaması ve akustik modellemeyi sıkı bir şekilde entegre eder ve her iki bileşenin birlikte eğitilmesini gerektirir. Bu bağımlılık, yeni geometri türleri için oda yankı izlerinin genelleştirilmesini ve üretilmesini sınırlar. Bu çalışmada, sinir ağı modelinin geometrik ve akustik bileşenlerini ayıran bir yöntem sunarak bağımsız eğitim yapılmasını sağlıyor ve farklı oda geometrileriyle başa çıkma esnekliğini artırıyoruz. Bu zorlukların ele alınmasıyla, önerilen yaklaşım sadece üretilen oda yankı izlerinin kalitesini artırmakla kalmaz, aynı zamanda modeli yeni geometrik yapılandırmalara uyarlama yeteneğini de geliştirir.

Özet (Çeviri)

Far-field automatic speech recognition applications require addressing reverberation effects, either by dereverberating the received audio signals or by training the recognizer neural networks on reverberated sound data tailored to specific environmental conditions. Similarly, virtual and augmented reality applications demand accurate auralization of sound signals within virtual environments, adapting to specific sound source and receiver locations to create a natural auditory experience. Additionally, applications such as room size and shape estimation, direction of arrival estimation, material detection within a room, listener envelopment evaluation in concert halls, inferring the location of reflecting surfaces, ultrasound tomography, water pipeline defect detection in buildings, and more require the ability to generate reverberated sound signals. Reverberated sound signals can be generated using either sinusoidal functions or room impulse response (RIR) functions. While the sinusoidal function-based method often produces a mechanical-sounding reverberation, the RIR approach results in a much more natural-sounding reverberation. Although RIRs can be directly measured in real-world environments, this is not always feasible—particularly in virtual reality settings or situations involving complex or inac- cessible environments. In such cases, synthetic generation of RIRs becomes essential. To achieve this, we must account for the environment's geometry (provided as a mesh), the positions of the loudspeaker and microphone, and the reflection coefficients of the materials present in the space. This approach enables the realistic simulation of reverberation in a variety of scenarios where direct measurement is impractical. Room impulse response (RIR) generation techniques can be categorized into wave-based, ray-based, and statistical methods. Among these, deep neural network (DNN)-based methods fall under the statistical category. Compared to wave-based and ray-based ap- proaches, DNN-based methods offer the best performance-to-complexity ratio, making them particularly suitable for applications requiring both efficiency and accuracy. Generative Adversarial Networks (GANs), widely recognized for their success in image and sound generation tasks, are highly effective for generating RIRs. By leveraging GANs, we can synthesize realistic RIRs while reducing computational overhead, thereby addressing the limitations of traditional wave- or ray-based techniques. This makes GANs a compelling choice for tasks requiring high-quality RIR generation in complex or dynamic environments. Previous works employing Generative Adversarial Networks (GANs) for generating room impulse responses (RIRs) have shown promise but also revealed two significant issues: • Glitches in Generated RIRs: These glitches can introduce distortions when the RIRs are convolved with the source sound, adversely affecting the resulting audio quality. In this study, we propose a method to mitigate these glitches, ensuring smoother and more natural-sounding RIRs. • Coupled Geometry and Acoustic Training: Existing models tightly integrate geometry embedding and acoustic modeling, requiring joint training of both com- ponents. This dependency limits the ability to generalize and generate RIRs for unseen types of geometries. In this work, we present a method to decouple the vigeometric and acoustic components of the neural network model, enabling inde- pendent training and improving flexibility for handling diverse room geometries. By addressing these challenges, our approach not only enhances the quality of the generated RIRs but also increases the adaptability of the model to novel geometric configurations.

Benzer Tezler

Tez No
542738
Producing synthetic person images with deep generative artificial neural networks
Derin üretici yapay sinir ağları ile sentetik kişi görüntülerinin üretilmesi
MEHMET GÜNEL
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
Tez No
810775
Synthesis of realistic photo-masks using supervised artificial neural networks
Denetimli yapay sinir ağları kullanılarak gerçekçi foto-maske sentezi
YUSUF BURAK FİDAN
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği Marmara Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET UNUTULMAZ
Tez No
693110
Çok katmanlı küresel derinlik parametreleri ve derin öğrenme yöntemleri ile 3B şekil tamamlama ve üretme
3D shape completion and generation using multilayer spherical depth parameters with deep learning methods
ABDÜLLATİF AĞCA
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol TOBB Ekonomi ve Teknoloji Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FATMA BETÜL ATALAY SATOĞLU
Tez No
686890
Üretken çekişmeli ağ ve UNet kullanılarak segmente edilmiş tomografi görüntülerden Covid-19 sınıflandırmasında farklı derin öğrenme mimarilerinin kullanımı
Using different deep learning methods for Covid-19 classification from CT scans segmented by generative adversarial networks and UNet
KIELEH NGONG IVOLINE CLARISSE
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Konya Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NURDAN BAYKAN
Tez No
936943
Tekstil makinalarında kumaştaki üretim hatalarının tespiti
Fabric defect detection in textile manufacturing processes
SWASH SAMI MOHAMMED MOHAMMED
Doktora
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Ondokuz Mayıs Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HÜLYA GÖKALP CLARKE

Geri Dön