Mikrofon dizilerinde ses kaynağının yerinin zaman farkı gecikmeleri kullanılarak bulunması
Sound source localization using microphone arrays by tdoa method
- Tez No: 540281
- Danışmanlar: DOÇ. MÜRVET KIRCI
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Telekomünikasyon Mühendisliği Bilim Dalı
- Sayfa Sayısı: 86
Özet
Bu çalışmada ses tanıma/algılama ve telekonferans gibi uygulamalarda kullanılabilecek ses kaynağının yerini bulma problemi ele alınmıştır. Kaynak yeri bulma problemi sadece ses kaynağı için sınırlı olmayıp sonar, radar, kablosuz haberleşme gibi diğer çalışma alanlarında da ele alınmıştır. Tek bir mikrofon ile kaynak yeri kestirimi yapılamamaktadır. Bu nedenle mikrofon dizileri kullanılmaktadır. Bir mikrofon dizisinin geometrik olarak farklı yerlere yerleştirilmesi ile ses sinyallerinin farklı zamanlarda mikrofonlara gelmesi amaçlanır. Farklı mikrofonlardan alınan ses sinyalleri irdelenerek ses kaynağının yerinin tespiti amaçlanır. Lokalizasyon problemi için literatürde birden fazla model kullanılmaktadır. Hüzmeleme, uzaysal kestirim problemleri, zaman gecikme kestirimine bağlı yöntemler bu modellerden sayılabilir. Bu tez çalışmasında, gürültü ve yankıya dayanıklı olması, kolay hesaplanabilir olması, gerçek zamanlı sistemlerde kullanılabilir olması ve az mikrofon kullanarak da lokalizasyon kestirimi yapmaya elverişli olması nedeniyle zaman geciktirme kestirimine bağlı ses kaynağının yerini bulma yöntemi ele alınmıştır. İlk olarak, tek bir kaynağın hareketsiz olduğu durum incelenmiştir. Kaynağın yerini bulabilmek için mikrofon çiftlerinin arasındaki zaman gecikmesi hesaplanır. Bunun için çapraz korelasyon ve genelleştirilmiş çapraz korelasyon yöntemleri kullanılmıştır. ÇK yöntemi iki sinyalin benzerliğini ölçmeye yarayan bir yöntemdir. Bir sinyal zamanda kaydırılarak diğer sinyalle olan iç çarpım değeri hesaplanır. İç çarpım değerinin maksimum olduğu noktaya kadar geçen süre zaman geciktirmesini verir. GÇK yöntemlerinde ise sinyaller önce filtreden geçirilir. Amaç, gürültü ve diğer ortam şartlarından daha az etkilenmesini sağlamaktır. Tezde Roth, Scot ve Phat filtreleri kullanılmıştır. İkinci adım olarak mikrofonlara gelen sinyallerin varış zaman farkları, mikrofon ve kaynağın konumları cinsinden yazılır. Elde edilen denklemler lineer olmayan denklemlerdir. Bu denklemleri lineer hale getirebilmek için üç yöntem denenmiştir: Hiperbolik konumlandırma yöntemi, en büyük olasılıklı tahmin yöntemi ve Gauss Newton yöntemi. İlk iki yöntem, iki adet kaynak yeri tespit eder. Doğru kaynak yerini bulmak için ek bir bilgiye ihtiyaç vardır. Gauss Newton ise tekrarlı bir yöntemdir ve kaynak yerini ek bir bilgiye ihtiyaç duymadan tespit edebilir. Bu yöntemde kaynağın başlangıç yeri rastgele atanır ve tekrarlı şekilde asıl kaynak yeri tespit edilmeye çalışılır. İlk atanan değer, sistemin yakınsaması için önemlidir. Yöntemlerin simulasyonu MATLAB programı kullanılarak yapılmıştır. Öncelikle iki boyutlu kaynağın yer tespiti için üç mikrofon farklı konumlara yerleştirilmiştir. Referans mikrofona göre varış zaman farkları genelleştirilmiş çapraz korelasyon yöntemleri ile tespit edilmiştir. En büyük olasılıklı tahmin algoritmasını kullanarak xviii kaynağın farklı konumlardaki yeri tespit edilmiştir. Üç boyutlu yer tespiti için mikrofon sayısı dörde çıkarılmıştır. Referans mikrofona göre varış zaman farkları aynı şekilde hesaplanmıştır. Lineer olmayan denklemleri lineer hale getirebilmek için önce en büyük olasılıklı tahmin algoritması kullanılmıştır. İkinci yöntem olarak hiperbolik konumlandırma yöntemi kullanılmıştır. Hata payı diğer yöntemlere göre daha fazla olduğu için bu yöntem tercih edilmemiştir. Üçüncü yöntem ise Gauss Newton yöntemidir. En büyük olasılıklı tahmin algoritması Gauss Newton yöntemine göre daha iyi sonuç versede iki adet kaynak yeri tespit edilmesinden dolayı, Gauss Newton Yöntemi tezin ikinci kısmında tercih edilmiştir. Tezin ikinci kısmında iki kaynağın hareketsiz olduğu durum incelenmiştir. Yukarıda anlatılan yöntemler tek kaynak yeri tespiti için kullanılabilirken, birden fazla kaynağın olduğu durumda direk olarak kullanılamamaktadır. Bu nedenle, önce mikrofonlara gelen sinyaller ayrıştırılır. Ayrıştırma işlemi için hızlı bağımsız bileşen algoritması kullanılmıştır. Hızlı bağımsız bileşen analizi mikrofon sayısının kaynak sayısına eşit olduğu ve mikrofonların aynı anda kaynak işaretlerini aldığı durumda kullanılmaktadır. Bağımsız bileşenlerin Gauss olmayan dağılıma sahip ve istatiksel olarak bağımsız olduğu varsayımları altında mikrofonlara gelen sinyallerin ayrıştırılması için tercih edilir. Analiz sonucunda, bağımsız bileşenlerin sıralamasına karar verilemez ve elde edilen bileşenlerin enerjileri belirsizdir. Üç boyutlu iki kaynağın yerini tespit etmek için altı adet mikrofon rastgele yerleştirilmiştir. Her bir mikrofonun olduğu yerde bir adet daha mikrofon olduğu düşünülmüştür. Yani, altı adet mikrofon çifti elde edilmiştir. Tüm mikrofon çiftleri için hızlı bağımsız bileşen analizi uygulanıp, mikrofonlara gelen farklı iki kaynak kestirilmiştir. Hızlı bağımsız analizi ile elde edilen sinyaller kendi enerjileri ile normalize edilir. Normalize edilen sinyallerin hızlı Fourier dönüşümü alınır. Bu adımda iki farklı ses kaynağının, iki farklı frekansa sahip olduğu gözlenmiştir. Fourier dönüşümü alınan sinyallerin genlikleri eşitlenir. Elde edilen sinyaller korelasyon katsayısı yardımıyla karşılaştırılır ve sinyallerin hangi kaynaktan geldiği belirlenir. Böylelikle, frekans bilgisi kullanılarak sınıflandırma işlemi yapılır. Her bir mikrofon çifti için hızlı bağımsız bileşen analizi ile elde edilen sinyallerin hangi kaynaktan geldiği belirlendikten sonra ilgili kaynağın işaretleri bir araya getirilir. Hızlı bağımsız bileşen analizinde enerjinin kestirimi yapılamadığı için belirsizliklerin giderilmesi gereklidir. Sinyallerin mutlak değeri alınıp maksimum değerleri ile normalize etme işlemlerinden sonra bu problem de çözülmüş olur. Birinci kaynak için referans mikrofona göre varış zaman farkları tek kaynak olduğu durumdaki gibi hesaplanır. Gauss Newton yöntemi ile kaynağın yeri tespit edilir. Bu kısımda kaynak yeri için ilk verilen değer rastgele değil en küçük kareler yöntemiyle belirlenir. Aynı işlemler, ikinci kaynak içinde uygulanır. Böylelikle, her iki kaynağın yeri tespit edilir.
Özet (Çeviri)
In this study, locating the sound source problem is handled that can be used in applications such as voice recognition / detection and teleconference system. The problem of finding the source location is not only limited to the sound source but also in other fields such as sonar, radar and wireless communication. Source location cannot be estimated with a single microphone, and consequently microphone arrays are used. It is intended that sound signals arrive at the microphones at different times when a microphone array is placed in geometrically different places. It is aimed to determine the location of the sound source by examining the sound signals taken from different microphones. The number of the microphones, their quality, distance between them and distance from the sound source, degree of noise and reverberation in the environment, the number of active audio sources and the ability to distinguish the signals from the microphones at the same time are important parameters to accurately predict the location of the sound source. For real time applications, calculations should not be intense and they should give immediate results. In the literature many models are used for source localization. Beamforming, subspace based estimation and time delay estimation methods are the most commonly used models. In this thesis, source localization in microphone arrays using time difference of arrival estimation is preferred because of its advantages: robust to noise and reverberant environment, easily computable, usable in real time systems, and able to make localization estimation using few microphones. As a first step, it is assumed there is one source which is stationary. Knowledge of time difference of arrival is required to find source localization. Cross correlation and generalized cross correlation methods are used in order to find time difference of arrivals between microphone pairs. Cross correlation is one of the methods that is used to measure similarity between signals. One of the signal is shifted in time and inner product value between signals is calculated. The cross correlation of the two signals is maximum at a lag equal to the delay. The difference between cross correlation and general cross correlation is that in general cross correlation, signals are first filtered so that they are less affected by noise and other environmental conditions. In the literature, many filters are suggested for better estimation of delay. Three widely used filters are used in this thesis: ROTH, SCOT and PHAT filters. As a second step, time differences of arrivals are written in terms of source and microphone locations. The obtained equations are nonlinear equations. In the literature, different methods have been proposed to linearize nonlinear equations. Three of them is used for this purpose namely: Hyperbolic position location xx estimator, maximum likelihood estimator and Gauss Newton method. The first two methods detect two source locations and that is why additional information is needed to find the right source location. Gauss Newton is an iterative method and can detect the location of the source without the need for additional information. In this method, the initial point of the source is assigned randomly and the original source location is tried to be determined repeatedly. The first assigned value is important for the convergence of the system. Simulations are done using MATLAB program. First of all, three microphones are located in different positions in order to estimate two-dimensional source location. According to the reference microphone, arrival time differences are determined using generalized cross correlation methods. The location of the source in different locations has been determined by using maximum likelihood estimator. The number of microphones are increased to four for three-dimensional source location. Time differences of arrivals are determined with respect to the first microphone. Maximum likelihood estimator is used to linearize nonlinear equations. Hyperbolic position location estimator is used as a second method. This method is not preferred because its error is higher than other methods. The third method is Gauss Newton. Although maximum likelihood estimator gives better results than Gauss Newton method, Gauss Newton method is preferred because it does not need any extra information for source localization. In the second part of the thesis, it is assumed that there are two sources in the field which are stationary. While the methods described above can be used for single source localization, they cannot be used directly in case of multiple sources. When there are more than one sound sources, the emitted signals which are received by microphones will be a linear combination of each sources. For this reason, an additional process which is called source seperation is required before calculating time difference of arrivals. Source separation is the process of estimating underlying source signals from observed mixtures. It is a statistical signal processing technique and it is widely used in several applications such as speech processing, feature extraction and medical imaging. The process of separating the sources is made by taking the mixture model into account and by making some assumptions about the characteristics of the source signals. Fast independent component analysis is one of the most efficient independent component analysis. It seperates the independent sources from their mixtures by measuring non-Gaussianity. Fast independent component analysis is used when the number of microphones is equal to the number of sources and microphones receive source signals at the same time. It is used to separate signals from the microphones under the assumptions that the independent components are statistically independent and have a non-Gaussian distribution. After the analysis, the order of the independent components cannot be determined and their energy is uncertain. Six microphones are placed randomly to localize two sources in three-dimension. It is thought there is extra one microphone at each microphone place. In other words, there are six microphone pairs in the environment. Each source is separated by fast independent component analysis method. It is applied for all microphone pairs and two different sources are estimated. The estimated signals for each microphone pairs are different in amplitude, sign and order. Calculating time differences of arrivals for each source using directly the xxi estimated signals will result in wrong source location. Therefore, it is essential to eliminate differences between signals. First, all signals are normalized with their energies. Second, fast Fourier transform of normalized signals are calculated. In this step, it is observed that two independent sound sources have two different frequencies. Third, the amplitudes of them are equalized by dividing signals to their maximum value. Fourth, the obtained signals are compared using correlation coefficient, and accordingly they are separated into two groups since there are two sources in the field. Thus, frequency information is used to make classification. As a result, signals which are obtained by fast independent component analysis are also separated into two groups and each sources' signals are combined. Before calculating time difference of arrivals for each source, it is necessary to compensate differences between combined signals. After applying fast independent components analysis, estimated signals may be different in amplitude and sign. This problem is solved after taking absolute value of the signals and normalize with their maximum values. As a result, not only their amplitude become equal but also phase (delay) information is preserved. Lastly, corrected signals in the last step are used to calculate time difference of arrivals. For the first source, there are five different time differences which are constituted in terms of the reference microphone. Then, time differences of arrivals are written in terms of source and microphone locations. For instance, for the first source, when time difference between third and first microphone is multiplied with the speed of sound, it will be equal to the range difference between first source position to the first microphone and first source position to the third microphone. This equation is nonlinear and Gauss Newton method is used to linearize it. In the first part of thesis, an initial source position is assigned randomly and the original source location is tried to be determined repeatedly. In this section, the initial value for the source location is determined by the least squares method to improve convergence of the system. The same operations are performed for the second source. Consequently, each source position can be estimated. In the thesis, white noise is added to microphone signals and performance of the source localization is also investigated.
Benzer Tezler
- Mikrofon dizilerinde ses kaynağının yerinin genetik algoritma kullanılarak bulunması
Sound source localization with microphone arrays using genetic algorithm
EKREM ÇONTAR
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
- Fazlı mikrofon dizileri kullanarak elde edilen ses sinyallerinin işlenmesi
Processing the voice signals collected through phase microphone arrays
İLKER İBRAHİM AVŞAR
Yüksek Lisans
Türkçe
2010
Elektrik ve Elektronik MühendisliğiMustafa Kemal ÜniversitesiElektrik-Elektronik Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. EMİN ÜNAL
- İğnecikli sinir ağları ile ses kaynağı sınıflandırma
Sound source classi̇fi̇cati̇ons usi̇ng spi̇ki̇ng neural networks
PEREN JERFİ CANATALAY
Yüksek Lisans
Türkçe
2016
Elektrik ve Elektronik Mühendisliğiİstanbul Aydın ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
- Mikrofon dizileri ile telekonferans sistemlerinin iyileştirilmesi
Improvement of teleconferencing systems with microphone arrays
ESMA SULTAN SEZEN
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
- Mikrofonlar aracılığıyla ses kaynağı konumu tespiti ve uygulaması
Sound source location detection and application using microphones
YAKUP KÜÇÜK
Yüksek Lisans
Türkçe
2019
Mühendislik BilimleriYıldız Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. CÜNEYT YILMAZ