Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
- Tez No: 827867
- Danışmanlar: DOÇ. DR. OKTAY YILDIZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 103
Özet
Giriş Akciğer sesleri, hava solunum sisteminden geçerken üretilmektedir. Bu sesler hastaların akciğer durumuna ilişkin önemli bilgiler vermektedir. Doktorlar akciğer rahatsızlığı olan hastaları teşhis etmek amacıyla akciğer seslerini dinlemek için genellikle stetoskop kullanmaktadır. Bir akciğer sesinin durumunun sağlıklı mı yoksa sağlıksız mı olduğunu belirlemek, hatalı bir teşhis konulması halinde hastanın sağlığının riske girebileceği gerçeğinden dolayı çok kritik bir görevdir. Akciğer seslerinin doğrusal ve durağan olmayan yapısal özellikler içerdiği göz önüne alındığında, bu görevden sorumlu olan doktor veya hekimin çok deneyimli olması gerekmektedir. Otomatik tanıma sistemleri (Automatic Recognition System - ARS), sağlık çalışanları için akciğer sesi sınıflandırma zorluklarına bir çözüm sağlayabilmektedir [1]. Mekanize solunum sesi muayenesi, geleneksel oskültasyon tekniklerinin dezavantajlarının üstesinden geldiği ve klinisyenlere daha doğru teşhis için güvenilir bir araç sağladığı için akciğer seslerinin teşhisinde geleneksel oskültasyon yöntemlerine daha güvenilir bir alternatif olarak son zamanlarda popülerlik kazanmıştır. Bunun nedeni, elektronik stetoskopların örüntü tanıma ve yapay zekâ ile birleştirilmesidir [3]. Normal ve anormal solunum sesleri iki ana akciğer sesi türüdür. Solunum zorlukları olmadığında normal sesleri ortaya çıkar, ancak akciğer hastalıkları mevcut olduğunda anormal solunum sesleri ortaya çıkmaktadır. Sağlıklı bir solunum sesi, nefes borusunda hem nefes alma hem de nefes verme aşamalarında duyulabilen daha yüksek frekanslı bileşenlerle tanımlanmaktadır. Anormal solunum sesleri, sağlıklı solunum seslerine ek sesler eşlik ettiğinde ortaya çıkar. Anormal solunum sesleri hırıltılı solunum gibi sürekli, çatırtı gibi süreksiz olabilir. Bu tür seslerin varlığı bir akciğer rahatsızlığına işaret eder [1, 4, 5]. Güler ve arkadaşları [6] aynı veri kümesi üzerinde farklı akciğer seslerini sınıflandırmak için makine öğrenmesi teknikleri önermiştir. Ancak, literatürde kabul gören son teknoloji yöntemlerin hiçbirinin akciğer sesi sınıflandırması için bu veri kümesi üzerinde derin öğrenme tekniklerini kullanmamıştır. Bu tezde, ses alanında en çok tercih edilen MFCC özellik çıkarımı yapılmış, ardından bunlar derin öğrenme modeller için girdi olarak kullanılmıştır. Seçilen derin öğrenme modelleri arasında VGG, MobileNet, Xception ve ResNet bulunmaktadır. Yapılan tez çalışmasının ana katkıları şu şekilde özetlenebilir: (1) [6]'da kullanılan akciğer sesi veri kümesini sınıflandırmak için önceden eğitilmiş derin öğrenme tabanlı modeller kullanmayı önermek (2) önceden eğitilmiş modellerin bu spesifik veri kümesi üzerindeki performansını dikkatlice incelemek (3) veri artırma tekniklerinin akciğer seslerini sınıflandırmada derin öğrenme modellerin performansı üzerindeki etkisini incelemek. Seçilen derin öğrenme modellerinin halihazırda büyük veri kümeleri üzerinde eğitilmiş olması nedeniyle, verimli ve düşük eğitim süresi için önceden eğitilmiş ağırlıklarını uygun bir ağ başlatma olarak kullanabiliriz. Ancak, veri kümesinin az örneklem içermesi göz önünde bulundurulduğunda, daha fazla eğitim örneği oluşturmak ve derin öğrenme modellerinin büyük miktarda veri üzerinde iyi eğitilmesinin yanı sıra veri artırma tekniklerini kullanmayı tercih ettik. Sonuç olarak, derin öğrenme modellerimizle birlikte perde kaydırma gibi veri artırma tekniklerinin kullanılması çok daha iyi sınıflandırma doğruluğuna katkıda bulunmuştur. İlgili Çalışmalar Bu bölümde, akciğer sesi sınıflandırması ile ilgili önceki araştırmalar hakkında literatür taraması sunulmaktadır. İncelenen makalelerde önerilen yöntemler ve performansları bu bölümde sunulmuştur. Altan ve arkadaşları [9] astımlı ve sağlıklı akciğer seslerini sınıflandırmak için bir Derin İnanç Ağları (DBN) modeli önermiştir. Sınıflandırıcıyı beslemek için girdi olarak kullanılan istatistiksel özellikleri çıkarmak için Hilbert Huang Dönüşümü (HHT) yöntemini kullanmışlardır. Model, 5 çapraz doğrulama ölçütü kullanılarak değerlendirilmiş ve Derin İnanç Ağı modeli %84,61'lik bir doğruluk elde etmiştir. Islam ve arkadaşları [12], 30'u sağlıklı ve 30'u astımlı olmak üzere 60 hastadan akciğer seslerini toplamak için 4 kanallı bir veri toplama sistemi kullanmıştır. Özellik çıkarma işlemi için, her bir akciğer sesi solunum döngüsünden güç spektral yoğunluğunu hesaplamak ve ardından bunu tek tip alt bantlara ayırmak için Welch yöntemi kullanılmıştır. Sınıflandırma aşaması için Destek Vektör Makinesi ve Yapay Sinir Ağı sınıflandırıcıları alt bantlardan hesaplanan bazı istatistiksel değerlerle beslenmiştir. Destek Vektör Makinesi yöntemi, 4 kanaldan 3 kanalın (1,2,4) kombinasyonu ile %93,3 ile en yüksek sınıflandırma doğruluğuna ulaşmıştır. Messner ve arkadaşları [14] çok kanallı bir akciğer sesi veri kümesinin sınıflandırılması amacıyla bir konvolüsyonel sinir ağı modeli önermiştir. Bu veri kümesi, 16 kanallı bir ses kayıt cihazı kullanılarak farklı hastalardan kaydedilen sağlıklı ve patolojik akciğer seslerinden oluşmaktadır. Ses dosyalarından spektrogramlar çıkarmışlar ve bunları modelleri beslemek için girdi olarak kullanmışlardır. Değerlendirme sonrasında, önerdikleri CNN çerçevesi %92'lik bir F-skoruna ulaşarak diğer yöntemlerden daha iyi performans göstermiştir. Zulfiqar ve arkadaşları [3] solunum seslerinin sınıflandırılması için Yapay Gürültü Ekleme (ANA) tabanlı bir metodoloji önermişlerdir. Solunum sesinin spektrogramını oluşturmak için Fourier dönüşümünü uygulamışlar, ardından spektrogramı daha net ve daha sağlam hale getirmek için bazı yapay gürültüler eklemişlerdir. Daha sonra, önerdikleri sınıflandırıcıları girdi olarak beslemek için spektral veriler üzerinde bir özellik haritası aracılığıyla özellikler çıkardılar (AlexNet ve Inception gibi önceden eğitilmiş modeller). AlexNet modeli en yüksek sınıflandırma doğruluğunu elde eden model olmuştur. Bardou ve diğerleri [1] akciğer sesi veri kümesi üzerinde bazı makine öğrenimi tekniklerini bir CNN modeli ile karşılaştırmıştır. Mel-frekans cepstral katsayıları (MFCC'ler) ve Yerel İkili Patern (LBP) özellikleri makine öğrenmesi yaklaşımları için girdi olarak kullanılırken, akciğer sesleri ses kayıtlarından çıkarılan spektrogramlar CNN algoritmasının girdisi olmuştur. Bu çalışmada aşırı uyum sorununun üstesinden gelmek için sadece spektrogramlar üzerinde bazı veri artırma teknikleri kullanılmıştır. En yüksek sınıflandırma doğruluk değeri %95,56 ile CNN modeli için kaydedilmiştir. Elsetrønninga ve arkadaşları [2] normal ve anormal akciğer seslerinin sınıflandırılması için denetimli ve denetimsiz makine öğrenimi teknikleri geliştirmiştir. Bu çalışmada kullanılan veri kümesi 126 hastadan toplanan 920 ses kaydından oluşmaktadır. Özellik çıkarma ve özellik seçme teknikleri kullanıldıktan sonra, MFCC'ler sınıflandırıcılar için en iyi girdiler olarak seçilmiştir. K-NN, %84,38 ile en yüksek sınıflandırma doğruluğuna ulaşan algoritma olmuştur. Bu çalışmada, araştırmacılar ayrıştırma özelliği çıkarma ve özellik seçimi yaklaşımlarına daha fazla önem vermişlerdir. Haider ve arkadaşları [13] normal ve maceralı solunum seslerinin sınıflandırılmasını analiz etmek için makine öğrenimi yöntemlerini kullanmışlardır. Çalışmalarında 30 anormal ve 25 sağlıklı kayıttan oluşan bir akciğer sesleri veri kümesi kullanmışlardır. Daha sonra bu akciğer seslerinden çeşitli özellikler çıkarılmış ve COPD ve normal solunum seslerini ayırt etmeyi amaçlayan k-en yakın komşular, lojistik regresyon gibi farklı makine öğrenimi teknikleri için girdi olarak kullanılmıştır. Deney sırasında modellere farklı parametreler atamışlardır. DVM modeli tarafından elde edilen en yüksek sınıflandırma doğruluğu bazı parametrelerle %83,6 olmuştur. Farklı parametreler kullanıldığında ise DVM ve LR sınıflandırıcıları %100 sınıflandırma doğruluğuna ulaşmıştır. Balli ve Kutlu [10], pencere boyutunun anormal solunum seslerinin sınıflandırılmasını nasıl etkileyebileceğini araştırmayı amaçlamıştır. Bu çalışmada kullanılan veri kümesi 92 anormal ve 35 normal sesten oluşmaktadır. Akciğer sesleri 44100Hz frekansında 20 saniye boyunca kaydedilmiştir. Akciğer seslerinden Mel-Frekans Cepstrum Katsayılarını çeşitli pencere boyutu değerlerinde çıkarmışlardır. Bu çalışmada sınıflandırıcı olarak makine öğrenimi algoritması KNN kullanılmıştır. Deneysel sonuçlar KNN'nin, sesler 5 saniyelik bir pencere boyutuna sahip olduğunda %93,21'lik en iyi sınıflandırma doğruluğuna ulaştığını göstermiştir. Bu çalışmada yazarlar, pencere boyutunun solunum seslerindeki anormalliklerin tespitinde sahip olduğu önemli rolü vurgulamışlardır. Pencere boyutu 2 ila 10 saniye arasında olduğunda veri kümesinin daha anlamlı hale geldiği sonucuna varmışlardır. Li ve Hong [7] çatırtıların tespiti için otomatik bir yöntem sunmuşlardır. Çalışmalarında kullandıkları akciğer sesi veri kümesi 70 çatırtı ve 70 normal sesten oluşmaktadır. Seslerin çoğunluğu 5 saniyelik bir periyoda ve 4000Hz veya 4800Hz'lik bir frekans değerine sahiptir. Önerdikleri yöntemin üç ana adımı vardır. İlk olarak, akciğer seslerinin frekanslarını 150Hz ile 1800Hz arasında olacak şekilde azaltmak için bir filtreleme yöntemi kullanılır. İkinci olarak, filtrelenen seslerden üç özellik çıkarılır. Bu özellikler frekans limbik sinyalinin fmin/fmax değeri, zaman limbik sinyalinin standart sapması ve yumuşatma zaman limbik sinyalidir. Üçüncü olarak, sınıflandırma görevi denetimli bir öğrenme yöntemi olan Destek Vektör Makinesi (SVM) kullanılarak gerçekleştirilir. Deneyler, DVM yönteminin akciğer seslerini %97,14 ile %100 arasında değişen bir sınıflandırma doğruluğu değeriyle sınıflandırabildiğini göstermiştir. Aras ve Gangal [11] tek kanallı akciğer seslerinin sınıflandırılması için otomatik bir tanıma yöntemi önermişlerdir. Tek kanallı çıkışı olan bir elektronik stetoskop kullanılarak kaydedilen bir veri kümesi kullanmışlardır. Akciğer sesleri, Karadeniz Teknik Üniversitesi hastanesinde muayene edilen çeşitli deneklerden toplanmıştır. Toplanan dosyalar 70 çatırtı, 70 ronküs ve 70 normal ses olmak üzere toplam 210 akciğer sesinden oluşmaktadır. Bu ses kayıt işlemi iki doktor tarafından gerçekleştirilmiştir. Özellik çıkarma aşamasında, akciğer seslerinden MFCC özelliklerini çıkarmışlardır. Daha sonra bu MFCC'lerden çeşitli temsiller türettiler ve sınıflandırıcılara girdi olarak kullanılabilmeleri için en iyi özelliği veya en iyi özellik kombinasyonunu bulmak amacıyla Sıralı İleri Seçim (SQS) adı verilen bir özellik seçim yöntemi kullandılar. Tek kanallı akciğer seslerini sınıflandırmak için farklı makine öğrenimi algoritmaları kullanılmıştır. KNN, algoritmaya belirli özelliklerin bir kombinasyonu sağlandığında en yüksek sınıflandırma doğruluğunu elde eden algoritma olmuştur. Shuvo ve arkadaşları [15] akciğer seslerinden solunum koşullarının tespiti için hafif bir konvolüsyonel sinir ağı modeli önermiştir. Bu makalede kullanılan veri kümesi, ICBHI bilimsel yarışması için sağlanan halka açık bir akciğer veri kümesidir. Bu veri kümesi, toplam 5,5 saatlik ses dosyasına sahip 920 ses örneği içermektedir. Sesler 10'lar ile 90'lar arasında değişen farklı uzunluklara sahiptir. Veriler 126 hastadan toplanmıştır. Ön işleme aşamasında, yazarlar ses dosyalarını 22050Hz'lik benzersiz bir frekans değerine yeniden örneklemişlerdir. Ardından akciğer seslerini solunum döngülerine göre segmentlere ayırdılar. Bölütlenmiş verilerden CWT veya hibrit bir EMD-CWT yaklaşımı kullanılarak iki tür skalogram oluşturulmuştur. Önerilen hafif CNN modeli arasında, sınıflandırma görevini tamamlamak için iyi bilinen VGG16 da kullanılmıştır. Hibrit skalogramın daha önemli bir özellik olduğu kanıtlanmıştır çünkü en yüksek sınıflandırma doğruluğu olan %99,05 değeri, hibrit skalogram girdi olarak kullanıldığında yazarların önerdiği CNN modeli tarafından elde edilmiştir. Don [18] akciğer seslerinin sınıflandırılmasında özellik seçim yöntemlerinin önemini araştırmıştır. Çevrimiçi ve çevrimdışı olmak üzere farklı kaynaklardan veri toplamıştır. Son olarak, çalışma için 85 ses dosyası dikkate alınmıştır. Akciğer ses dosyalarından 15 farklı özellik çıkarmış ve sınıflandırıcılar için uygun özellikleri belirleyebilmeleri için iki özellik seçim yöntemi kullanmıştır. Seçilen özellikler daha sonra akciğer sesi sınıflandırma amacını gerçekleştirmek için üç makine öğrenimi algoritmasına beslenmiştir. Kesinlik, duyarlılık ve f-ölçümü yöntemleri, algoritmaların performansını değerlendirmek için kullanılan değerlendirme ölçütleridir. KNN, hassasiyet ve f-ölçümü açısından %94,1'lik bir değerle en iyi skorları elde etmiştir. Öte yandan hem Destek Vektör Makinesi hem de NB algoritmaları %100 geri çağırma değeri elde etmiştir. Yazar, özellik seçim yöntemlerinin etkisine daha fazla dikkat etmiş ve kullandığı 2 özellik seçim yönteminden RSFS'nin (Rastgele Alt Küme Özellik Seçimi) sınıflandırıcılar için SFS'den (Sıralı İleri Seçim) daha önemli özellikler seçtiği sonucuna varmıştır. Gairola ve arkadaşları [17], ICBHI genel akciğer sesi veri kümesinin sınıflandırılması için RespireNet adı verilen CNN tabanlı bir model geliştirmiştir. Akciğer ses dosyalarına veri artırma yaklaşımlarını uyguladıktan sonra, her bir akciğer sesinden Mel-spektrogram özelliklerini çıkarmışlardır. Ardından, her bir Mel-spektrogramdan boş alanı (bilgi aktarmayan) ve akciğer sesi hakkında bilgi içeren alanı ayıracak siyah bölge kırpma adı verilen bir yöntem kullandılar. Mel-spektrogramın ilgili bilgiye sahip bölümü CNN modeline girdi olarak kullanılacaktır. Önerilen modelin performansı, 4 sınıflı sınıflandırma problemleri için en son teknoloji sonuçlarından daha iyi performans göstermiştir. Rocha ve arkadaşları [16] hırıltı seslerini otomatik olarak sınıflandırmak için farklı makine öğrenme algoritmaları ve bir derin öğrenme yöntemi önermiştir. Temel amaçları, hırıltı sınıflandırmasında olay süresinin etkisini araştırmaktı. Respiratory Sound DataBase (RSD) adlı bir veri kümesi kullanmışlardır. Bu veri kümesi, toplam 5,5 saat süren 920 ses dosyası içermektedir. RSD'nin sesleri 126 hastadan toplanmıştır. Ses kayıtları farklı frekanslarda kaydedildiğinden, yazarlar ses dosyalarını veri tabanındaki en düşük frekans değerine (4000Hz) yeniden örneklemişlerdir. Her ses kaydından bir spektrogramı üretmek için STFT kullanmışlardır. Sınıflandırma görevi için doğrusal diskriminant analizi (LDA), güçlendirilmiş ağaçlar (Boost) gibi makine öğrenimi yöntemleri ve özellikle CNN modeli olmak üzere bir derin öğrenme modeli kullanılmıştır. Üretilen spektrogramlar doğrudan CNN modeli için girdi olarak kullanılır. Geleneksel ML yöntemleri girdileri için, her bir spektrogramdan kare başına 47 özellik türetmek için bir MIR Araç Kutusu kullanmışlardır. Sınıflandırıcıların performanslarını değerlendirmek için doğruluk, hassasiyet, duyarlılık ve özgüllük gibi çeşitli değerlendirme ölçütleri kullanılmıştır. Deneysel sonuçlar, parametreleri değiştirmeden elde edilen en iyi sonuçların %98 olduğunu ve bu sırayla %95 duyarlılık ve özgüllük değerlerinin CNN modeli tarafından elde edildiğini göstermiştir. Olay süresi parametresini değiştirdiklerinde, en iyi sınıflandırıcı (Boost) duyarlılık ve özgüllük için sırasıyla yalnızca %55 ve %76 değerlerini kaydetmiştir. Petmezas ve arkadaşları [28], ICBHI veri kümesindeki akciğer seslerinin sınıflandırılmasını otomatikleştirmek için bir Odak Kaybı (FL) işlevi kullanan hibrit bir derin öğrenme modeli tanıtmıştır. Bu veri kümesi, 2 farklı ülkeden uzmanlar tarafından manuel olarak notlandırırmış açık erişimli bir veri tabanıdır. Akciğer seslerinin farklı frekans değerleri nedeniyle, yazarlar ses dosyalarını 4000Hz'lik benzersiz bir örnekleme hızı değerine yeniden örneklemeye karar verdiler. Ayrıca sesler için 2,7 saniyelik sabit bir uzunluk seçtiler. Özellik çıkarma sürecinde, spektrogram olarak bilinen bir sinyalin zaman-frekans temsilini sağlayan Kısa Zamanlı Fourier Dönüşümü (STFT) algoritması kullanıldı. Çıkarılan spektrogramlar, hibrit model için girdi olarak kullanılacak görüntüler olarak kaydedilmiştir. Önerilen hibrit ağ, bir 2D CNN ve ardından bir LSTM ve FL fonksiyonundan oluşmaktadır. Spektrogram görüntüleri CNN bloğuna beslenir, böylece sınıflandırma görevinin yapıldığı LSTM bloğuna itilecek derin özellikler çıkarabilir. ICHBI dengesiz bir veri tabanı olarak bilinmektedir. Bu nedenle yazarlar, bu dengesiz sorunu ele almak ve derin öğrenme modelinin etkinliğini değerlendirmek için bir FL işlevi uygulamıştır. Farklı deneyler gerçekleştirilmiş, elde edilen sonuçlar CNN, LSTM ve FL fonksiyonundan oluşan bu kombinasyonun kayda değer sonuçlar elde edebildiğini göstermiştir. Yazarlara göre bu, bu metodolojiyi (Hibrit CNN-LSTM Ağı ve Odak Kaybı Fonksiyonu) öneren ilk araştırmadır. Demir ve arkadaşları [19] akciğer seslerini otomatik olarak sınıflandırmak için konvolüsyonel sinir ağı tabanlı bir model önermişlerdir. ICBHI veri kümesinde bulunan akciğer ses dosyalarını kullanmışlardır. Frekans üzerinde zamanın 2 boyutlu bir temsili olan spektrogramlar, Kısa Zamanlı Fourier Dönüşümü (STFT) yöntemi kullanılarak ses kayıtlarından çıkarılmıştır. Spektrogramlar görüntü olarak kaydedilir. Ancak bunları derin öğrenme modellerine beslemeden önce, görüntüler derin öğrenme modellerine uygun olabilmeleri için 224×224 boyutuna yeniden boyutlandırılır. VGG16, AlexNet ve ResNet-50, derin özellikleri çıkarmak için yeniden boyutlandırılmış spektrogramlar üzerinde eğitilir. Daha sonra SVM ve SoftMax sırasıyla çıkarılan derin özelliklere ve transfer öğrenmeye dayalı akciğer sesleri sınıflandırmasını gerçekleştirmek için kullanılır. Hesaplama sonuçları, SVM'nin %65,50'lik bir sınıflandırma doğruluğu elde ederek daha iyi performans gösterdiğini ortaya koymuştur. Datta ve arkadaşları [20] akciğer rahatsızlıklarının tespiti için otomatik bir araç sunmuşlardır. Farklı kaynaklardan 52 akciğer sesi ses kaydı toplamışlardır. Dolayısıyla ses dosyaları farklı frekanslara sahiptir. Bu nedenle ön işleme aşamasında, yazarlar ilk olarak akciğer seslerini 4KHz'lik benzersiz bir frekans değerine indirgemişlerdir. Ardından akciğer sesleriyle birlikte gelen istenmeyen sesleri gidermek için Ampirik Mod Ayrıştırma (EMD) yöntemini kullanmışlardır. Özellik çıkarma aşamasında, önceden işlenmiş akciğer seslerinden spektral özellikler, spektrogram özellikleri, dalgacık özellikleri ve cepstral özellikler çıkarılmıştır. Alakasız özelliklerden kaçınmak için bir özellik seçim yöntemi olan Maksimal Bilgi Katsayısı (MIC) kullanılır. MIC yöntemi, özelliklerin önem sırasına göre düzenlenmesini sağlayan bir puan sağlar. Doğrusal bir Destek Vektör Makinesi (DVM), seçilen özelliklere dayalı olarak akciğer sesinin sınıflandırılması için kullanılan algoritmadır. Doğruluk, duyarlılık ve özgüllük gibi sınıflandırma ölçütleri modelin performansını değerlendirmek için kullanılmaktadır. Deneysel sonuçlar, önerilen yöntemin %80'lik bir sınıflandırma doğruluğu kaydettiğini göstermiştir. Bozkurt ve arkadaşları [24], girdi özelliklerini analiz etmek amacıyla kalp seslerini patolojik durumlarla otomatik olarak sınıflandıran bir derin öğrenme modeli geliştirmiştir. Yazarlara göre MFCC ve Mel-spektrogramı son teknolojide en çok kullanılan özelliklerdir. Bu çalışmada, yazarlar MFCC, Mel-spektrogram ve alt bant zarfları olmak üzere üç farklı özellik çıkarmışlardır. Alt bant zarfları da bir sinyalin zaman-frekans gösterimidir, ancak çoğunlukla alan bilgisinden etkilenirler. Kalp sinyallerinin sınıflandırılması için bir konvolüsyonel sinir ağı modeli geliştirilmiştir. Çıkarılan özellikler CNN modelini ayrı ayrı eğitmek için kullanılır, böylece yazarlar hangi özellik türünün sınıflandırıcıya daha yararlı bilgiler sağladığını bulabilir. Modelin performansını değerlendirmek için ROC eğrisi kullanılmıştır. Birkaç hesaplama deneyinden sonra yazarlar, alt bant zarf özelliklerinin CNN modeline daha önemli özellikler sağladığı sonucuna varabilmişlerdir. Naves ve arkadaşları [22] akciğer seslerinin sınıflandırılması için bir böl ve yönet tekniği önermişlerdir. Bu makalede ele alınan veri kümesi, farklı sınıflardan toplam 35 ses dosyasıdır. Akciğer sesleri 8KHz'lik tek bir frekans değerinde kaydedilmiştir. Yazarlar, ses dosyalarını örtüşmeyen segmentlere ayırarak ön işleme tabi tutmuşlardır. Yüksek Dereceli İstatistik (HOS), ses kayıtlarından giriş özelliklerini çıkarmak için kullanılan yöntemdir. Bu özellik çıkarma yöntemi toplam 800 özellik ile sonuçlanmıştır. Fazlalıktan ve önemli olmayan özelliklerden kaçınmak için yazarlar Genetik Algoritma (GA) kullanmışlardır. GA tarafından seçilen özelliklere dayalı olarak akciğer sesi sınıflandırma görevini gerçekleştirmek için iki makine öğrenimi algoritması, KNN ve NB çağrılmıştır. Hesaplama sonuçlarından sonra, bir sınıflandırma ağacının daha iyi sınıflandırıcı olduğu kanıtlanmıştır. İlk olarak, ağaç sınıflandırıcı aşağıdaki sınıfları sınıflandırmak için KNN kullanarak başlar veziküller, hırıltılar ve çatırtılar. Daha sonra NB hem hırıltı hem de çatırtı alt sınıflarını sınıflandırmak için kullanılır. Kaydedilen sınıflandırma doğruluğu değerleri eğitim ve doğrulamada sırasıyla %98,1 ve 94,64'tür. Nguyen ve Pernkopf [4] akciğer seslerindeki çatırtıların tespiti için bir derin öğrenme modeli sunmuştur. Önerilen model transfer öğrenme tabanlı bir modeldir. Bu çalışmada iki farklı veri kümesi kullanılmıştır. İlk veri kümesi iyi bilinen ICBHI veri kümesidir ve sadece CNN modelini eğitmek için kaynak veri kümesi olarak kullanılmıştır. Bu eğitim sırasında CNN modeli tarafından öğrenilen bilgi, hedef veri kümesi olarak adlandırılan ikinci veri kümesinde akciğer sesleri sınıflandırma görevi gerçekleştirilirken kullanılır. İki veri kümesinin akciğer sesleri farklı örnekleme hızlarıyla toplanmıştır. Bu nedenle yazarlar tüm ses dosyalarını 16KHz'e yeniden örneklemiştir. Daha sonra yazarlar, seslerin solunum fazlarının ayrılması için sabit bir uzunluk da seçmişlerdir. Bu sabit uzunluk, CNN modellerinin girdilerinden benzersiz bir şekil gerektirmesi nedeniyle kolaylık sağlamaktadır. Spektrogramlar, akciğer seslerinden çıkarılan özellik gösterimleridir. Eğitim sürecinde aşırı uyumdan kaçınmak amacıyla farklı ses verisi artırma yöntemleri kullanılmıştır. Hesaplamalı deneylerde, yazarlar CNN modelini önce ICBHI verileri üzerinde eğitmişlerdir. Daha sonra CNN modelini, çok kanallı hedef veri kümesindeki akciğer seslerinin sınıflandırılması için önceden eğitilmiş bir model olarak kullandılar. Yazarlar, önerilen yöntemin oldukça iyi sonuçlar verdiği sonucuna ulaşmıştır. Fairwan ve arkadaşları [23] akciğer seslerinden akciğer rahatsızlıklarının tanınması için CNN+BDLSTM tabanlı bir derin öğrenme modeli sunmuştur. Veri hazırlama adımında iki farklı kaynak kullanılmıştır. İlk kaynak Ürdün'deki bir devlet üniversitesinde kaydedilen bir dizi akciğer sesidir. İkinci kaynak ise Uluslararası Sağlık ve Biyomedikal Bilişim Konferansı (ICBHI) adlı popüler halka açık akciğer sesi veri kümesidir. Bu ikinci veri kümesinin tamamı kullanılmamış, sadece 110 ses kaydı dikkate alınmıştır. Akciğer seslerinin farklı frekans değerleri nedeniyle, tüm akciğer ses dosyaları için 4KHz'lik sabit bir frekans seçilmiştir. Daha sonra her bir akciğer sesi 5 saniyelik segmentlere bölünerek toplam 1182 segment elde edilmiştir. Gürültüleri gidermek için akciğer sesleri filtrelenmiştir. Ön işleme adımlarında üç işlem gerçekleştirilmiştir. Bunlar dalgacık yumuşatma, yer değiştirme artefaktı giderme ve z-skorlarının normalleştirilmesidir. Bir konvolüsyonel sinir ağı (CNN) ve çift yönlü uzun-kısa süreli bellek (BDLSTM) kombinasyonu, segmente edilmiş-ön işlemden geçirilmiş akciğer seslerinden önemli uzamsal boyutluluk ve zaman alanı özelliklerini çıkarmak için kullanılmıştır. Ağ, karışıklık matrisi ve F1-skoru gibi çeşitli sınıflandırma ölçütleriyle değerlendirilmiştir. Model %99,62'lik bir genel sınıflandırma doğruluğu değeri elde edebilmiştir. Materyaller ve Yöntemler Bu bölümde, tezde kullanılan veri kümesi hakkında genel bilgi verilmiş ve önerilen metodolojinin farklı aşamaları ayrıntılı olarak açıklanmıştır. a) Solunum Sesi Veri Kümesi Bu tez çalışmasında kullanılan veri kümesi, Güler ve arkadaşları tarafından [6]'da kullanılan veri kümesinin güncellenmiş bir versiyonudur. Onların 2020 yılında yaptıkları araştırmada, akciğer sesleri Türkiye'de bir devlet hastanesinde 60 hastadan toplanmıştır. Her ses kaydı, bir hastanın göğsünün belirli bölgelerinden elektronik stetoskop kullanılarak 16KHz frekansında 15 saniye boyunca kaydedilmiştir. Aynı veri hazırlama prosedürleri yeni 117 ek akciğer ses dosyasına da uygulanmıştır. Böylece, elimizdeki son veri kümesi 177 ses dosyasından oluşmakta ve 3 sınıfa (Normal 59, Patolojik Rhal 59 ve Patolojik Ronküs 59) ayrılmaktadır. b) Yöntem Bu bölümde, önerdiğimiz teşhis metodoloji açıklanmıştır. Akciğer sesi sınıflandırma problemimizi çözmek için izlenen farklı aşamalar Şekil 5.1'de gösterilmiştir. İlk olarak, veri toplama aşamasında, akciğer sesleri Hacettepe Üniversitesi Tıp Fakültesi Fizyoloji Anabilim Dalı gözetiminde Türkiye'de bir devlet hastanesinde farklı hastalardan elektronik stetoskop kullanılarak kaydedilmiştir. İkinci olarak veri artırma aşamasında, sınıflandırıcı olarak derin öğrenme tekniklerini kullandığımız için modellere girmeyi planladığımız eğitim verisi miktarına dikkat etmemiz gerekmektedir. Bunun nedeni, derin öğrenme modellerinin yüksek eğitim verisi tüketicileri olması ve yüksek başarılar elde etmek için çok sayıda eğitim örneği gerektirmesidir. Elimizdeki akciğer sesi veri kümesinin küçük boyutunu dikkate alarak, daha fazla eğitim örneği oluşturmak için veri artırma yöntemlerini kullandık. Bu aşamada iki ses verisi artırma yöntemi, zaman esnetme ve perde kaydırma, kullanılmıştır. Bir sese zaman esnetme yöntemi uygulandığında, bunu yavaşlatmak veya hızlandırmak anlamına gelmektedir. Perde kaydırma ise bir ses girdisinin perdesini değiştirmektir [46]. Üçüncü aşamada, Mel Frekans Cepstral Katsayıları (MFCC'ler) özellikleri çıkarılmış ve modeller için girdi olarak kullanılmıştır. Ses işleme alanında, Mel Frekansı Cepstrumu (MFC) bir ses sinyalinin kısa vadeli güç spektrumunu temsil eder. Logaritmik bir güç spektrumunun doğrusal olmayan bir Mel frekans ölçeğinde lineer bir kosinüs dönüşümüne dayanmaktadır, dolayısıyla Mel-frekans cepstral katsayıları bir MFC'yi oluşturan katsayılardır [53]. Bizim durumumuzda, modellerin girdilerini oluşturmak için her sesten 32 katsayı çıkarılmıştır. MFCC özellikleri, konuşma tanıma [53, 54] ve çevresel ses sınıflandırması [55, 56] dahil olmak üzere ses uygulamalarında en yaygın kullanılan özelliklerden biridir. Tiwari araştırmasında MFCC'ler için 32 katsayının verimli olabileceğini kanıtlamıştır [57]. Bir akciğer sesinin özelliklerini çıkarmadan önce, her ses dosyası 5 bölüme ayrılmış ve her bölümün MFCC'leri çıkarılmıştır. Her segmentteki çıkarılan MFCC'ler ve bunlara karşılık gelen etiketler, modelleri eğitmek için kullanılacak son veri kümesini oluşturan bir JSON dosyasında saklanır. MFCC özellikleri daha sonra akciğer seslerinden türetilir ve ardından sınıflandırma görevini yerine getirmek ve hastanın akciğerlerinin sağlıklı (Normal) veya sağlıksız (PatolojikRhal veya PatolojikRonküs) olup olmadığını belirlemek için derin öğrenme modelleri için girdi olarak kullanılır. Dördüncü aşamada, sağlanan girdiden (MFCC'ler) öğrenmek için popüler derin öğrenme mimarilerini kullandık. Bu CNN yapıları arasında VGG16, MobileNet, ResNet ve Xception yer almaktadır. Bu mimarilerin halihazırda sahip oldukları bilgiden yararlanmak için bu seçeneği tercih ettik çünkü bu mimariler uzun süre boyunca büyük ve yeterli miktarda veriyle eğitilmişlerdir. Bu yöntem transfer öğrenme olarak bilinir, modeli sıfırdan yeniden eğitmek yerine, önceki eğitimi sırasında edindiği bilgilerle kolayca kullanılabilir [58]. Bu transfer öğrenme seçeneğini tercih etmemizin ikinci nedeni de elimizdeki veri kümesinin miktarından kaynaklanmaktadır. Önceden eğitilmiş derin öğrenme modellerini MFCC'lerden ayrı olarak eğittikten sonra, sınıflandırma görevini tamamlamak için bir SoftMax aktivasyon fonksiyonu ile birlikte tam bağlı bir katman kullanılır. SoftMax kullandık çünkü bizim problemimiz, yani çok sınıflı bir sınıflandırma problemi için uygun aktivasyon fonksiyonudur. Daha sonra modellerimizin performansını değerlendirmek için doğruluk, kesinlik ve karışıklık matrisi gibi değerlendirme metrikleri kullanılmıştır. Deneyler Çalışma ve Sonuçlar Önerilen yöntemin deneysel incelemesi ve deney sonuçları bu bölümde sunulmuştur. Dört farklı modelin sonuçları sunulmuş ve karşılaştırılmıştır. Deneysel çalışma sırasında veri kümesi rastgele bir şekilde %80 eğitim kümesi ve %20 test kümesi olmak üzere ikiye ayrılmış, ardından eğitim kümesinin %20'si doğrulama kümesi olarak kullanılmıştır. a) Veri artırma teknikleri kullanılmadan elde edilen sonuçlar Bu bölümde, veri artırma yöntemleri kullanılmadığında elde edilen sonuçları verdik. Akciğer seslerinden MFCC özelliklerini çıkardık ve bunları sınıflandırma aşaması için modellere ilettik. Tablo 5.1, veri artırma teknikleri kullanılmadan modellerin performans sonuçlarını göstermektedir. Eğitim örneklerinin sayısının ne kadar az olduğu göz önüne alındığında, modellerin tatmin edici sonuçlar elde ettiği sonucuna varabiliriz. Bu koşullar altında, ResNet modeli %81'lik bir sınıflandırma doğruluğu değeri kaydederek, MobileNet yakın sonuçlar elde etmesine rağmen diğer yöntemleri geride bırakmıştır. VGG ve Xception modellerinin her ikisi de tüm farklı metriklerde %77 değerine ulaşmıştır. Kesinlik açısından MobileNet ve ResNet %81 ile aynı sonucu paylaşmaktadır. b) Veri artırma teknikleri kullanıldığında elde edilen sonuçlar Veri artırma yöntemlerinin, örnek sayısını artırarak modellerin yüksek doğruluklara ulaşmasına yardımcı olmada etkili olduğu görülmektedir. Özellikle de daha iyi sonuçlar elde etmek için tonlarca veriye ihtiyaç duyan derin öğrenme modelleri söz konusu olduğunda. Salamon ve Bello [26] tarafından yürütülen ve veri artırma tekniklerinin kullanılmasının derin öğrenme modellerinin performansını büyük ölçüde artırdığını öne süren bir çalışmadan esinlenerek, deneylerimizde farklı veri artırma araçları kullandık. Veri artırma yöntemlerini uygulamak için, zaman genişletme ve perde kaydırma olmak üzere iki tür ses deformasyon tekniği kullandık. Zaman genişletme yönteminde, akciğer seslerini yavaşlatmak için 0.81 değeri kullanılırken, hızlandırmak için 1.07 değeri kullanılmıştır. Perde üzerinde değişiklik yapıldığında ise bu değerler {-3.5, -2.5, -2, -1.5. -1, 1, 1.5, 2, 2.5, 3.5}, perde kaydırma deformasyonunu tamamlamak için kullanılır. Salamon ve Bello çalışmalarında, ses dosyalarının perde kaydırmasını gerçekleştirmek için {-2, -1, 1, 2} olmak üzere 4 değerle başladıkları perde kaydırma yönteminin etkinliğinin altını çizmişlerdir. Daha sonra, bu yöntemin ne kadar faydalı olduğunu fark ettikten sonra, 4 değer daha eklediler {-3.5, -2.5, 2.5, 3.5}. Bizim durumumuzda, [26]'da kullanılan katsayıları {-1.5, 1.5} olmak üzere iki değer daha ekleyerek benimsedik. Veri artırma teknikleri kullanıldıktan sonra elde edilen sonuçlar ilerleyen alt bölümde sunulmuştur. VGG modelinin sonuçları Tablo 5.2, kesinlik metriği aracılığıyla Ral ve Ronküs sınıfları için 0,98 puan kaydedildiğini, Normal sınıfı için ise 0,97 puan rapor edildiğini göstermektedir. Geri çağırma metriğinde ise skorlar Normal sınıfı için 0,98 ve Ronküs sınıfı için 0,97'den başlayıp Ral sınıfı için 0,96'da sona ermektedir. 0.97, F1-skor metriği ile hem Normal hem de Ral sınıfları için kaydedilen değer iken, Ronküs sınıfı için 0.98 rapor edilmiştir. Tüm sınıflarda VGG'nin genel doğruluk oranı %97'dir. VGG modelinin eğitim sürecindeki performansı Şekil 5.8'de gösterilmektedir. Diğer grafiklerle karşılaştırıldığında, VGG'nin eğitim doğruluğu grafiği en istikrarlı grafiklerden biridir. Eğitim epoklarının sonuna kadar düz bir çizgi görülürken, 100. epoktan önce bazı küçük değişimler meydana gelmektedir. Aynı yörünge, doğrulama doğruluğu eğrisinde ve eğitim kaybı eğrisinde de göze çarpmaktadır. Doğrulama kaybı eğrisinde de 100. epoktan önce düz bir çizgi görülebilir. Ancak eğitim epoklarının sonunda yükseldiği görülmektedir. Modelin eğitim süreci boyunca sağlanan verilerden etkili bir şekilde öğrendiği görülmektedir. MobileNet modelinin sonuçları Tablo 5.3'te gösterildiği gibi, Ral sesleri için MobileNet 0,96'lık bir duyarlılık değerine ve 0,97'lik bir F1-Skoruna sahiptir. Normal sesler için ise 0,97 hassasiyet değerine sahiptir. Kesinlik, duyarlılık ve F1-skorunun diğer sonuçları tüm sınıflar için ortalama 0,98 puana ulaşmıştır. Doğruluk söz konusu olduğunda, MobileNet her üç sınıf için de ortalama %98 doğruluk elde etmiştir. Şekil 5.9, MobileNet'in 1000 epok boyunca eğitildikten sonra deney sırasında nasıl performans gösterdiğini göstermektedir. Eğitim süresi boyunca eğitim doğruluğu grafiğinde bazı küçük değişiklikler vardır. Ancak genel olarak aynı seviyededir. Aynı eğilimler, bazı küçük değişikliklerle eğitim kaybı grafiğinde de görülür. Doğrulama hatası grafiğiyle karşılaştırıldığında, doğrulama doğruluğu eğrisi eğitim epoklarının başından sonuna kadar tutarsız değişikliklere sahiptir. Eğitim aşamasının neredeyse her aşamasında büyük değer değişiklikleri göze çarpmaktadır. Xception modelinin sonuçları Tablo 5.4, Xception modelinin en yüksek kesinlik skorunu 0,99 ile Ral sınıfı için elde ettiğini göstermektedir. Buna karşılık, en düşük kesinlik puanı 0,96 ile Normal sınıfı için elde edilmiştir. Duyarlılık metriğinin sonuçları, Normal ve Ral sınıflarında sırasıyla 0,99 ve 0,96 ile kesinlik sonuçlarına kısmen simetriktir. Ronküs sınıfı için hassasiyet, geri çağırma ve F1-skoru metriklerinin her birinde kaydedilen puan 0,98 iken Normal ve Ral sınıfları sırasıyla 0,97 ve 0,98 F1-Skoruna ulaşmıştır. Doğruluk açısından, Xcetpion'un tüm sınıflar için genel doğruluğu %98 olarak raporlanmıştır. Şekil 5. 10'da gösterildiği gibi, Xception modelinin eğitim süreci 500 epok boyunca sürmüştür. Eğitim doğruluğu grafiği tüm iterasyonlar boyunca neredeyse sabittir. Ancak epok sayısı arttıkça bazı küçük değişiklikler gözlemlenebilir. Modelin kendisine beslenen girdi verileriyle oldukça etkili bir şekilde öğrendiği sonucuna varabiliriz. Xception modelinin doğrulama eğrisi özellikle başlangıçta ve bazı durumlarda ortada bazı tutarsızlıklar göstermektedir. Ancak bu düzensizliğin iterasyonların sonunda azaldığı görülmektedir. Eğitim hatası grafiği yüksek değerlerle başlarken, daha sonra bazı minimal değişimler gözlemlense de sıfıra yakın bir değere düşmüştür. Doğrulama kaybı grafiği, eğitim aşamasının ortasında aralıklı değer değişiklikleri görüldüğü için net bir düzensizlik göstermektedir. ResNet modelinin sonuçları Bu modelin sonuçları Tablo 5.5'te açıklanmıştır. Üç metrik (hassasiyet, duyarlılık ve F1-skoru) için kaydedilen en yüksek değerlerin Ronküs ve Normal sınıflarına ait olduğunu göstermektedir. Hem kesinlik hem de duyarlılık için 0.98 ortalama puan kaydedilirken, F1-skoru için 0.97 rapor edilmiştir. En düşük hassasiyet puanı 0,95 ile Normal sınıfı için elde edilmiştir. ResNet modelinin genel doğruluğu %97'dir. Şekil 5.11, ResNet modelinin deney sırasında nasıl performans gösterdiğini yansıtmaktadır. Eğitim doğruluğu grafiği bazı küçük düzensizlikler göstermektedir. Ancak eğitim aşaması boyunca neredeyse aynı seviyede kalmaktadır. Bu özellik eğitim hatası grafiğiyle aynı kalmaktadır, ancak loss grafiğinde, düzensizlikler eğitim doğruluğunda büyük ölçüde kaybolma eğilimindedir. Diğer taraftan, doğrulama doğruluğu ve hata grafikleri tüm eğitim süreci boyunca büyük değişimler yaşamıştır. Tartışmalar Doktorların akciğerleri incelemek için kullandıkları en yaygın tekniklerden biri, klinik muayenelerin rutin bir parçası haline gelen oskültasyondur. Bu yöntemin öznel doğası ve akciğer seslerinin durağan olmayan yapısı nedeniyle analiz, tanıma ve ayırt etme görevleri karmaşıktır. Sonuç olarak, bu süreci otomatikleştirmek ve bu sınırlamaların üstesinden gelen otomatik tanıma sistemleri (ARS) geliştirmek için makine öğrenimi ve yapay zekadan yararlanmaya yönelik bir ilgi vardır [1]. Bu tezde, önceden eğitilmiş farklı modeller, Türkiye'de bir devlet hastanesinde farklı hastalardan toplanan 177 ses dosyasından oluşan bir akciğer sesi veri kümesi üzerinde değerlendirilmiştir. Bu veri kümesi normal, ronküs ve rhal olmak üzere üç farklı sınıftan oluşmaktadır. Veri kümesinin küçük boyutlu olması nedeniyle, orijinal veri kümesinden daha fazla örnek üretmek amacıyla bazı veri artırma teknikleri uygulanmıştır. Bunlar ya akciğer sesinin hızını değiştirerek ya da farklı parametreler kullanarak perdesini değiştirerek yapıldı. Bu veri artırma yöntemleri, model performansını optimize etmede etkili olabileceklerini kanıtlamıştır. Bundan sonra, Librosa kütüphanesi kullanılarak MFCC özelliklerinin çıkarıldığı özellik çıkarma aşaması gelmektedir. Çıkarılan özellikler daha sonra önceden eğitilmiş modeller için girdi olarak kullanılmıştır. Önceden eğitilmiş modeller, eğitim süresinden tasarruf etmek ve büyük veri kümeleri üzerinde önceden eğitilmiş ağırlıkları sayesinde sınıflandırma görevlerinde verimli oldukları bilindiği için sınıflandırıcı olarak seçilmiştir. Önceden eğitilmiş modeller, farklı epoklar için bu akciğer sesi veri kümesi üzerinde ayrıca eğitilmiştir. Xception ve MobileNet modelleri, diğer algoritmalar arasında %98 ile en yüksek sınıflandırma doğruluğuna ulaşmıştır. Bu iki algoritma sırasıyla 500 ve 1000 epok için eğitilmiştir. Eğitim doğruluğu grafikleri küçük farklılıklarla birbirine oldukça benzemektedir. Ardından %97 sınıflandırma doğruluğuna sahip VGG ve ResNet modelleri gelmektedir. Bu son algoritmalardan ResNet 400 epok için eğitilirken diğeri 500 epok için eğitilmiştir. ResNet grafiği, VGG modeline kıyasla çok fazla varyasyona sahiptir, özellikle de Şekil 5.11'de gösterildiği gibi doğrulama grafikleri (doğruluk ve kayıp). Derin öğrenme modelleri, tahminlerde bulunurken daha doğru olabilmek için büyük miktarda veriye ihtiyaç duyar. Bu nedenle ses verisi deformasyon yöntemleri uygulanmadan önce daha düşük performansları gözlemlenmiştir. Modeller veri artırma teknikleri kullanılmadan eğitildiğinde, VGG ve Xception modelleri en düşük sınıflandırma doğruluğuna sahip modeller olmuş ve her ikisi de ortalama %77 doğruluk elde etmiştir. Oysa bu ses büyütme yöntemleri kullanıldıktan sonra %97 ve %98 gibi daha yüksek sınıflandırma doğruluklarına ulaşabilmişlerdir. Tablo 6.1, derin öğrenme modellerinin farklı değerlendirme metriklerindeki performans sonuçlarını özetlemektedir. Bu sonuçlar, veri artırma tekniklerinin kullanılarak elde edilmiştir. Akciğer sesi veri kümesinin sınıflandırılmasında en başarılı sınıflandırıcılarımızın (MobileNet ve Xception) karışıklık matrisleri sırasıyla şekil 6.1 ve 6.2'de gösterilmiştir. Sonuç ve Değerlendirme Literatüre göre MFCC ses özellikleri, akciğer seslerinin sınıflandırılması için makine öğrenmesi yöntemleri ile birlikte girdi olarak kullanılmak üzere tercih edilmektedir. Bu durum [1, 2, 6]'da görülebilmektedir. Öte yandan, spektrum türleri, akciğer sesi veri kümelerini sınıflandırmak için [1, 14, 17]'de olduğu gibi derin öğrenme modellerini beslemek için en çok kullanılan özelliklerdir. Önceden eğitilmiş derin öğrenme modelleriyle birlikte girdi olarak MFCC'ler, bilgimize göre çok fazla araştırılmamıştır. Bu boşluğu araştırmak istememizin nedenlerinden biridir. Denemelerden sonra, bu yaklaşımın etkili ve önceki tablolarda gösterildiği gibi doğru olduğu gösterilmiştir. [1, 6, 17] veri artırma yöntemlerini kullanmıştır. [6] ve [17]'de veri artırma yöntemleri özellik çıkarma aşamasından önce uygulanırken, [1]'de spektrogram üzerinde, yani özellik çıkarma işleminden sonra kullanılmıştır. Bu çalışmada, çevrimdışı olarak (MFCC'leri çıkarmadan önce) iki farklı ses verisi artırma türü kullandık ve modellerin öğrenme performansına olumlu katkıda bulunmuştur. Önerilen yaklaşımımız %97 ve %98 doğruluk değerlerine ulaşarak daha iyi sonuçlar elde edilmiştir. Bu çalışmada kullanılan veri kümesi daha önce Güler ve arkadaşları tarafından [6]'da kullanılmış ve sınıflandırıcı olarak makine öğrenmesi yöntemleri kullanılmıştır. Naïve Bayes algoritması, 10 çapraz doğrulama doğruluğu altında en yüksek sınıflandırma doğruluğunu (%95) kaydetmiştir. Bu değer, VGG gibi önerilen önceden eğitilmiş modellerimiz tarafından elde edilen en düşük doğruluktan (%97) daha düşüktür. Abnormal solunum sesleri, normal solunum sesleriyle birlikte gelen istenmeyen seslerdir. Yedi farklı anormal ses sınıfı ayırt edilebilir: hırıltı, ronküs, stridor, squawk, kaba çıtırtı ve plevral sürtünme [3]. Ne yazık ki, bu araştırmada kullanılan veri kümesi sınırlı örneklere sahiptir ve yalnızca iki anormal sınıf (ronküs ve rhal) mevcuttur. Veri kümesi tüm anormal akciğer sesi türlerini içeriyorsa, sınıflandırıcılar belirli bir akciğer sesinin sınıfını belirlerken daha spesifik olabilir. Gelecekteki çalışmalar için, akciğer ses dosyalarından MFCC'ler veya Mel-spektrogramlar gibi ses özelliklerini çıkarmayı, bu özellikleri önceden eğitilmiş derin öğrenme modellerine beslemeyi ve ardından çıktılarını birleştirmeyi planlıyoruz. Bu kombinasyonun sonucu, sınıflandırma görevini tamamlamak, KNN veya SVM gibi geleneksel bir sınıflandırıcı için girdi olarak kullanılabilir. Özellikle, MobileNet gibi hafif ağırlıklı önceden eğitilmiş bir modelin kullanılması, mobil cihazlarla entegrasyonunu kolaylaştıracak ve böylece hastaların akciğer seslerinin sınıflandırılması için sağlık uzmanları tarafından kolayca kullanılabilecektir [59]. Bir başka alternatif araştırma da Librosa kullanarak Mel-spektrogramlarını çıkarmak, OpenL3 [60] kullanarak akciğer seslerinden gömülmeleri çıkarmak ve çıktılarını birleştirmek olabilir. Daha sonra bu kombinasyonun sonucunu, akciğer sesleri sınıflandırma problemine devam etmek için bir derin öğrenme modeline girdi olarak kullanılabilir.
Özet (Çeviri)
Lung disorders encompass some of the deadliest diseases worldwide. The health status of a lung could be discovered by examining the sounds that are generated when the air flows in the respiratory system. Classification of lung sounds has to be done accurately to avoid misdiagnosis and thus minimize lung-related deaths. A doctor traditionally uses a stethoscope to listen to a patient's lung sounds, then provides a diagnosis, in which the trustworthiness of the outcomes depends massively on the skills of the doctor who is in charge of this task. An Automatic Recognition System (ARS) can help health care professionals achieve an accurate and efficient lung sound classification. The objective of this research is to suggest using pre-trained deep learning-based models that automatically classify lung sounds found in a limited dataset collected from different patients at a public hospital in Turkey. The well-known MFCCs (Mel-Frequency Cepstrum Coefficients) audio characteristics are derived from the lung sounds and used as inputs to four different pre-trained models for lung sound classification. From the experiment, we noticed that the utilization of data augmentation techniques on lung sounds facilitated a better sound classification performance, and as a result, we reported an increase in the average accuracy from 81% to 98%.
Benzer Tezler
- Lung sound signal classification by using cosine similarity-basedmultilevel discrete wavelet transform decomposition with CNN-LSTM hybrid model
CNN-LSTM hıbrıt modelıyle kosınüs benzerlıgıne dayalı çok düzeylıayrık dalgacık dönüsümü ayrısımı kullanarak akcıger ses sınyalısınıflandırması
KHABAT HASAN ABDULLAH
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHarran ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET BİLAL ER
- Analysis and classification of respiratory sounds by signal coherence method
Solunum sesi sinyallerinin sinyal evreuyumu yöntemi ile incelenme ve sınıflandırılması
KAZIM SERHAT BAYDAR
Yüksek Lisans
İngilizce
2002
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYŞIN BAYTAN ERTÜZÜN
DOÇ. DR. YASEMİN KAHYA PALANDUZ
- Yeniden örnekleme ve makine öğrenimi teknikleri ile solunum seslerinin otomatik sınıflandırılması
Automatic classification of respiratory sounds with resampling and machine learning techniques
HÜSEYİN CİHAD GÜLER
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ
- Solunum seslerinin analizi ve sınıflandırılması
Analysis and classification of respiratory sounds
TANJU ENGİN
Yüksek Lisans
Türkçe
1991
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiY.DOÇ.DR. H. ÜMİT AYGÖLÜ
- Elektronik stetoskop ile insanlarda pnömatik solunum bozukluğunun tespiti ve analizi
Detection and analysis of pneumatic respiratory disorder in human by electronic stethoscope
SENA BİLİR
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. SADULLAH ÖZTÜRK