Geri Dön

Auditory detection of clips failures in manufacturing

Üretimde klips hatalarının ses tabanlı tespiti

  1. Tez No: 834363
  2. Yazar: SABRİ SÜER
  3. Danışmanlar: DOÇ. DR. GÖKHAN İNCE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 91

Özet

Bazı endüstriyel süreçlerde, sürecin başarılı bir şekilde gerçekleşip gerçekleşmediğinin kesin bir şekilde doğrulanması mümkün olmamaktadır. Bu tarz durumlarda insan bazlı hatalar kontrol edilememekte ve güvenlik sorunları ortaya çıkmaktadır. Bu işlemlerden birisi de araçlarda emniyet kemerinin takılı olup olmadığı bilgisini araç güvenlik sistemine aktaran soketlerin takılma işlemidir. Boyutça küçük olduklarından ve çalışanlar ellerini uzatarak taktıklarından, takılma durumlarını doğrulaması güçtür. Bu soketlerin doğru biçimde takılamaması ve arabanın montajının bitmesinden sonra gerçekleşen testlerde bunun tespit edilmesi, arabanın üretim bandının başına gönderilmesine, dolayısıyla zaman ve kaynak kaybına sebep olmaktadır. En kötü senaryoda ise arabanın testlerden geçip, sürücüyü uyaramaması ve kaza yapmasıdır. Bu tarz nadir gerçekleşen olayların tespiti yapay zekâ metotları ile gerçekleştirilebilir. Günümüzde evrişimli sinir ağları kullanılarak oluşturulan ve gözetimsiz eğitilen otokodlayıcılar anomali gibi nadir olayların tespitinde yaygın olarak kullanılmaktadır. Bunun sebebi nadir ses olaylarını içeren örneklerin toplanmasının zorluğudur. Otokodlayıcılar önce kodlayıcı modülleriyle girdiyi bir girdiden küçük bir timsal vektörüne eşlerler. Bundan sonra kod çözücü modül ile bu timsal vektörünü kullanarak girdiyi çıktıda yeniden üretmeye çalışırlar. Timsal vektörünün boyutu girdiden küçük olduğu için yeniden üretirken oluşan hatanın minimize edilmesi için otokodlayıcıların girdinin dağılımını öğrenmeleri gerekir. Model eğitiminde kullanılacak veri olarak endüstri-akademi iş birliği kapsamında, anlaşmalı bir fabrikadan arka emniyet kemeri soketinin bağlanırken çıkardığı klips sesleri ve bu fabrikanın olağan arka plan gürültüsünün örnekleri kaydedilmiştir. Bu işlem bir çalışanın elinin üzerine yerleştirilen bir mikrofon kullanılanarak 16 kHz örnekleme frekansında gerçekleştirilmiştir. Çalışan soketi bağlarken bir başka çalışan kronometre ile soketin takıldığı noktaları kaydetmiş, böylece verilerin etiketlenmesi sağlanmıştır. Ayrıca sadece araçlarda kullanılan bu soketlerde sessiz bir laboratuvar ortamında tak-çıkar yapılarak temiz veri toplanmıştır. Bu temiz veri, arka plan gürültüsü ile farklı sinyal-gürültü oranlarında birleştirilerek gerçek veriyi simüle etmek amaçlanmış ve modellerin bu veri üzerindeki başarımları da ortaya konmuştur. Ses verisi modellere verilmeden önce zaman-frekans bilgisine sahip olacak şekilde işlenmiştir. Bu amaçla Kısa Zamanlı Fourier Dönüşümü, bu dönüşümün mel ölçeğindeki hali, mel çıktısının logaritmasının alındığı Log-Melspektrogramları ve onun da üzerine kosin dönüşümü uygulanarak elde edilen Mel Frekansı Kepstral Katsayıları gibi öznitelikler hesaplanmıştır. Bunun yanında veri artırma amacıyla kodlanmış rastgele Gaus gürültüsü eklenmesi, rastgele frekansların filtrelenmesi gibi metotlar için gerekli fonksiyonlar gerçeklenmiştir. Bu veri kümesi üzerinde test edilmek üzere lineer, evrişimli ve yinelemeli modeller tasarlanmış, bu modeller ile deneyler yapılmış ve sonuçları ortaya konmuştur. Bunun yanı sıra bu çalışmaya özel tasarlanmış CNNAE-FT ismini verdiğimiz evrişimli model mimarisi de test edilmiştir. Bu model mimarisi ses verisinin spektrogramının frekans ve zaman eksenlerini farklı modüller ile işleyip timsal vektörleri oluşturmakta, bu vektörleri girdi boyutuna yeniden eşit olacak şekilde ilgili eksende tekrarlayıp, öğrenilebilir parametreler ile ağırlık toplamını almaktadır. Bu modelin tasarımındaki amaç hem modelin kodlanmasının, katmanların ara çıktı boyutlarını ve çekirdek / pencere boyutu gibi hiperparametrelerin ayarlanmasının gerekli olmamasından ötürü kolay olması, hem de zaman-frekans girdisinin içerdiği bilgiyi her iki eksende ayrı ayrı ifade ederek yeniden üretmenin daha etkili olabileceği fikridir. Deneylerimizin çıktısı olarak, yukarıda bahsedilen tekniklerle işlenmiş temiz klips sesi ile yapılan deneylerde beklenildiği üzere sinyal-gürültü oranı -20 dB'den 5 dB'ye doğru arttıkça 0,50 gibi rastgele tahminden daha iyi olmayan sonuçlardan 0,97'ye varan sonuçlar elde edilmiştir. Gerçek fabrika verilerinden oluşan kümemizde ise CNNAE-FT modeli ile Log-Melspektrogram özniteliği kullanılarak 0,85 ROC-AUC skoruna ulaşılmıştır. Bu değer diğer modellerlerin sonuçlarına kıyasla %26 daha yüksektir. Yinelemeli modelin performansının çok düşük olması nedeniyle aykırı değer olarak kabul edilmesi durumunda ise performans artışı %11 olarak hesaplanmıştır. Performans karşılaştırmasına ek olarak CNNAE-FT modelinin yanlış pozitif ve yanlış negatif sonuç verdiği ses kayıtlarının gerçek ve modelin yeniden ürettiği spektrogramları karşılaştırılmıştır. Yüksek arka plan gürültüsünün ve klips benzeri seslerin yanlış pozitife, enerjisi düşük klips seslerinin yanlış negatife sebep olabileceği sonucuna ulaşılmıştır. Bu deneylerden ayrıca veri çoğaltma yöntemlerinin bu problemde sistemin başarım gücünü azalttığı gözlemlenmiştir. Bu durum, veri artırma tekniklerinin verinin varyasyonunu artırması sonucu arka plan gürültüsü içeren verilerin dağılımını genişlettiği, bunun sonucunda klips sesinin örneklendiği dağılıma daha fazla benzemesi ve modelin de bu dağılımı öğrenmesi sonucunda başarımının azaldığı yorumu yapılabilir. Bunun yanı sıra verinin iyileştirilme amacıyla kullanılmış gürültü azaltıcı metodun genel olarak başarımı düşürdüğü gözlemlenmiş olmakla birlikte modelimiz bu metotla eğitildiği bir eğitim seansında en yüksek 0,87 ROC-AUC skoruna erişmiştir. Gelecek çalışmalarda veri kümesinin büyümesi ve klips sesi örneklerinin artması durumunda gözetimli sınıflandırıcıların eğitimi planlanmaktadır. Sistemin ölçeğinin artırılması ve birden çok ses olayı tanıma talebi durumunda sınıflandırıcılar öğrenme aktarımına daha uygun olmaları sebebiyle önem taşımaktadır. Ayrıca eğitilmiş otokodlayıcıların kodlayıcı modülleri de gelecekte eğitilecek modeller için öğrenme aktarımında kullanılabilir. Prototip oluşturma amacıyla otokodlayıcı modellerin kod çözücü kısımları lineer modüllerle yer değiştirilerek sınıflandırıcı modeller oluşturulmuş ve performansları ölçülmüştür. Veri kümesindeki sınıflar dengesiz olduğundan, sonuçların yorumlanmasını kolaylaştırmak amacıyla sınıfların dengeli olduğu bir veri alt kümesi oluşturulmuştur. Modeller birbirlerine çok yakın performans göstermiş ve 0,99 ROC-AUC skoruna ulaşılmıştır. Eğitilen modeller gelecekte tasarlanacak olan akıllı eldiven üzerindeki Android cihaza entegre edilmesi ve çalışanların bu sesleri anlık olarak doğrulamasına olanak sağlayarak insan bazlı hataların en aza indirilmesi hedeflenmektedir. Soket takım işlemi hızlıca gerçekleştirildiğinden gecikmenin en az olması amacıyla modeller mobil cihaz üzerinde koşturulacaktır. Bununla birlikte internet bağlantısının olduğu durumlarda ses verisinin sunucuya iletilmesi ve mobil cihazda çalıştırılamayacak kadar büyük, ancak daha yüksek başarımlı modelleri kullanarak ikinci bir doğrulama işlemi gerçekleştirilecektir.

Özet (Çeviri)

Automotive sector has some processes that cannot be easily verified visually. To mitigate this problem, one can use auditory cues to determine the completion of the process. One such event is connection of connectors that sends signals from seat belt sensor to vehicle safety system. This work aimed to implement a system that is integrated on a smart glove worn by assembly line workers to help them with verification process. Detecting rare events like clips sounds can be performed using artificial intelligence algorithms. Usually, unsupervised learning models like autoencoders are utilized to detect rare events such as anomalies. Since rare events are difficult to collect, one can use an autoencoder to learn normal data distribution. This model is then used to classify rare events as it is expected to fail to learn distribution of samples that are not in the training set and yield an error score that is higher than usual. In order to achieve this and create prototypes for our models, we collected data that contain samples with clips sounds and samples with ordinary factory background noise from a contracted factory. These data were recorded by a device fastened to an employee's arm and another employee would keep timestamps on a timer every time a connector is plugged in to help annotate the data. In a silent laboratory setting, these connectors were manually plugged in and out to collect a set of clean clip sounds with which we can mix background noise data at different SNRs to simulate real data. As features, outputs of Short-Time Fourier Transform on Mel and Log Mel scales and their cosine transform, and MFCC transform were utilized. They were also augmented and processed using various techniques such as random filtering, SpecAugment and noise reduction. These data were then used to train autoencoding machine learning models designed using linear, convolutional and recurrent neural networks. A novel model architecture which is called CNNAE-FT was also tested. In this model, frequency and time dimensions are separately encoded in order to make it easier to implement and to learn from encodings of both dimensions. As one might expect, the clean clips sounds set, processed with above techniques and our prototypical CNN-based autoencoder models, yielded good results for high SNRs and bad results for lower ones. On our real factory clips data, we achieved a ROC-AUC score of 0.85 with our CNNAE-FT model which was on average 26% higher than other models such as Linear, LSTM and CNN-based autoencoders. When LSTM model is omitted as outlier for its low scores, the performance increase was recalculated to be 11%. Also, the data augmentation techniques were observed to generally lower model performance. In future works, we aim to collect more data and widen our models' variety with classifiers as they can be more flexible if the system needs to be scaled to more than one class of events. We can also utilize transfer learning options such as the use of the encoder part of the autoencoders as a basis for classifiers. In order to create classifier prototypes, decoders of autoencoder models were replaced with linear modules and these models were benchmarked on a subset of the clips dataset designed to have balanced classes. They performed similarly and a ROC-AUC score of 0.99 was reached. Our main goal is to integrate these models into an Android device that is attached to the workers' hands to make inference on the spot. Since mobile devices have battery and processor speed limitations, we also aim to optimize the models using methods like quantization which would lower required disk and memory capacity and fusing of layers into one in order to eliminate unnecessary intermediate processes.

Benzer Tezler

  1. Adölesan dönemi kadın voleybolcularda 12 haftalık proprioseptif antrenmanların, sezinleme zamanı, reaksiyon zamanı ve denge performansı üzerindeki etkileri

    The effect of 12 weeks proprioseptive training on adolescent women volleyball players on anticipation time, reaction time and balance performance

    AHMET RAHMİ GÜNAY

    Doktora

    Türkçe

    Türkçe

    2019

    SporGazi Üniversitesi

    Beden Eğitimi ve Spor Ana Bilim Dalı

    PROF. DR. FİLİZ FATMA ÇOLAKOĞLU

  2. İşitsel düzenliliğin fark edilmesinin gürültüde konuşmayı ayırt etme problemi olan ve olmayan bireylerde elektrofizyolojik yöntemlerle karşılaştırılması

    Comparision of auditory regularity detection between individuals with and without speech in noise problems BY electrophysiological methods

    MEHMET YARALI

    Doktora

    Türkçe

    Türkçe

    2015

    BiyofizikHacettepe Üniversitesi

    Odyoloji ve Konuşma Bozuklukları Ana Bilim Dalı

    PROF. DR. SONGÜL AKSOY

  3. Detection of auditory brainstem responses by adaptive filtering

    Başlık çevirisi yok

    BANU BAYKARA

    Yüksek Lisans

    İngilizce

    İngilizce

    1995

    BiyomühendislikBoğaziçi Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. YEKTA ÜLGEN

  4. Sendromik olmayan Türk işitme kayıplı olgularda otoferlin ((OTOF) gen mutasyonlarının belirlenmesi dd

    Detection of OTOF gene mutations in Turkish patients with nonsyndromic hearing loss

    ÇAĞLAR DOĞUER

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    GenetikGazi Üniversitesi

    Tıbbi Biyoloji ve Genetik Ana Bilim Dalı

    PROF. DR. ADNAN MENEVŞE

  5. Detection of P300 component in single trials using an artificial neural network

    P300 dalgasının bir tek kayıtta yapay sinir ağı ile belirlenmesi

    YUSUF KENAN YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    1998

    Tıbbi BiyolojiBoğaziçi Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HALİL ÖZCAN GÜLÇÜR