Geri Dön

Tinyml tabanlı görsel işitsel anahtar kelime tespiti

Tinyml based audio visual keyword detection

  1. Tez No: 886423
  2. Yazar: MEHMET TOSUN
  3. Danışmanlar: PROF. DR. HAMİT ERDEM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Anahtar kelime tespiti (AKT), makine öğreniminin kullanıldığı alanlardan birisidir. Amacı, ses veya görüntü verisinden belirli kelime veya objenin otomatik tespit edilmesidir. Taşınabilir yapay zekâ uygulamalarının artmasıyla beraber, bu alanda da uygulamalar artmaktadır. Özellikle AKT uygulamalarının etkinliğini artırmak için hibrit sistemler (ses ve görüntünün birlikte kullanımı) üzerinde çalışma yapılmaktadır. Bu sistem ile birlikle iki farklı kanaldan algılanan ses ve görüntü komutlarının birleştirilmesi amaçlanmaktadır. Bilgisayar (PC) ortamında görsel işitsel AKT üzerinde birçok çalışma yapılmış ve iyi sonuçlar elde edilmiştir. Diğer taraftan derin öğrenme uygulamalarını düşük kapasiteli işlemciler üzerinde gerçekleştirmek için TinyML (Düşük Kapasiteli Makine Öğrenmesi) kapsamında çalışmalar yapılmaktadır. Bu uygulamalarda, derin öğrenmeye yönelik geliştirilen modelin parametrelerini azaltarak (nicelleştirme, kırpma) sıradan mikrodenetleyici üzerinde uygulama imkânı oluşturmaktadır. Bu çalışmada ses ve görüntü verisi kullanılarak, TinyML alanında AKT uygulaması önerilmiştir. Önerilen hibrit modelin eğitiminde öncelikle ses ve görüntü modelleri Edge Impulse yazılım ortamında ayrı ayrı eğitilmiştir. Geliştirilen MobileNetV2 ve CNN tabanlı modeller ESP32-CAM ve Arduino Nano BLE geliştirme kitlerine yüklenerek, denenmiştir. Daha sonra modeller doğrusal ağırlıklı birleştirme metodu ile birleştirilerek denenmiştir. Sistemin başarısı standart ölçütlere göre test edilmiştir. Deneysel sonuçlarda doğruluk ölçütüne göre, sadece ses tabanlı AKT başarısı %85, sadece görüntü tabanlı AKT başarısı %85 olurken, görsel işitsel hibrit uygulamasında sınıflandırma başarısı %90 civarında olmuştur.

Özet (Çeviri)

Keyword detection (KWD) is one of the areas where machine learning is used. Its purpose is the automatic detection of specific words or objects from audio or image data. As portable artificial intelligence applications become more prevalent, the number of applications in this field is also growing. In particular, hybrid systems (the use of audio and video together) are being studied to increase the effectiveness of KWD applications. The system aims to combine audio and visual commands detected through two different channels. Extensive work has been done on audiovisual keyword detection in a computer environment, yielding good results. On the other hand, efforts are being made within the scope of TinyML (Low-Power Machine Learning) to implement deep learning applications on low-capacity processors. In these applications, reducing the parameters of the deep learning model (quantization, pruning) makes it possible to implement the model on ordinary microcontrollers. In this study, a keyword detection application in the field of TinyML is proposed using audio and visual data. In the training of the proposed hybrid model, the audio and visual models were first trained separately in the Edge Impulse software environment. Developed MobileNetV2 and CNN-based models were loaded onto ESP32-CAM and Arduino Nano BLE development kits and tested. Subsequently, the models were combined using a linear weighted fusion method and tested. In the experimental results, according to the accuracy criterion, the success rate of the audio-based KWD was 85%, the success rate of the image-based KWD was 85%, while the classification success in the audiovisual hybrid application was around 90%.

Benzer Tezler

  1. 3D lidar based fall detection

    3B lidar tabanlı düşme algılama

    SONER SEZGİN

    Doktora

    İngilizce

    İngilizce

    2025

    Biyoteknolojiİzmir Katip Çelebi Üniversitesi

    Biyomedikal Teknolojiler Ana Bilim Dalı

    PROF. DR. MUSTAFA ŞEN

  2. TINYML tabanlı gömülü sistem ile EKG sinyalinden kardiyak aritmilerin tespiti

    Detection of arrhythmias from ECG signal using TINYML-based embedded system

    DOĞAN CAN ÖZBEY

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiAkdeniz Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YALÇIN ALBAYRAK

  3. Device categorization from electrical signals with machine learning

    Elektrik sinyallerinden makine öğrenmesi ile cihaz kategorizasyonu

    TOLGA REİS

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET TEOMAN NASKALİ

  4. A new approach for classifying maize crop diseases using IoT-based deep learning convolutional networks

    IoT tabanlı derin öğrenme evrimisel ağları kullanarak mısır ürün hastalıklarının sınıflandırılmasına yönelik yeni bir yaklaşım

    NABIL MUSTAFA OMAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKadir Has Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. NIMA JAFARI NAVIMIPOUR

  5. Derin öğrenme ve tinyml ile gerçek zamanlı düşme tespiti

    Real-time fall detection with deep learning and tinyml

    ABDULLAH SÖKÜLMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilim ve TeknolojiSelçuk Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OKAN UYAR