Geri Dön

Speech synthesis using long-term short memory and recurrent neural network (LTSM-RNN)

Uzun süreli kısa kullanarak konuşma sentezi bellek ve tekrarlamalı sinir ağları (LTSM-RNN)

  1. Tez No: 796395
  2. Yazar: ARKAN ADNAN IMRAN AL-YASARI
  3. Danışmanlar: Prof. Dr. GALİP CANSEVER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Altınbaş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 52

Özet

Yapay zeka tekniklerinin geliştirilmesinde büyük ilerlemeler kaydedildi. bilgisayar tarafından üretilen multimedyanın yayılmasına ve yayılmasına yol açan son on yıl görüntü, ses ve videodan oluşan, gerçeğe çok yakın ve gerçekçi olması zor olan içerik aynı nitelikteki orijinal içerikten ayrı olarak anlatılmıştır. ilginç uygulamalar varken yapay zeka tarafından üretilen içerik, tehlikeli ve aldatıcı şekillerde de kullanılabilir. örneğin bir mahkemede kanıt olarak. Bu nedenle otomatik yöntemler bulmak giderek daha acil hale geliyor. yapay zeka konuşma sentezlenmiş içeriği orijinal içerikten ayırt eder. Bunda Araştırmada, işitsel içeriği ve özellikle kesinlikle tamamen gizli olan konuşmayı dikkate alıyoruz. sahtecilik söz konusu olduğunda hassas. alanında daha önce yapılan araştırmaları derinleştireceğiz. gerçek konuşmacıları tanımak için daha genel otomatik yöntemler oluşturmak amacıyla bi-spektral analiz yapay zekadan, Uzun-Süreli-Kısa Bellek Tekrarlayan kullanılarak sentezlenmiş konuşma Sinir Ağı (LTSM-RNN). Kullandığımız seslerin veri seti çok geniştir ve heterojen, hem gerçek seslerden hem de çeşitli farklı yöntemlerle sentezlenmiş seslerden oluşan yöntemler. Tüm konuşma kayıtlarından çift tutarlılığı çıkardık ve bazılarını gerçekleştirdik. sınıflandırmalar (her ikisi de çok etiketli sınıflandırmalar; tüm diğerlerinden gelen sesler ve gerçek ve sahte sesler arasındaki ikili sınıflandırmalar) çeşitli destek vektör makinesi, lojistik gibi makine öğrenimi ve derin öğrenme teknikleri regresyon ve evrişimli sinir ağı. Özellikle, çift tutarlılıklar bir kez ses dosyalarından hesaplanan aşağıdaki testleri gerçekleştirdik. Öncelikle şunu çoğalttık. ix iki tutarlılıktan oluşan bir dizi özellik çıkaran önceki çalışmalar üzerinde yapılan testler ikili eşevreliliğin hem modüllerinin hem de fazlarının ortalama, varyans, çarpıklık ve basıklık üzerinde basit çok sınıflı ve ikili sınıflandırmalar yaparak sınıflandırmaya çalışmak bir LTSM, bir dizi RNN ve biraz CNN kullanarak. Sonra açık bir set ortamını simüle ettik. modeli eğitim aşamasında henüz görülmemiş verilerle test etmek için bir dizi LTSM kullanmak. Ayrıca, yeni bir dizi özellik çıkarmak için bir dizi hibrit LTSM-RNN kullandık ve basit çok etiketli ve ikili sınıflandırmalar gerçekleştirerek bunları sınıflandırın. Son olarak, araştırma yukarıdaki iki özellik grubunu birleştirdi ve bunlarla daha fazla sınıflandırma gerçekleştirdi (bu açık küme ortamında da durum) ve bu yöntemle göstereceğiz %99,76 doğruluk oranı ile en iyi sonuçları elde etmiştir. Sonuçlar, gerçek ve sahte konuşma kayıtları veya sentezi arasında ayrım yapmada bispektral analizin rolünü daha iyi açıklığa kavuşturdu ve kurşun multimedya adli tıp alanında daha fazla araştırma yapmak.

Özet (Çeviri)

Huge advancements in the development of artificial intelligence techniques have been made in the last decade, which have led to the diffusion and spread of computer generated multimedia content, consisting of images, audio and video, which is so realistic that it makes it difficult to be told apart from original content of the same nature. While there are interesting applications to artificial intelligence generated content, it can also be used in dangerous and deceiving ways, for example as proof in a court of law. Hence it is more and more urgent to find automatic ways to distinguish artificial intelligence speech synthesized content from original content. In this research, we take into account audio content, and in particular speech, which is obviously utterly delicate as it comes to forgery. We are going to deepen the previous research made in the field of bi-spectral analysis in order to create more general automatic methods to recognize real speakers from artificial intelligence synthesized speech using Long-Term-Short Memory Recurrent Neural Network (LTSM-RNN). The dataset of voices that we have used is very wide and heterogeneous, consisting of both real voices and voices synthesized using various different methods. We extracted the bi-coherence from all the speech recordings and performed some classifications (both multi-label classifications, which consist in distinguishing each class of voices from all the others, and binary classifications between real and fake voices) using various machine learning and deep learning techniques, such as support vector machine, logistic regression and convolutional neural network. In particular, once the bi-coherences have been computed from the audio files, we performed the following tests. First of all, we replicated the ix tests made on previous works extracting from the bi-coherences a set of features which consist on mean, variance, skewness and kurtosis of both the modules and the phases of the bicoherences and trying to classify them performing simple multiclass and binary classifications using a LTSM, a series of RNN and some CNN. Then we simulated an open set environment using a series of LTSM, in order to test the model with data not yet seen in the training phase. Moreover, we used a series of hybrid LTSM-RNN to extract a new set of features and tried to classify them performing simple multi-label and binary classifications. Finally, research is concatenated the two set of features above and performed more classifications with them (in this case also with an open set environment) and we are going to show that with this method we obtained the best results with an accuracy of 99.76%. The results clarified better the role of bispectral analysis in distinguishing between real and fake speech recordings or synthesis, and lead to more research in the field of multimedia forensics.

Benzer Tezler

  1. Düşük bir hızlarında konuşma kodlama ve uygulamaları

    Low bit rate speech coding and applications

    TARIK AŞKIN

  2. Düşük bit hızında konuşma kodlama

    Low bit rate speech coding

    TOLGA AYDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2000

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. GÜNSEL DURUSOY

  3. Karma söz üretme yöntemi ile Türkçe yazılı metinden söze geçme

    Text-to-speech in Turkish language by using a mixed speech synthesis method

    MURAT SERVET ERER

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. AHMET DERVİŞOĞLU

  4. Spoofing and anti-spoofing techniques for text-independent speaker verification systems

    Metinden bağımsız konuşmacı doğrulama sistemleri için saldırı ve anti-saldırı teknikleri

    ALİ KHODABAKHSH

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. CENK DEMİROĞLU

  5. İki boyutlu kafes parametrelerinin sınırlı veri alanlarından hesaplanması

    The Calculation of the 2-D lattice parameters from short data records

    NURŞEN YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. AHMET HAMDİ KAYRAN