Geri Dön

Videolarda geçen konuşmaların metne dönüştürülmesi ve zaman tabanlı indekslenmesi amacıyla bir uygulama geliştirilmesi

Developing an application for converting the conversations in videos into text and time-based indexing

  1. Tez No: 870987
  2. Yazar: OĞUZHAN MERT KİRAZ
  3. Danışmanlar: PROF. DR. MUSTAFA SERVET KIRAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Konya Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 74

Özet

Yapay sinir ağlarındaki ilerlemeler, metin tanıma ve metinden sese çevirme gibi birçok veri dönüşümü ve tanıma işlemlerinde önemli gelişmelere yol açmıştır. Özellikle Konuşmadan Metne (Speech to Text) yöntemi, sesli konuşmaları yazıya dönüştürme konusunda popülerlik kazanmıştır. Günümüzde görüntülü ve sesli içeriklerin popülerliği arttıkça insanlar video platformlarında özel içerikler üreterek geniş kitlelere ulaşmakta ve gelir elde etmektedirler. Yapılan çalışma sesin analizinin yanı sıra elde edilen verilerin sorgulanmasını da sağlamaktadır böylece kullanıcılar videoda aradıkları kelimeyle ilgili bölüme erişebilmekte ve bu bölümden itibaren videoları izleyebilmektedir. Bu sayede kullanıcılar aradıkları kelimenin geçtiği saniyelere ulaşmak için bütün bir videoyu izlemek zorunda kalmadan görüntülemek istedikleri kısma ulaşabilmektedir. Geliştirilen yöntemler sayesinde kullanılan STT yöntemine göre videolardaki seslerden elde edilen metinler daha doğru sonuçlar verebilmektedir. Tespit edilen eksiklikler sonucunda geliştirilen Bölümleme yöntemiyle veri setlerinde konuşmacının durana kadar MFCC algoritması kullanılarak Fourier dönüşümü yöntemi ile frekans değerleri hesaplanmış ve ayrıştırılmıştır. STT yöntemine uygulanan bu işlemlerle YouTube'un kullandığı STT yöntemine göre daha doğru bir süre/metin ilişkisinde veriler kaydedilmiştir. Bu yöntem ile gürültüsüz kaydedilen veri setlerinde saniye sekanslı doğruluk oranı hatalarının önüne geçilmektedir. Tüm bu veri setleri veri tabanına süre/metin eşleştirmesi yapılarak kaydedilmekte böylece kullanıcılar aradıkları kelimelerin geçtiği saniyeleri görebilmekte ve istedikleri zaman o kısmı oynatabilmektedirler. Uygulamanın çalışma süreci iki aşamadan oluşmaktadır: ilk aşama videonun indirilmesi, ikinci aşama ise videodaki seslerin metne çevrimidir. İnternet hızına bağlı olarak videoların indirilme süresi ve kelime çevrim süresi değişiklik göstermektedir. Standart bir internet ağı kullanılarak bir dakikalık bir videonun indirilme süresi yaklaşık 30 saniye, beş dakikalık bir videonun indirilme süresi ise ortalama 75 saniye civarındadır. İkinci aşama olan videolardaki seslerin metne çevrilme süreci video indirildikten sonra gerçekleştirilir. Bu aşamada bir dakikalık bir videonun kelime çevrimi yaklaşık 30 saniye, 5 dakikalık bir videonun kelime çevrimi ise genellikle ortalama 75 saniye sürmektedir. Geliştirilen program, YouTube otomatik çeviri sistemiyle aynı yöntemi kullanmasına rağmen yapılan deneylerde daha başarılı sonuçlar elde edilmiştir. Yüz videodan oluşan deney sürecinde geliştirilen programın hem oransal olarak daha fazla çevrim gerçekleştirdiği hem de videolardan elde edilen verilere göre rakamsal olarak daha doğru bir kelime çevrimi yaptığı belirlenmiştir. Her iki sistemin aynı yöntemleri kullanmasına rağmen bu farkın geliştirilen programda kullanılan bölümleme yöntemi, MFCC ve Fourier dönüşümü yönteminin uygulanmasından kaynaklanmaktadır. Uygulamanın asıl amacı kullanıcılara zaman tasarrufu sağlamaktır. Fiber internet hızlarının sağlandığı bölgelerde özellikle bir saat üzerindeki videolar için kullanıcıya üç ila beş dakika arasında hızlı bir çözüm sunulabilmektedir. Standart bir Wifi ağında ise tüm aşamalar bir saatten uzun videolar için dört ila yedi dakika arasında tamamlanabilmektedir.

Özet (Çeviri)

Advances in artificial neural networks have led to significant improvements in many data transformation and recognition processes such as text recognition and text-to-speech conversion. In particular, the Speech to Text method has gained popularity for transcribing audio conversations. Nowadays, as the popularity of video and audio content increases, people are reaching large audiences and generating revenue by producing special content on video platforms. In addition to analyzing the audio, the study also enables the querying of the data obtained so that users can access the section of the video related to the word they are looking for and watch the videos from this section. In this way, users can reach the part they want to view without having to watch an entire video to reach the seconds in which the word they are looking for occurs. Thanks to the developed methods, the texts obtained from the audio in the videos can give more accurate results compared to the STT method. With the segmentation method developed as a result of the identified deficiencies, frequency values were calculated and separated by Fourier transform method using the MFCC algorithm until the speaker stops in the data sets. With these processes applied to the STT method, data was recorded in a more accurate duration/text relationship than the STT method used by YouTube. With this method, second-sequence accuracy rate errors are prevented in data sets recorded without noise. All these datasets are saved to the database with duration/text matching so that users can see the seconds in which the words they are looking for occur and can play that part whenever they want. The working process of the application consists of two stages: the first stage is the downloading of the video and the second stage is the transcription of the audio from the video. Depending on the internet speed, the download time of the videos and the transcription time varies. Using a standard internet network, a one-minute video takes about 30 seconds to download and a five-minute video takes about 75 seconds to download. The second stage, the transcription of the audio in the videos, takes place after the video is downloaded. At this stage, it takes about 30 seconds to transcribe a one-minute video and 75 seconds to transcribe a 5-minute video. Although the developed program uses the same method as the YouTube automatic translation system, more successful results were obtained in the experiments. In the experimental process consisting of one hundred videos, it was determined that the developed program performed both proportionally more translations and numerically more accurate word translations according to the data obtained from the videos. Although both systems use the same methods, this difference is due to the partitioning method, MFCC and Fourier transform method used in the developed program. The main purpose of the application is to save time for the users. In regions where fiber internet speeds are provided, a fast solution can be offered to the user between three to five minutes, especially for videos over one hour. On a standard Wifi network, all steps can be completed in four to seven minutes for videos longer than one hour.

Benzer Tezler

  1. A study with architects on the use of gestures with and without speech for representing shapes

    Jestlerin konuşma ile konuşmasız olarak şekillerin temsili için kullanımı üzerine mimarlarla bir çalışma

    AYŞE IŞKIN TÖRE

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    ÖĞR. GÖR. ELİF SEZEN YAĞMUR KİLİMCİ

  2. Multi-modal deception detection from videos

    Videolardan çoklu-modalite ile aldatmaca kestirimi

    MEHMET UMUT ŞEN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

  3. 3D face animation generation from audio using convolutional neural networks

    Evrişimsel ağlar ile sesten 3B yüz animasyonu üretilmesi

    TÜRKER ÜNLÜ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER

  4. Improving thinking skills of young learners through task-based learning

    Görev temelli öğrenme ile çocukların düşünme becerilerini geliştirme

    MELİKE YÜCEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Eğitim ve ÖğretimÇukurova Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. HASAN BEDİR

  5. Sosyal durumlar aracılığıyla yabancılara Suriye (Şam) lehçesinin öğretimi

    Teaching the Syrian dialect (Damascus) to non-native speakers through representational situations

    TAYSER AL ABDULLAH

    Yüksek Lisans

    Arapça

    Arapça

    2023

    Türk Dili ve EdebiyatıGazi Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DOÇ. DR. ERDİNÇ DOĞRU