Geri Dön

Video segmentation based on audio feature extraction

Ses öznitelik çıkarımına dayalı video bölütlenmesi

  1. Tez No: 237599
  2. Yazar: NERİMAN ATAR
  3. Danışmanlar: PROF. DR. GÖZDE BOZDAĞI AKAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Bölümü
  12. Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 115

Özet

Bu çalışmada, ses öznitelik çıkarımına dayalı otomatik bir video bölütleme sistemi sunulmuştur. Video dizileri ?müzik?, ?konuşma?, ?sessizlik? ve ?kalabalık? gibi belirli sınıfları içeren bölümlere ayrılmıştır. Bu sınıflara ait olmayan bölümler ise ?sınıflandırılamayan? olarak nitelendirimiştir. ?sessizlik? sınıfının belirlenmesi için kısa-zamanlı enerji özniteliği kullanılarak, eşik değer karşılaştırma uygulaması yapılmıştır. ?müzik?, ?konuşma? ve ?kalabalık? sınıflarınının belirlenmesi için ise çoklu-sınıf ayırma yöntemi kullanılmıştır. Bu amaçla, ses bilgisine ait bazı karakteriksel öznitelikler çıkarılmıştır. Çıkarılan öznitelikler üç gruptan oluşmaktadır: MPEG-7 işlevsel veri çatısında tanımlı olan alt seviyeli ses öznitelikleri, [31]' de kullanılan öznitelikler ve bu iki öznitelik grubunun bileşimi olan öznitelikler. Sınıflandırma için en uygun özniteliği seçmek için, özniteliklerin dağılımları incelenmiştir. Ses sınıflandırma işlemi her üç öznitelik grubu için öğrenme- sınıflandırma ve test aşamalarına tabi tutulmuştur. Test ve değerlendirme sonuçları, üçüncü gruptaki özniteliklerin en iyi sonucu verdiğini göstermektedir. Sistemin çıktısı, sınıflandırılmış video parçalarına ait ses kısımlarını içeren MPEG-7 tanımlayıcılarının olduğu bir XML dosyasıdır.Çalışmanın son kısmında, elde edilen ses sınıflandırma sisteminin, görsel işlemlerle birleştirilerek işitsel-görsel video kısımlarının elde edildiği bir uygulama senaryosu verilmiştir.

Özet (Çeviri)

In this study, an automatic video segmentation and classification system based on audio features has been presented. Video sequences are classified such as videos with ?speech?, ?music?, ?crowd? and ?silence?. The segments that do not belong to these regions are left as ?unclassified?. For the silence segment detection, a simple threshold comparison method has been done on the short time energy feature of the embedded audio sequence. For the ?speech?, ?music? and ?crowd? segment detection a multiclass classification scheme has been applied. For this purpose, three audio feature set have been formed, one of them is purely MPEG-7 audio features, other is the audio features that is used in [31] the last one is the combination of these two feature sets. For choosing the best feature a histogram comparison method has been used. Audio segmentation system was trained and tested with these feature sets. The evaluation results show that the Feature Set 3 that is the combination of other two feature sets gives better performance for the audio classification system. The output of the classification system is an XML file which contains MPEG-7 audio segment descriptors for the video sequence.An application scenario is given by combining the audio segmentation results with visual analysis results for getting audio-visual video segments.

Benzer Tezler

  1. Multimedia data modeling and semantic analysis by multimodal decision fusion

    Çoklu karar füzyonu ile medya veri modelleme ve anlamsal bölümleme

    MENNAN GÜDER

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FEHİME NİHAN ÇİÇEKLİ

  2. ATM'de lan hizmetleri

    ATM-lan services

    İRFAN UĞUR

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜNSEL DURUSOY

  3. Multimodal emotion recognition in video

    Video içerisinde çok alanlı duygu tanıma

    TANER DANIŞMAN

    Doktora

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. ADİL ALPKOÇAK

  4. Videolarda geçen konuşmaların metne dönüştürülmesi ve zaman tabanlı indekslenmesi amacıyla bir uygulama geliştirilmesi

    Developing an application for converting the conversations in videos into text and time-based indexing

    OĞUZHAN MERT KİRAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mühendislik BilimleriKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA SERVET KIRAN