Video segmentation based on audio feature extraction
Ses öznitelik çıkarımına dayalı video bölütlenmesi
- Tez No: 237599
- Danışmanlar: PROF. DR. GÖZDE BOZDAĞI AKAR
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Bölümü
- Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 115
Özet
Bu çalışmada, ses öznitelik çıkarımına dayalı otomatik bir video bölütleme sistemi sunulmuştur. Video dizileri ?müzik?, ?konuşma?, ?sessizlik? ve ?kalabalık? gibi belirli sınıfları içeren bölümlere ayrılmıştır. Bu sınıflara ait olmayan bölümler ise ?sınıflandırılamayan? olarak nitelendirimiştir. ?sessizlik? sınıfının belirlenmesi için kısa-zamanlı enerji özniteliği kullanılarak, eşik değer karşılaştırma uygulaması yapılmıştır. ?müzik?, ?konuşma? ve ?kalabalık? sınıflarınının belirlenmesi için ise çoklu-sınıf ayırma yöntemi kullanılmıştır. Bu amaçla, ses bilgisine ait bazı karakteriksel öznitelikler çıkarılmıştır. Çıkarılan öznitelikler üç gruptan oluşmaktadır: MPEG-7 işlevsel veri çatısında tanımlı olan alt seviyeli ses öznitelikleri, [31]' de kullanılan öznitelikler ve bu iki öznitelik grubunun bileşimi olan öznitelikler. Sınıflandırma için en uygun özniteliği seçmek için, özniteliklerin dağılımları incelenmiştir. Ses sınıflandırma işlemi her üç öznitelik grubu için öğrenme- sınıflandırma ve test aşamalarına tabi tutulmuştur. Test ve değerlendirme sonuçları, üçüncü gruptaki özniteliklerin en iyi sonucu verdiğini göstermektedir. Sistemin çıktısı, sınıflandırılmış video parçalarına ait ses kısımlarını içeren MPEG-7 tanımlayıcılarının olduğu bir XML dosyasıdır.Çalışmanın son kısmında, elde edilen ses sınıflandırma sisteminin, görsel işlemlerle birleştirilerek işitsel-görsel video kısımlarının elde edildiği bir uygulama senaryosu verilmiştir.
Özet (Çeviri)
In this study, an automatic video segmentation and classification system based on audio features has been presented. Video sequences are classified such as videos with ?speech?, ?music?, ?crowd? and ?silence?. The segments that do not belong to these regions are left as ?unclassified?. For the silence segment detection, a simple threshold comparison method has been done on the short time energy feature of the embedded audio sequence. For the ?speech?, ?music? and ?crowd? segment detection a multiclass classification scheme has been applied. For this purpose, three audio feature set have been formed, one of them is purely MPEG-7 audio features, other is the audio features that is used in [31] the last one is the combination of these two feature sets. For choosing the best feature a histogram comparison method has been used. Audio segmentation system was trained and tested with these feature sets. The evaluation results show that the Feature Set 3 that is the combination of other two feature sets gives better performance for the audio classification system. The output of the classification system is an XML file which contains MPEG-7 audio segment descriptors for the video sequence.An application scenario is given by combining the audio segmentation results with visual analysis results for getting audio-visual video segments.
Benzer Tezler
- Multimedia data modeling and semantic analysis by multimodal decision fusion
Çoklu karar füzyonu ile medya veri modelleme ve anlamsal bölümleme
MENNAN GÜDER
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FEHİME NİHAN ÇİÇEKLİ
- Pressed piano key detection and transcription by visual motion analysis
Başlık çevirisi yok
ALİ ÖZKAYA
Yüksek Lisans
İtalyanca
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolPolitecnico di MilanoDR. VİNCENZO CAGLİOTİ
- ATM'de lan hizmetleri
ATM-lan services
İRFAN UĞUR
Yüksek Lisans
Türkçe
1997
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNSEL DURUSOY
- Multimodal emotion recognition in video
Video içerisinde çok alanlı duygu tanıma
TANER DANIŞMAN
Doktora
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. ADİL ALPKOÇAK
- Videolarda geçen konuşmaların metne dönüştürülmesi ve zaman tabanlı indekslenmesi amacıyla bir uygulama geliştirilmesi
Developing an application for converting the conversations in videos into text and time-based indexing
OĞUZHAN MERT KİRAZ
Yüksek Lisans
Türkçe
2024
Mühendislik BilimleriKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA SERVET KIRAN