Geri Dön

Büyük dil modelleri kullanan derin öğrenme tabanlı dinamik çok modlu veri özetleme yaklaşımları

Deep learning based multi modal data summarization approaches using large language models

  1. Tez No: 950495
  2. Yazar: TURAN GÖKTUĞ ALTUNDOĞAN
  3. Danışmanlar: PROF. DR. MEHMET KARAKÖSE
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 250

Özet

Veri özetleme problemlerinde özetlenecek veri formatına bağlı olarak doğal dil işleme, bilgisayarlı görme, yapay zeka ve veri madenciliği teknikleri kullanılabilir. Farklı tipte verilerin aynı problem veya sistem içerisinde beraber kullanılması veya bir verinin farklı tipte bir veri moduyla özetlenme ihtiyacı çok modlu veri özetleme uygulamalarının geliştirilmesine sebep olmuştur. Bu kapsamda bu çalışmada farklı çok ve tek modlu veri özetleme yaklaşımları geliştirilmiştir. Tez çalışmasının metin özetleme uygulamaları kapsamında, haber metinlerinin soyutsal ve çıkarımsal özetlenmesine odaklanan bir yöntem, diyalog metinlerinin soyutsal özetlenmesine odaklanan bir yöntem ve hasta sorularını içeren metinlerin soyutsal özetlenmesi için bir yöntem geliştirilmiştir. Geliştirilen ilk metin özetleme yaklaşımında özgün bir kodlayıcı – kod çözücü nöral mimarisi sunulurken diğer metin özetleme yaklaşımlarında öneğitimli büyük dil modellerinin ince-ayarlamaları gerçekleştirilmiştir. Geliştirilen metin özetleme yaklaşımları literatürdeki mevcut yöntemlerle karşılaştırılarak sağladığı katkılar net bir şekilde sunulmuştur. Video ve ses özetleme uygulamaları kapsamında, akıllı şehirlerde kullanılan gözetleme videoları, çevrimiçi platformlardan sunulan aktivite içerikli videoların sorgu odaklı çok-modlu özetlenmesi ve çevrimiçi toplantı videolarının çok-modlu özetlenmesine odaklanılmıştır. Bunlardan gözetleme videolarına odaklı yaklaşımda video özetleme işlemi nesne-merkezli ve olay-merkezli iki özetleme modülünden elde edilen farklı video özetleriyle gerçekleştirilmiştir. Nesne-merkezli özetleme modülü için %90'ın üzerinde istatistiksel özellik koruyabilen, genetik algoritma tabanlı bir yöntem geliştirilirken, olay-merkezli video özetleme modülü için %90'ın üzerinde sınıflandırma başarımına sahip özgün bir transformer mimarisi geliştirilmiştir. Çevrimiçi aktivite videolarının özetlenmesi için kullanıcı sorgusu odağında çapraz dikkat mekanizması kullanan çok modlu bir video özetleme yaklaşımı geliştirilmiştir. Sunulan yaklaşımın video özetleme performansı %87,1'dir. Videolara ait sorgu odaklı özetlerin elde edilmesinin ardından özet videoların metin açıklamaları için yeni bir görü dil modeli de önerilen yöntem kapsamında geliştirilmiştir. Toplantı videosu özetlenmesi için otomatik konuşma tanıma sonrasında toplantıya ait çıkarımsal metin, video ve ses özetleri elde edilerek, toplantıya ait farklı bölümlerin soyutsal vurgularının üretilmesi sağlanmıştır. Önerilen yöntemde özetleme işlemleri için öneğitimli büyük dil modellerinden yararlanılmıştır ve toplantı videolarının %75'in üzerinde kısaltılması sağlanmıştır. Geliştirilen bütün video özetleme yaklaşımlarının performansı literatürdeki diğer çalışmalarla karşılaştırılmıştır ve önerilen yöntemlerin performans üstünlüğü net bir şekilde gösterilmiştir.

Özet (Çeviri)

In data summarization problems, natural language processing, computer vision, artificial intelligence and data mining techniques can be used depending on the data format to be summarized. The need to use different types of data together in the same problem or system or to summarize a data with a different type of data mode has led to the development of multimodal data summarization applications. In this context, different multimodal and single-modal data summarization approaches have been developed in this study. Within the scope of the text summarization applications of the thesis study, a method focusing on abstractive and extractive summarization of news texts, a method focusing on abstractive summarization of dialogue texts and a method for abstractive summarization of texts containing patient questions have been developed. While an original encoder-decoder neural architecture is presented in the first text summarization approach developed, fine-tuning of pre-trained large language models has been performed in other text summarization approaches. The developed text summarization approaches are compared with existing methods in the literature and their contributions are clearly presented. Within the scope of video and audio summarization applications, the focus is on surveillance videos used in smart cities, query-driven multi-modal summarization of activity-based videos presented on online platforms, and multi-modal summarization of online meeting videos. In the approach focused on surveillance videos, video summarization process is performed with different video summaries obtained from two summary modules, object-centric and event-centric. While a genetic algorithm-based method that can preserve over 90% statistical features is developed for the object-centric summary module, a unique transformer architecture with over 90% classification performance is developed for the event-centric video summarization module. A multi-modal video summarization approach that uses a cross-attention mechanism focused on user query is developed for summarizing online activity videos. The video summarization performance of the presented approach is 87.1%. After obtaining the query-focused summaries of the videos, a new vision language model is also developed within the scope of the proposed method for the text descriptions of the summary videos. For the meeting video summarization, after automatic speech recognition, the extractive text, video and audio summaries of the meeting were obtained, and abstractive highlights of different sections of the meeting were produced. In the proposed method, pre-trained large language models were used for summarization operations and over 75% of the meeting videos were shortened. The performance of all developed video summarization approaches was compared with other studies in the literature and the performance superiority of the proposed methods was clearly demonstrated.

Benzer Tezler

  1. Developing morphology disambiguation and named entity recognition for amharic

    Amharca morfolojik belirsizliği giderme ve adlandırılmış varlık tanıma geliştirilmesi

    EBRAHIM CHEKOL JIBRIL

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Development of an agile story point estimation model for scrum: A fusion of natural language processing and machine learning techniques

    Scrum için çevik bir hikaye puanı tahmin modelinin geliştirilmesi: Doğal dil işleme ve makine öğrenmesi tekniklerinin birleşimi

    BURCU YALÇINER

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET ÖNDER EFE

  3. Development of deep learning-basedsentiment analysis approaches withneural network-based languagemodels

    Sinir ağı tabanlı dil modelleriyle derin öğrenme tabanlı duygu analizi yaklaşımlarının geliştirilmesi

    KHADIJA MOHAMAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. KÜRŞAT MUSTAFA KARAOĞLAN

  4. Ön eğitimli dil modellerinin kokan kod sınıflama performansının üçlü kayıp yöntemiyle iyileştirilmesi

    Optimizing the code smell classification performance of pretrained language models using the triple loss method

    ERTUĞRUL İSLAMOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ NİZAM

  5. Deep learning-based building segmentation using high-resolution aerial images

    Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi

    BATUHAN SARITÜRK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER