Geri Dön

Derin öğrenme ile cerrahi video anlama

Surgical video understanding with deep learning

  1. Tez No: 759996
  2. Yazar: ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE
  3. Danışmanlar: DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Bilişim Sistemleri Bilim Dalı
  13. Sayfa Sayısı: 92

Özet

Giriş Robotik cerrahi, robotik sistemler kullanılarak gerçekleştirilen bir ameliyat türüdür ve cerrahların minimal invaziv cerrahide çok çeşitli operasyonları gerçekleştirmesine olanak tanır [1]. Da Vinci Surgical System gibi robotik cerrahi sistemlerin yardımıyla, cerrahi videoları anlamak için önemli miktarda video beslemesi yakalayabiliriz [2]. Otomatik cerrahi hareket tanıma, cerrahi bir operasyonu oluşturan cerrahi görevler bağlamında anlamlı cerrahi hareketleri (iğneyi yerleştirme, İğneyi dokudan geçirme gibi) tanımayı amaçlar. Cerrahi aktivite tanıma, bilgisayar destekli bir cerrahi eğitim sistemini etkinleştirme ve kursiyerler için nesnel bir performans değerlendirmesi ve otomatik geri bildirim sağlamaya yönelik temel bir adımdır. Bununla birlikte, hangi cerrahi hareketin gerçekleştirildiğini doğru bir şekilde tanımak, cerrahi videolardan hem mekansal hem de zamansal dinamikleri öğrenmenin etkili bir yolunu gerektiren zorlu bir sorun teşkil etmektedir. Derin öğrenme modelleriyle dikkati kullanmak, görsel verilerin ilgili ve göze çarpan bölgelerine odaklanmayı öğrendiği için büyük bir performans artışı göstermiştir. Bu modeller, eylem tanıma görevini kolaylaştırmak için özellik yeniden ağırlıklandırma için kullanılan dikkat dağılımını öğrenir. Örneğin, Sudhakaran ve ark. [3], benmerkezci aktivite tanıma için ilgili uzamsal bölümlerden gelen özelliklere odaklanan bir Uzun Kısa Vadeli Dikkat (LSTA) mekanizması geliştirdi. Lu ve ark. [4], hareket tanıma için benmerkezci videoların uzamsal ve zamansal yapısını kullanan hareket ve görünüm akışları ile dikkat tabanlı iki akışlı derin bir sinir ağı önerdi. Ayrıca insan bakışı kalıpları ve görsel belirginlik, görsel dikkat hakkında önemli bilgiler taşır. Bu bilgiyi kullanan derin öğrenme modellerinin, özellikle benmerkezci videolarda eylemleri tanımada etkili olduğu kanıtlanmıştır [5]. Bu araştırmada, cerrahi videolarda aktivite tanıma için uzamsal-zamansal dikkat mekanizması ile insan bakışını kullanmayı öneriyoruz. Motivasyon, nesne manipülasyonu sırasında, nesnelerin gerçekleştirilen görevle ilgili kısımlarına önemli miktarda bakış fiksasyonu düşmesidir [6]. Bu nedenle, bu alanlara odaklanmak, karmaşık arka plandan ve yürütülen faaliyetlerle ilgili olmayan göreve bağlı olmayan nesnelerden yanıltıcı olma olasılığını azaltır. Modelimiz, insan bakışını süpervizyon olarak kullanarak dikkat haritalarını öğrenen I3D tabanlı bir mimaridir. Ayrıca, 3B kıvrımlarla ardışık video karelerinin dizilerinden uzay-zamansal özellikleri öğrenir. İlk olarak, GTEA Gaze [8] ve GTEA Gaze+ [9] veri kümelerinde eğitilmiş bir görsel belirginlik bakış tahmin modeli [7] kullanarak JIGSAWS veri kümesindeki videoların her karesi için bakış noktalarını tahmin ediyoruz. Daha sonra, Lu ve diğerleri [6] tarafından önerilen, bakış bilgileriyle görsel belirginliği öğrenen dikkat modülünü cerrahi aktivite tanıma için I3D modelimize dahil ediyoruz. Mekansal-zamansal dikkat modülü, 3B kıvrımlara sahip Inception bloklarından oluşur ve insan bakışı bilgisi ile uzamsal-zamansal dikkati süpervizyon olarak öğrenir [6]. Modelimizi, herkesin erişebileceği bir cerrahi video anlama veri kümesi olan JIGSAWS veri kümesinin Dikiş görevi üzerinde değerlendirdik. Modelimiz, bu görevde %85,4 doğruluk oranıyla son teknoloji modellerden daha iyi performans gösteriyor. Bildiğimiz kadarıyla, bir dikkat modülüyle insan bakışını kullanmayı ve bunu cerrahi aktivite tanıma için bir I3D modeline dahil etmeyi öneren ilk biziz. İlgili Çalışmalar Bu bölümde, cerrahi aktivite tanıma ve bakışla görsel dikkati ele alan önceki çalışmaları gözden geçiriyoruz. a) Cerrahi aktivite tanıma Otomatik cerrahi aktivite tanıma, aktif bir araştırma alanıdır. Bu ilginç araştırma problemi üzerinde çok sayıda araştırma yapılmıştır ve toplum tarafından geniş çapta ele alınmaktadır. Bu çalışmalar, faz tanımadan [10] ayrıntılı jest ve aktivite tanıma ve segmentasyona kadar uzanır. İlk yaklaşımlar istatistiklere ve denetimsiz öğrenme yöntemlerine dayanıyordu. Örneğin, cerrahi hareketleri tanımak ve segmentlere ayırmak için Gizli Markov Modelleri (HMM) kullanılmıştır [11, 24]. Koşullu Rastgele Alanlar (CRF'ler) de cerrahi patern tanıma için kullanılmıştır [12]. Speidel ve ark. [11], minimal invaziv cerrahilerde bağlama duyarlı yardım için cerrahi aletlerin hareketini modelleyerek cerrahi becerileri tanımak için Gizli Markov Modellerinin (HMM) kullanılmasını önerdi. Varadarajan ve ark. [24] cerrahi videolarda otomatik beceri değerlendirmesi için Gizli Markov Modellerini (HMM) kullanır. Da Vinci Cerrahi Sistemi ile kaydedilen kinematik verileri kullanarak cerrahi hareketleri tanır ve segmentlere ayırırlar. Tao ve ark. [12] eklem segmentasyonu ve cerrahi hareketlerin tanınması için hem kinematik hem de video ipuçlarını kullanan birleştirilmiş Markov/yarı-Markov Koşullu Rastgele Alan (MsM-CRF) modelini kullandı. Bu iki bileşeni modellerinde birleştirmenin hem video hem de kinematik verilerde en yüksek doğrulukta sonuçlara ulaştığını gösteriyorlar. Kombine MsM-CRF modeli ile Dikiş Atma, İğne Geçirme ve Düğüm Bağlama adlı üç farklı cerrahi görevde üstün sonuçlar elde ettiler. Gao ve ark. [1], cerrahi videolardaki cerrahi hareketleri tanımak ve sınıflandırmak için pekiştirmeli öğrenme ve ağaç arama algoritmalarının kullanılmasını önerdi. Cerrahi hareketleri insan benzeri bir şekilde sınıflandırmayı ve segmentlere ayırmayı öğrenen yeni bir çerçeveye dayanan bir ajan yetiştiriyorlar. Çerçevelerini insan benzeri bir aracı yapan şey, hem değer hem de politika ağlarından yararlanmalarıdır. Bu ağlar, her zaman damgasında en iyi kararları üretmek için birlikte çalışır. Önerilen yöntem, mevcut video kareleri için tahminler üretmek için gelecekteki kareleri hesaba katar. Yaklaşımlarını, %81,67'lik bir ortalama doğruluk elde ettikleri JIGSAWS veri kümesinin Dikiş görevine ilişkin olarak değerlendirirler. Liu ve ark. [13] cerrahi jest tanıma ve segmentasyon problemini sürekli bir karar verme süreci olarak görüyorlar ve insan benzeri karar verme özelliklerine sahip derin pekiştirmeli öğrenmeye dayalı akıllı bir ajan kullanmayı önerdiler. Önerilen yaklaşımla, aracı görsel cerrahi verileri gözden geçirir ve cerrahi hareketleri sürekli olarak sınıflandırır ve gelecekteki ödülleri en üst düzeye çıkarmak için politikalarını günceller. Ayrıca, bunları aracı için durum temsilleri olarak kullanmak için Temporal Convolutional Networks (TCN) ile hiyerarşik özellikleri öğrenirler. Yaklaşımlarını halka açık JIGSAWS cerrahi video veri seti üzerinde değerlendirdiler ve %87,96 düzenleme puanı ile %81,40 ortalama doğruluk elde ettiler. Son zamanlarda, cerrahi jest tanıma sorunu için derin öğrenme modelleri geniş çapta benimsenmiştir. Jin ve ark. [25], cerrahi videolarda cerrahi iş akışını otomatik olarak tanımak için bir tekrarlayan evrişimsel ağ (SV-RCNet) oluşturmak için bir konvolüsyonel sinir ağı (CNN) ve bir tekrarlayan sinir ağını (RNN) entegre etmeyi önerdi. Önerilen model, cerrahi videolardan hem mekansal hem de zamansal özellikleri ortaklaşa öğrenir. Video karelerinden görsel özellikleri çıkarmak için bir Resnet-50 kullanılırken, görsel verilerin zamansal dinamiklerini öğrenmek için uzun bir kısa süreli bellek (LSTM) modeli kullanılır. Her iki veri setinde de üstün sonuçlar elde ettikleri MICCAI 2016 Modeling and Monitoring of Computer Assisted Interventions Workflow Challenge ve Cholec80 veri setlerinde SV-RCNet'in etkinliğini değerlendirdiler. Ziya ve ark. [27] robot yardımlı radikal prostatektomilerden elde edilen cerrahi videoları tanımak için Inception-V3 mimarisinin değiştirilmiş bir versiyonuna dayanan bir RP-Net kullanmayı önerdi. Önerilen sistem iki bileşenden oluşmaktadır: Sistem verileri ve Video veri modelleri. Aktivite tanıma için alet hareketinden zamansal dinamikleri öğrenmek için birden fazla RNN kullandılar. Inception-V3 ağı, video verilerinden görsel özellikleri çıkarmak için de kullanılır. VGG ve Resnet modelleri de dahil olmak üzere diğer CNN mimarileri türlerini kullandıklarını belirtmek de çok önemlidir. Robot yardımlı radikal prostatektomi videoları üzerinde yaptıkları deneylerde ortalama %80,9 kesinlik elde edildi. DiPietro ve ark. [14], cerrahi hareketleri sınıflandırmak ve tanımak için JIGSAWS veri setinin kinematik verileriyle, özellikle uzun kısa süreli bellek modeli (LSTM) olmak üzere tekrarlayan bir sinir ağı (RNN) eğitmeyi önerdi. Bu çalışmada, jest etiketlerini doğru bir şekilde tahmin etmek için Da Vinci Surgical System ile kaydedilen Kinematik verilerden yararlanıyorlar. Önerilen model, etkili aktivite tanıma için robot kinematiği ile cerrahi jestleri ve aktiviteleri haritalar. Standartlaştırılmış Bir Kullanıcıyı Dışarıda Bırak (LOUO) deney şemasını izleyerek JIGSAWS verilerinin Dikiş görevine ilişkin yaklaşımlarını değerlendirdiler ve %83,3'lük bir ortalama doğruluk elde ettiler. Benzer şekilde, yöntemlerini MISTIC-SL veri seti üzerinde değerlendirdiler ve ortalama %89,5 doğruluk elde ettiler. Zhang ve ark. [16], cerrahi videolardaki hareketleri tanımak için bağımsız olarak bir Çift Yönlü Çok Katmanlı RNN (BML-indRNN) modeli önerdi. Cerrahi video verilerinden uzamsal özellikleri çıkarmak için bir Derin Evrişimli Sinir Ağı (DCNN) kullanılırken, cerrahi aktiviteleri doğru bir şekilde tanımak için zamansal bağımlılıkları birlikte öğrenmek için bir RNN modeli kullanılır. Cerrahi video karelerindeki önemli bilgileri korurken görsel özellikleri sorunsuz bir şekilde öğrenmek için bir VGG16 modeli kullandılar. Öğrenilen özellikler daha sonra jest tanıma için bir RNN ağına iletilir. Tahmin edilen sonuçları daha fazla açıklanabilir ve yorumlanabilir kılmak için Gradyan ağırlıklı Sınıf Aktivasyon Haritası (Grad-CAM) kullandılar ve VGG16'nın son kıvrımlı katmanından ısı haritaları oluşturdular. JIGSAWS veri kümesinin Dikiş görevi üzerindeki deneyler, ortalama %87,1 doğruluk göstermektedir. Amsterdam ve ark. [28], cerrahi aktivite tanıma ve öğrenme görevi ilerleme için kinematik verilerden oldukça ayırt edici özellikler çıkaran çok görevli bir tekrarlayan sinir ağı önerdi. Cerrahi aktiviteyi ve ilerlemeyi birlikte öğrenmek için JIGSAWS veri setinin Kinematik verileriyle çift yönlü uzun kısa süreli bellek (LSTM) eğitildi. JIGSAWS veri seti üzerindeki deneyler, ortalama %85,5 doğruluk göstermektedir. B. Zhang ve ark. [37] cerrahi iş akışı tanıma için uzamsal ve zamansal özellikleri çıkarmak için tam evrişimli bir ağ (FCN) ve bir transformatör modeli eğitti. Önerilen yaklaşım iki ana bileşenden oluşur: cerrahi video segmentlerinden görsel özellikleri çıkaran bir özellik çıkarma modülü ve özellik çıkarıcı tarafından cerrahi video segmentlerinden öğrenilen özellikleri birleştirerek cerrahi iş akışlarını tanıyan bir cerrahi iş akışı segmentasyon modülü. Özellik çıkarma ağı, cerrahi video kliplerden uzay-zamansal özellikleri çıkarmak için ResNet mimarisini kullanan tamamen evrişimli bir ağdır. Etkinlik segmentasyon ağı için, üç farklı ağ üzerinde deney yaptılar: tam evrişimli ağ, tam trafo ağı ve tamamen evrişimli ve tam trafo ağlarından oluşan bir hibrit ağ. Önerilen yaklaşım, Gastrik Bypass ameliyatı sırasında çekilen endoskopik cerrahi videolarda değerlendirilir. Czempiel et al. [38] cerrahi aşama tanıma için cerrahi videolardan uzamsal ve zamansal özellikleri ortaklaşa öğrenen iki modülden oluşan çok aşamalı bir zamansal evrişim ağı önerdi. Önerilen yöntemin iki ana alt modülü vardır: bir özellik çıkarma modülü ve zamansal modül. Özellik çıkarma modülü, ResNet-50 mimarisine dayalıdır ve veri setinin temel-gerçek etiketleriyle cerrahi video karelerinden hem yüksek hem de düşük seviyeli uzamsal özellikleri çıkarır ve öğrenir. Zamansal modül, zamansal evrişim ağına (TCN) dayanır ve video kareleri yığınlarından zamansal dinamikleri çıkarır. Görsel çıkarıcı tarafından çıkarılan görsel özellikler, çok aşamalı ağın zamansal modülüne girdi olarak beslenir. Önerilen yaklaşım, kamuya açık iki farklı laparoskopik kolesistektomi prosedürü veri seti üzerinde denenmiştir. Sarıkaya ve ark. [15] cerrahi hareket tanıma için cerrahi videolarda cerrahi aletlerin uzay-zaman grafik temsillerini öğrenen bir uzay-zaman grafiği evrişim ağı (ST-GCN) kullanmayı önerdi. İlk önce bitişik video karelerinden cerrahi aletlerin uzamsal grafik çizimlerini modelliyorlar. Daha sonra, bir uzaysal-zamansal grafik evrişim ağı (ST-GCN) ile grafik temsilini öğrenirler. Önerilen yöntem, cerrahi aktiviteleri tanımak için çerçeve arka planına dayanmadığı için, farklı veri kümelerinde model performansının genellenebilirliğinde önemli bir gelişme önerir. Yaklaşımlarını JIGSAWS veri kümesinin Dikiş görevi üzerinde denediler ve %68'lik bir ortalama doğruluk elde ettiler. Park ve ark. [39] mevcut ve gelecekteki çerçevelerde cerrahi aktivite tanıma için nesne manipülasyonunu modellemeyi önerdi. Önce her zaman damgasında, cerrahi hareket tanıma için bir LSTM mimarisine dayanan ana aktivite tanıma ağı tarafından kullanılacak cerrahi araçları algılarlar. Cerrahi aletlerin algılanması için, FlowNet olarak bilinen önceden eğitilmiş yoğun akışlı görüntü çıkarma modeliyle cerrahi videolardan yoğun optik akış görüntüleri oluştururlar. Ardından, alet tespiti için önceden eğitim gerektirmeyen Basit Doğrusal Yinelemeli Kümeleme (SLIC) kullanan bir çevrimiçi cerrahi alet algılama mekanizmasıyla oluşturulan akış görüntülerinden cerrahi aletleri tespit ederler. Önerilen araç algılama yaklaşımı, tüm video karesinde bulunan tüm cerrahi araçları algılayabilir. Oluşturulan akış görüntülerinden cerrahi araçlar çıkarıldıktan sonra, cerrahi hareket tanıma için uzamsal özellikler daha da çıkarılır. Çerçevenin önceki bölümlerinden bir özellik vektörü çıktısı, geçerli zaman damgasında cerrahi hareketleri tanımak için zamansal bağımlılıkları daha fazla öğrenmek için eğitilmiş BiLSTM tabanlı bir kodlayıcı kod çözücü ağına beslenir. Gelecekteki görünmeyen karelerdeki hareketleri tahmin etmek için çerçeveye ek bir LSTM modeli eklenir. Önerilen yöntem, JIGSAWS veri setinin Sütürleme görevinde test edilmiş ve %79.7'lik bir ortalama doğruluk elde edilmiştir. Dipietro ve ark. [29] cerrahi hareketleri segmentlere ayırmak ve sınıflandırmak için dört farklı RNN modeli kullanmayı önerdi. Basit RNN'ler, LSTM'ler, kapılı tekrarlayan birimler ve karışık geçmiş RNN'leri ile deneyler yaptılar. RNN modelleri için girdi olarak JIGSAWS veri setinin kinematik verilerini kullandılar ve yaklaşımlarının etkinliğini hem JIGSAWS hem de MISTIC-SL veri setlerinde gösterdiler. Funke ve ark. [30] cerrahi beceri sınıflandırması için I3D ConvNets kullanılmasını önerdi. Önerilen 3B CNN, cerrahi robotik sistemlerle kaydedilen kinematik verilere ihtiyaç duymadan cerrahi video karelerinin yığınlarından uzamsal ve zamansal özellikleri öğrenir. I3D ConvNet, giriş olarak kısa video parçacıkları alarak cerrahi video segmentlerini sınıflandıran Temporal Segment Network'e (TSN) genişletildi. Yaklaşımlarını JIGSAWS veri setinde yer alan cerrahi videolar üzerinde değerlendirdiler. Sarıkaya ve ark. [34], cerrahi aktivite tanıma için yoğun bir optik akış girişi olan bir ConvNet modeli kullanmayı önerdi. Önerilen yaklaşım, yoğun optik akış bilgisinden ve hareket ipuçlarından cerrahi görevleri ve hareketleri öğrenir. Önerilen yöntemi JIGSAWS veri seti üzerinde değerlendirdiler. Rossi ve ark. [35], cerrahi jest tanıma için sorunsuz bir şekilde çalışan iki alt bileşenden oluşan çok modlu bir derin öğrenme modeli önerdi. Önerilen yaklaşımın ilk kısmı Uzamsal-Kinematik Ağ olarak adlandırılır ve cerrahi video çerçevelerinden ve robot kinematiğinden uzamsal özellikleri çıkarmak için kullanılır. Uzamsal ağ, ardışık video karelerinden ve kinematik verilerden görsel temsilleri etkili bir şekilde öğrenebilen bir ResNet-101 modelidir. Yaklaşımın ikinci kısmı, zamansal özellikleri öğrenen ve cerrahi video ile kinematik girdiyi sınıflandıran bir Geçici Evrişim Ağıdır (TCN). Önerilen yöntem, JIGSAWS veri setinin Dikiş görevinde test edilmiş ve %81,71'lik bir ortalama doğruluk elde edilmiştir. 3D CNN'lerin yükselişinden ve ardışık video karelerinden hem görsel hem de zaman serisi verileri çıkarma konusundaki olağanüstü yeteneklerinden ilham alan Ding ve ark. [36] cerrahi aşama tanıma için cerrahi videolardan uzamsal ve zamansal özellikleri ortaklaşa öğrenen iki akışlı bir ağ kullanmayı önerdi. Two-Stream Mixed Convolutional Network (TsMCNet) olarak adlandırılan önerilen model, cerrahi video karelerinden uzay-zamansal özellikleri öğrenir ve hangi cerrahi fazın gerçekleştiğini tanır. TsMCNet modeli üç ana bileşenden oluşur: Görsel temsilleri öğrenmek için Paylaşılan CNN'ler, uzamsal özellikleri çıkarmak için Görsel Dal ve zamansal özellikleri öğrenmek için Zamansal Dal. Önerilen yöntem, MICCAI 2016 Workflow Challenge'dan alınan ve halka açık bir veri kümesi üzerinde değerlendirildi ve umut verici sonuçlar elde edildi. Funke ve ark. [2] cerrahi aktivite tanıma için video kare yığınlarından uzay-zamansal özellikleri öğrenen bir 3D CNN modeli kullanmayı önerdi. Uzamsal ve zamansal özellikleri ayrı ayrı çıkarmak yerine, önerilen 3B CNN modeli aynı anda hacimsel video karelerinden uzaysal-zamansal dinamikleri öğrenir. Modelleri, ResNet-18 mimarisinin 3B versiyonuna dayanmaktadır ve girdi olarak 16 ardışık kare almaktadır. Yöntemlerini, %84,3'lük bir ortalama doğruluk elde ettikleri JIGSAWS veri setinin Dikiş görevi üzerinde değerlendirdiler. b) Eylem tanıma için dikkat modelleri Sudhakaran ve ark. [19], benmerkezci aktivite tanıma için gerçekleştirilen görevle ilgili son derece alakalı nesnelere seçici olarak odaklanmak için bir derin öğrenme modeline rehberlik eden uzamsal dikkatten yararlanmayı önerdi. Önerilen yaklaşım, bir Evrişimsel Sinir Ağı (CNN) ile dikkat haritalarının yanı sıra uzamsal özellikleri de öğrenir. Imagenet veri setinde önceden eğitilmiş bir ResNet-34 ile GTEA ve EGMEA Gaze+ veri setlerinde bulunan videoların her karesi için Sınıf Aktivasyon Haritaları (CAM'ler) üretirler. Oluşturulan dikkat haritaları daha sonra zamansal özellikleri öğrenmek için bir convLSTM ağına geçirilir. Önerilen yöntem, GTEA veri setinin farklı varyantları üzerinde değerlendirilmiş ve rekabetçi sonuçlar elde edilmiştir. Du ve ark. [20], videolarda eylem tanıma için yeni bir Tekrarlayan Mekânsal Zamansal Dikkat Ağı (RSTAN) oluşturmak için tekrarlayan bir sinir ağına bir dikkat mekanizması dahil etmeyi önerdi. Önerilen dikkat modülü, tek tek video kareleri için dikkat haritaları oluşturmak yerine, her bir zaman damgasının küresel bağlamı için dikkat dağılımını tahmin eder. Harekete dayalı Uzun Kısa Süreli Bellek (LSTM), videolardan uzamsal-zamansal özellikleri ortaklaşa optimize etmek için uzaysal bir LSTM ile birleştirilir. Aktörleri öğrenen ve ağın, eylemlerin gerçekleşebileceği görsel girdinin oldukça alakalı bölgelerine odaklanmasına yardımcı olan başka bir dikkat modülü ağa entegre edilmiştir. Önerilen yaklaşım UCF101, HMDB51 ve JHMDB veri kümelerinde gösterilmiştir. Lu ve ark. [6] benmerkezci eylem tanıma için süpervizyon olarak insan bakışıyla dikkat haritalarını öğrenen bir uzay-zamansal dikkat modülü önerdi. Önerilen uzay-zamansal dikkat modülü, daha iyi eylem tanıma için ağın görsel verilerin ilgili ve uzamsal bölgelerine odaklanmasına yardımcı olmak için her zaman damgasında dikkat haritalarını tahmin etmek için Başlangıç blokları ve evrişim katmanlarından oluşur. Modül, model eğitimi sırasında insan bakışı bilgilerini temel gerçeklik verileri olarak kullanır ve eylem tanıma sürecini kolaylaştıracak daha bilgilendirici dikkat haritaları oluşturur. Modül, iki farklı akışla uzamsal ve zamansal özellikleri öğrenen iki akışlı bir I3D mimarisine dahil edilmiştir. İki akışlı I3D ağının her akışı, modelin yalnızca yürütülen faaliyetlerle ilgili görüntülerin bölgelerine odaklanmasına yardımcı olmak için bir dikkat modülü ile güçlendirilir. Önerilen yaklaşım, EGMEA Gaze+ veri kümesi üzerinde değerlendirildi ve ilgili en son yöntemlerden daha iyi performans göstererek %68.60'lık bir ortalama doğruluk elde etti. Huang ve ark. [21] benmerkezci aktivite tanıma için bakış tahmini ve eylem tanımayı ortaklaşa öğrenen Karşılıklı Bağlam Ağı (MCN) olarak adlandırılan bir derin öğrenme çerçevesi önerdi. Önerilen yaklaşım, aksiyon videolarından hareketle ilgili bakış pozisyonlarını tahmin etmeyi öğrenir ve tahmini bakış noktaları üretir. Ayrıca, bakış konumlarını tahmin etmek için görüntülerde göze çarpan ve oldukça ayırt edilebilir bölgeleri öğrenirler. Oluşturulan bakış noktaları daha sonra eylem tanıma için iki akışlı bir I3D omurga ağı tarafından kullanılır. Yöntemlerini, kamuya açık iki veri kümesi olan GTEA Gaze+ ve EGTEA üzerinde değerlendirdiler ve son teknoloji ürünü bir performans elde ettiler. Min ve ark. [22] benmerkezci eylem tanıma için insan bakışını uzam-zamansal dikkat ile olasılıksal olarak bütünleştirmeyi önerdi. Belirsizliklerini ve dağılımlarını modellemek için görüntülerdeki bakış konumlarını ayrı gizli değişkenler olarak temsil ederler. Modellenmiş bakış dağılımı, iki akışlı I3D mimarisine dayanan omurga ağının, etkili eylem tanıma için görsel girdinin bu oldukça ilgili bölgelerine odaklanmasına yardımcı olmak için kullanılır. Yaklaşımlarının etkinliğini EGTEA veri kümesi üzerinde değerlendirdiler ve son teknoloji yöntemleri büyük bir farkla geride bırakarak %64,81'lik bir ortalama doğruluk elde ettiler. Veri Kümesi Önerilen modelimizi değerlendirmek için JIGSAWS veri setini kullanıyoruz. Ayrıca bakış için GTEA Gaze ve GTEA Gaze+ veri setini kullanıyoruz. a) JIGSAWS veri kümesi JHU-ISI Jest ve Beceri Değerlendirme Çalışma Seti (JIGSAWS) [23] Da Vinci Cerrahi Sistemi ile kaydedilen, halka açık bir cerrahi aktivite veri setidir ve insan hareketi modellemesi için tasarlanmıştır. The Johns Hopkins University (JHU) ve Intuitive Surgical, Inc. (Sunnyvale, CA. ISI) arasındaki bir işbirliği ile toplanmıştır [23]. Bu veri seti, Da Vinci Cerrahi Sisteminin endoskopik kamerası ile elde edilen cerrahi videoların kayıtlarını içerir [23]. JIGSAWS veri seti üç ana bileşen içerir: robot manipülatörlerinin yönü ve hızı olan kinematik veriler, video verileri ve manuel açıklamalar. Video verilerinde cerrahi görevleri yerine getiren 8 farklı cerraha ait 39 video bulunmaktadır. Cerrahlar, Da Vinci Cerrahi Sisteminde farklı cerrahi beceri seviyelerine sahiptir. Bu veri setinde üç ana cerrahi görev vardır: Dikiş Atma, İğne Geçirme ve Düğüm Bağlama. JIGSAWS veri setinin ilk görevi Sütürleme görevidir. Bu görevde, cerrah iğneyi alır ve siyah noktadan siyah noktanın diğer tarafına doku boyunca iter ve iğneyi tüm insizyonlardan itmeyi bitirene kadar birkaç kez tekrarlar. İğne geçirme görevinde denek bir iğne alır ve soldan sağa doğru dört metal çemberin içinden geçirir. JIGSAWS veri setinin son görevi düğüm atmaktır ve cerrah bağlı bir sütürün ucunu seçer ve tek bir ilmek düğümünü sabitler [23]. JIGSAWS veri setinde yer alan veriler {“B”,“C”,“D”,“E”,“F”,“G”,“H”,“I”} olarak indekslenen sekiz farklı denekten kaydedilir. . Deneklerin çeşitli cerrahi becerileri vardır ve hepsi sağlaktır. Tüm denekler aynı görevleri beş kez tekrarladı. Dikiş görevinde H deneğine ait eksik video bozularak kullanılamaz hale geldiği için 39 adet video bulunmaktadır. Veri seti ayrıca iğnenin konumlandırılması ve iğnenin doku içinden itilmesi gibi hareket etiketlerini de içerir. JIGSAWS veri setinin Dikiş görevinde toplam 10 farklı cerrahi hareket vardır. Veri setindeki video verileri, Da Vinci Cerrahi Sistemine monte edilmiş iki adet endoskopik kamera ile 30Hz ve 640x480 çözünürlükte kaydedilmiştir. JIGSAWS veri setinin video ve kinematik verileri, videolardaki her karenin aynı zaman damgasında karşılık gelen bir kinematik veriye sahip olacağı şekilde senkronize edilmiştir. Veri setindeki videolar, DX50 codec ile dört karakterli kod (FOURCC) formatında AVI olarak kaydedilir. JIGSAWS veri seti ayrıca jest tanıma ve beceri değerlendirme modellerini değerlendirmek için kullanılabilecek deneysel kurulumla birlikte gelir. İki çapraz doğrulama şeması vardır:  Bir Süper Deneme Dışı Bırakma (LOSO): Bu kurulum şemasında, her biri bir süper denemeye ait verilerden oluşan beş kat vardır. Eğitim için tüm denekler için i. deneme dışında tüm video dosyaları kullanılabilir. Atlanan videolar daha sonra test için kullanılacaktır.  Bir Kullanıcıyı Dışarıda Bırakma: Bu çapraz doğrulama kurulumunda, sekiz özneye ait sekiz farklı kıvrım vardır. Model, bir denek dışında tüm deneklere ait kıvrımlarla eğitilebilir. Görünmeyen deneğin videoları, modelin sağlamlığını değerlendirmek için kullanılabilir. b) Bakış veri kümesi Etkili cerrahi aktivite tanıma için spatiotemporal dikkat modülünün eğitimini yönlendirmek amacıyla insan bakışı denetimini kullanıyoruz. JIGSAWS veri kümesi kendi bakış verileriyle gelmediğinden, çerçevelerimiz için bakış konumlarını tahmin etmek için GTEA Gaze ve GTEA Gaze+ veri kümelerinde önceden eğitilmiş bir görsel belirginlik bakış tahmin modelini kullanırız. Öngörülen bakış noktaları, her zaman damgasında yer alan cerrahi faaliyetlerle tutarlıdır. GTEA Gaze ve GTEA Gaze+ veri kümeleri, giyilebilir bir kamerayla kaydedilen birinci şahıs videolarında benmerkezci faaliyetler için tasarlanmış olsa da, endoskopik kameralarla kaydedilen cerrahi videolarla önemli bir benzerlik göstermektedir. Deneylerimizde, tahmin edilen bakış konumlarının, yürütülen faaliyetlere doğru bir şekilde yansıdığını ve yalnızca bu bölgelere odaklanmanın, modelin hangi cerrahi hareketin gerçekleştiğini tanıması için yeterli olduğunu gözlemliyoruz. Bakış konumları, her karede (x, y) koordinatları olarak temsil edilir ve model eğitimi sırasında kullanılır. Bakış konumları, uzay-zamansal dikkat modülünün dikkat dağılımını öğrenmesi ve dikkat haritaları oluşturması için çok önemlidir. Bakış noktalarının yalnızca eğitim aşamasında kullanıldığını unutmayın. Önerilen Yöntem Bu bölümde, cerrahi aktivite tanıma için önerilen yöntemimizden bahsedeceğiz. Yaklaşımımız, cerrahi aktiviteleri tanımak için bir dikkat modülünü içeren bir I3D mimarisine dayanmaktadır. a) Spatiotemporal dikkat modülü Modelimiz, 3B kıvrımlarla uzaysal-zamansal özellikleri öğrenen I3D tabanlı bir mimaridir. Ek olarak, Lu ve diğerleri tarafından önerilen uzamsal-zamansal dikkat modülünü kullanıyoruz. [6]. Spatiotemporal dikkat modülü, cerrahi aktiviteleri tanımak için ağın video karelerinin ilgili bölümlerine seçici olarak odaklanmasına yardımcı olmak için dikkat haritalarını öğrenir. İnsan bakışı bilgisi, dikkat haritalarını öğrenmek için süpervizyon olarak kullanılır. Spatiotemporal dikkat modülünü cerrahi aktivite tanıma için kullanmak için, önce GTEA Gaze ve GTEA Gaze+ veri setleri üzerinde eğitilmiş bir görsel belirginlik tahmin modeli ile JIGSAWS veri setindeki videoların her karesi için bakış noktalarını tahmin ediyoruz. GTEA Gaze ve GTEA Gaze+ benmerkezci videolarda hareket tanıma için tasarlanmış olsalar da, endoskopik kamerayla kaydedilen cerrahi etkinliklere benzerler. Bu nedenle cerrahi aktivite videolarının modelle tahmin edilen insan bakışıyla uyumlu olduğunu gözlemliyoruz. JIGSAWS veri setinden cerrahi video kareleri için tahmini bakış noktalarına dayanan dikkat haritalarını gösteriyoruz. Spatiotemporal dikkat modülü, 3B Inception modülü ve 3B kıvrımlardan oluşur. Özellik haritalarını girdi olarak alır ve dikkat haritalarını çıkarır. Öngörülen dikkat haritaları, hareket tanımayı kolaylaştıran daha alakalı özellik haritaları üretmek için giriş özellik haritalarıyla birleştirilir. Oluşturulan dikkat haritaları, modelimizin gerçekte odaklandığı bölgeleri göstermektedir ve bu bölgelerin gerçekleştirilen faaliyetlerle ilgili olduğu görülebilir. Oluşturulan özellik haritalarına daha yüksek ağırlıklar verilir ve cerrahi aktivite tanıma için ağdaki sonraki katmanlara girdi olarak kullanılır. b) Ağ mimarisi Şişirilmiş 3D ConvNet (I3D ConvNet) fikri ilk olarak [18] tarafından önerildi ve bu mimariyi, kendi eşdeğer 3D CNN ağlarını oluşturmak için derin 2D CNN modellerinin filtrelerini ve çekirdeklerini bir araya getirerek oluşturdular. Şişirildikten sonra oluşturulan 3B CNN mimarisi üçüncü bir boyuta, yani zamana sahiptir. 2B CNN'ler N x N boyutlarında filtrelere ve havuzlama çekirdeklerine sahipken, şişirilmiş 3B CNN'lerin N x N x N boyutlarına sahiptir, bu da onlara videolardan uzamsal ve zamansal özellikler çıkarma yeteneği verir [18]. [18]'in yazarları, önceden eğitilmiş bir 2B CNN modelinden 3B'yi önyüklerler ve 3B CNN uygulamaları için ImageNet veri kümesi gibi çok büyük veri kümeleri üzerinde eğitilmiş bu önceden eğitilmiş 2B CNN modellerinin parametrelerini kullandılar. Bunu bir perspektife oturtmak için, zamansal boyut boyunca 2B filtrelerin ağırlıklarını N kez tekrarlarlar ve ardından N kez bölerek onları yeniden ölçeklendirirler [18]. Bu işlemin doğruluğunu sağlamak için, ortalama ve maksimum havuzlama filtreleri, 3B CNN için 2B CNN'dekilerle aynı tutulur. I3D modeli için gerekli olan bir başka değişiklik, evrişim ve havuz katmanlarındaki alıcı alandır. Derin öğrenme modellerindeki alıcı alan, giriş görüntüsünün evrişim işlemi sırasında her seferinde bir filtre tarafından görülebilen kısmıdır ve biz daha fazla gizli katman istifledikçe büyür. 2B CNN'lerde, evrişim filtreleri ve havuzlama çekirdekleri, 2B girdinin yüksekliğine ve genişliğine odaklanır. Sonuç olarak, filtreleri ve havuz çekirdekleri simetriktir. Ancak, bu durumda zaman olan üçüncü boyutun eklenmesi, evrişim filtrelerini ve havuz çekirdeklerini asimetrik hale getirir. 3D CNN'lerin asimetrik yapısı, video kare yığınlarından uzamsal-zamansal özelliklerin yakalanmasını kolaylaştırır. Etkinlik tanıma modelimiz, eylem tanıma görevleri için yaygın olarak kullanılan popüler I3D mimarisine dayanmaktadır. I3D modeli, Inception-V1'i bir 3D CNN olacak şekilde genişletiyor. Bu çalışmada, I3D tabanlı modelimiz girdi olarak RGB video karelerinin dizilerini kullanır ve 3D kıvrımlarla uzay-zamansal özellikleri öğrenir. Görsel dikkat dağılımını daha fazla öğrenmek için, bu modele bir uzaysal-zamansal dikkat modülü dahil edilmiştir. Spatiotemporal dikkat modülü, dikkat haritalarını tahmin eder ve daha sonra özellik haritalarını ağırlıklı ortalama bir havuzda toplamak için kullanılan dikkat dağılımını öğrenir. c) Görsel belirginlik bakış tahmin modeli Spatiotemporal dikkat modülümüz, özellik haritalarından dikkat dağılımını öğrenir ve denetim olarak insan bakışı bilgilerini kullanır. JIGSAWS veri kümesi her video karesi için bakış bilgisi içermediğinden, JIGSAWS veri kümesinin Dikiş görevinde yer alan videoların her bir karesi için (x, y) koordinatları olarak temsil edilen bakış konumlarını tahmin ediyoruz ve eğitiyoruz. Bu tahmin edilen bakış noktalarına sahip dikkat modülü. Dikkat modülü, model eğitimi sırasında bakış bilgilerini süpervizyon olarak kullanır. JIGSAWS videoları için bakış konumlarını tahmin etmek için [7] tarafından önerilen bir görsel belirginlik bakış tahmin modelini devreye soktuk. Görsel belirginlik, görüntülerin insan dikkatini çekme ve bakışlara odaklanma olasılığı yüksek olan kısımlarını hesaplamalı olarak ölçmenin bir yoludur. Önerilen model, girdi olarak ardışık video kareleri alır ve aşağıdan yukarıya görsel belirginlikten yararlanarak her kare için bir bakış noktası tahmin etmeyi amaçlar. [7]'nin yazarları ayrıca göreve bağlı insan bakışını tahmin etmek için dikkat geçişini kullanmayı önerdiler. JIGSAWS veri seti için bakış konumlarını tahmin etmek için sadece göze çarpan bakış tahmin modülünü kullandık. Orijinal model RGB ve akış görüntülerini yan yana kabul edecek şekilde tasarlandı, ancak deneylerimiz için modelin yalnızca RGB akışını kullandık. RGB çerçeveleri için bakış noktalarını tahmin etmek için, özellikler kodlama modülündeki bir Uzamsal Evrişimli Sinir Ağı (S-CNN), görüntülerden gizli temsilleri çıkarmak için kullanılır. Yoğun optik akış görüntü yığınlarından gizli temsilleri çıkarmak için bir Zamansal Evrişimli Sinir Ağı (T-CNN) de kullanılır. Belirginlik tahmin modülü, çıkarılan gizli temsillerden her video karesi için bir belirginlik haritası oluşturur. Sonuç olarak, görsel belirginlik tahmin modülü, gizli temsilleri girdi olarak alır ve bir bakış haritasını ve 3B evrişim ve havuzlama katmanlarıyla görsel belirginliği tahmin eder. d) Kinetics veri seti Kinetik veri seti, 600 farklı insan eylemi sınıfına ait yüksek kaliteli kısa klipleri içeren büyük ölçekli bir insan hareketi tanıma veri setidir [59]. Her video klip yaklaşık 10 saniye sürer ve tek bir sınıf olarak etiketlenir [59]. Veri seti temel olarak insan eylemi tanıma için derin öğrenme modellerini eğitmek ve değerlendirmek için kullanılır. Videoların çoğu Youtube'dan indirilmiştir ve farklı kalite ve kare hızlarına sahiptir [59]. I3D tabanlı mimarimiz, 3D CNN'lerin küçük veri kümeleriyle eğitilmesinin zor olması nedeniyle bu veri kümesi üzerinde önceden eğitildi. Bu nedenle, uygun bir ağ parametresi başlatmasından model eğitimine başlamak, daha iyi model performansı için son derece önemlidir ve Kinetik veri kümesinin kullanışlı olduğu yer burasıdır. Ağımızı önceden eğitilmiş bir I3D modelinin ağırlıklarıyla başlattık ve cerrahi hareket tanıma için veri kümemizde daha da eğittik. Deneyler Bu bölümde, önerilen yaklaşım üzerinde yapılan deneyleri sunuyoruz. Ayrıca, ilgili son teknoloji yaklaşımlar üzerinde yapılan deneyleri de kendi yöntemimizle karşılaştırmak adına dahil ediyoruz. a) 2D CNN eğitimi Tek tek kareleri sınıflandırmak için cerrahi video kareleri üzerinde eğitim veren bir 2D CNN mimarisi geliştirdik. İlk önce JIGSAWS veri setinin Dikiş görevindeki her videodan tüm kareleri çıkardık. Daha sonra hiperparametre ayarı için GridSearch algoritmasını kullandık. Ayrıca görüntüleri yatay olarak döndürdüğümüz ve rastgele çevirdiğimiz veri büyütme gerçekleştirdik. Optimal hiperparametreleri bulduktan sonra, modeli Adam optimizer ve 0,001 başlangıç öğrenme oranı ile 10 dönem için eğittik. Çapraz doğrulama için standartlaştırılmış Bir Kullanıcıyı Dışarıda Bırak (LOUO) deneysel kurulumunu izledik. Ayrıca model doğruluğu ve kayıp grafikleri de sunuyoruz. 2D CNN'nin cerrahi video kareleri üzerindeki performansını daha da artırmak için, Imagenet veri setinde önceden eğitilmiş bir ResNet-18 ağını JIGSAWS video kareleriyle eğiterek bir transfer öğrenme tekniği benimsedik. Yine modeli optimize etmek için veri büyütme ve hiperparametre ayarlaması yaptık. Bu modeli 10 dönem için eğittik ve benzer şekilde LOUO deneysel kurulumunu takip ettik. b) 3D CNN eğitimi Modelimizin performans sonuçlarını makale [2]'de bildirilen sonuçlarla karşılaştırıyoruz. Cerrahi hareket tanıma için bir 3D ResNet-18 ile cerrahi video karelerinin yığınlarından uzamsal-zamansal özellikleri öğrenmeyi önerdiler. Temel bir deney olarak, onların 3D CNN kodunu çalıştırdık. Tek tek kareleri ve video segmentlerini sınıflandırırken modellerin nereye odaklandığını yakından analiz etmek ve görselleştirmek için Gradyan Ağırlıklı Sınıf Aktivasyon Haritalarını (Grad-CAM) kullandık ve cerrahi hareket tanımanın kalitatif analizi için dikkat haritaları oluşturduk. Ayrıca, 2B CNN modelimiz ve [2]'de önerilen 3B CNN'den oluşturulan dikkat haritalarını da sunuyoruz. c) Dikkat modülünü içeren I3D modelinin eğitimi I3D modelimizi, karşılık gelen gerçek-gerçeği cerrahi jest etiketlerini tahmin etmek için cerrahi video segmentleriyle eğitiyoruz. Ağa giriş, 224x224 piksel çözünürlüğe sahip 16 ardışık çerçeve yığınıdır. Ayrıca video karelerini yatay olarak rastgele çevirerek veri büyütme gerçekleştiriyoruz. Mekân-zamansal dikkat modülünü eğitmek için, GTEA Bakış [8] ve GTEA Gaze+ [9] veri kümelerinde önceden eğitilmiş bir belirginlik bakışı tahmin modeli ile tahmin ettiğimiz bakış noktalarını kullanırız. Bakış konumları, video karelerine gerçekleştirilen veri büyütmeye göre rafine edilir. Imagenet ve Kinetics veri setinde [18] önceden eğitilmiş bir I3D modelinin ağırlıkları, model eğitimi sırasında ağ başlatma olarak kullanılır. Ağımızı 12 parti boyutuyla eğitiyoruz. 0,9 momentum, 0,0000007 ağırlık düşüşü ve 0,1 başlangıç öğrenme oranı ile Stokastik Gradyan Düşüşü (SGD) optimizasyon algoritmasını kullanıyoruz. 1k yinelemeden sonra öğrenme oranı 0,1 faktör azalır ve model 10 bin yineleme için eğitilmiştir. Ayrıca bırakma oranını 0,5 olarak ayarladık. Modelimizi Pytorch çerçevesi ile hayata geçirdik. Değerlendirme Modelimizi, JIGSAWS veri kümesinin Dikiş görevinde bulunan 39 videodaki tüm video parçacıkları üzerinde değerlendirdik ve çapraz doğrulama için Bir Kullanıcıyı Dışarıda Bırak (LOUO) deneysel kurulumunu kullandık. LOUO'da, bir kullanıcıya ait tüm denemeler test için dışarıda bırakılırken, kalanlar modeli eğitmek için kullanılır. Buna göre sekiz farklı cerrah için yaptığımız tüm deneylerin ortalama doğruluğunu raporluyoruz. Ayrıca, kesinlik ve hatırlamanın harmonik ortalamasını hesapladığımız Ortalama F1 puanını da rapor ederiz. Tahmini video parçacıklarının kalitesini gösteren düzenleme puanı da bildirilir. Dikiş görevinde ortalama %85,4 doğruluk elde ettik ve ilgili en son teknolojiye sahip yöntemlerden daha iyi performans gösterdik. Yaklaşımımız, uzamsal-zamansal dikkatle insan bakışını kullanmanın, ağa ilgili bölgeleri tanımlaması için rehberlik ederek model performansını büyük ölçüde geliştirdiğini ve böylece ağın cerrahi aktiviteleri daha doğru tahmin etmesine yardımcı olduğunu öne sürüyor. Ayrıca, göreve bağlı dikkati öğrenmenin, modeli dağınık arka plandan kaynaklanan potansiyel yanıltıcı durumdan kurtardığını da gösteriyoruz. Sonuçlarımızı, JIGSAWS karşılaştırmasında en son teknoloji 3D CNN yöntemleriyle karşılaştırdık. Niteliksel Analiz Yaklaşımımızın etkinliğini ve uzaysal-zamansal dikkat modülüyle insan bakışını kullanmanın gelişmiş cerrahi aktivite tanımaya nasıl katkıda bulunduğunu analiz etmek için, tahmin edilen video parçacıklarının kalitesini değerlendirmek için Levenshtein mesafesini kullanan tahmin denemelerimizin düzenleme mesafesini sunuyoruz. Yaklaşımımızın üstünlüğünü diğer son teknoloji 3D CNN yöntemleriyle karşılaştırarak gösteriyoruz. Modelimizin [2]'de önerilen 3D CNN'den çok daha iyi performans gösterdiği tahmin edilen video bölümlerinin niteliksel bir analizini gösterdik. Sınırlamalar ve Gelecekteki Çalışmalar Çalışmamızın bir sınırlaması, bazen bakış konumlarının yanıltıcı ve bilgilendirici olmamasıdır. Yer gerçeği bakış noktaları, gerçek görsel dikkat ile doğrudan ilişkili olmayabilir ve sonuç olarak modeli yanlış yönlendirebilir. Modelimizi bu soruna karşı sağlam kılmak için, göreve bağlı dikkat geçişini daha fazla öğreneceğiz. Ardışık video kareleri boyunca bakış sabitleme kaymalarındaki kalıpları keşfetmek, çalışmalarımızda gelecek vaat eden bir gelişme yönü olabilir. Tartışma ve Sonuç İnsan bakışı kalıpları ve görsel belirginlik, görsel dikkat hakkında önemli bilgiler taşır. Literatürde kabul edilen en son yöntemler cerrahi aktivite tanıma için uzay-zamansal özellikleri öğrenmesine rağmen, bunların hiçbiri görsel belirginliği ve insan bakışını kullanmaz. Çalışmamızda cerrahi aktivitelerin tanınmasında dikkat mekanizması ile insan bakışının kullanılmasını önerdik. Bunu başarmak için, insan görüşüne daha yakın dikkat haritaları oluşturmak için süpervizyon olarak insan bakışı bilgisi ile uzaysal-zamansal dikkat mekanizmasını birleştiren I3D tabanlı bir mimariye sahip bir derin öğrenme modeli kullandık. Cerrahi aktivite tanıma için spatiotemporal dikkat modülünü kullanmak için, önce GTEA Gaze [8] ve GTEA Gaze+ [9] veri kümelerinde eğitilmiş bir görsel belirginlik tahmin modeli [7] ile JIGSAWS veri kümesindeki videoların her karesi için bakış noktalarını tahmin ettik. JIGSAWS veri setinden alınan birkaç örnek video karesi için tahmini bakış noktalarına dayalı olarak oluşturulan dikkat haritalarının insan bakışıyla tutarlı olduğunu gözlemledik. GTEA Gaze [8] ve GTEA Gaze+ [9] veri setleri benmerkezci videolarda eylem tanıma için hazırlanmış olsa da endoskopik kamera ile kaydedilen cerrahi etkinliklere benzer olduklarını gözlemliyoruz. Modelimizi JIGSAWS veri setinin Sütürleme görevi üzerinde değerlendirdik ve ortalama %85,4 doğruluk gösterdik; bu, insan bakışıyla görsel dikkati öğrenmenin cerrahi aktivite tanımada model performansını büyük ölçüde geliştirdiğini gösterir. Ayrıca, model tahminlerinin kalitesini değerlendirmek için tahmin edilen video parçacıklarının niteliksel bir analizini sunuyoruz ve yöntemimizin en son teknolojiye sahip yaklaşımlara kıyasla etkinliğini gösteriyoruz.

Özet (Çeviri)

Automatically recognizing surgical activities plays an important role in providing feedback to surgeons, and is a fundamental step towards computer-aided surgical systems. Human gaze and visual saliency carry important information about visual attention, and can be used in computer vision systems. Although state-of-the-art surgical activity recognition models learn spatial and temporal features, none of these models make use of human gaze and visual saliency. In this study, we propose to use human gaze with a spatiotemporal attention mechanism for activity recognition in surgical videos. Our model consists of an I3D-based architecture and learns spatiotemporal features using 3D convolutions. It also learns attention maps and visual saliency with human gaze information as supervision. We evaluated our model on the Suturing task of JIGSAWS which is a publicly available surgical video understanding dataset. Our model outperforms state-of-the-art models with an accuracy of 85.4% in this task.

Benzer Tezler

  1. Deep learning based surgical phase recognition in laparoscopic videos

    Laparoskopik videolarda derin öğrenme tabanlı cerrahi faz tanıma

    KADİR KIRTAÇ

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN AYDIN

  2. Derin öğrenme yöntemleri kullanılarak beyin tümörü tiplerinin ve sınırlarının tahminlenmesi

    Prediction of brain tumor types and limits using deep learning methods

    MERVE PINAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ZEHRA AYSUN ALTIKARDEŞ

  3. A comprehensive dataset including force cues for gesture recognition and skills assessment in robotic surgery

    Robotik cerrahiide kuvvet ipuçları içeren kapsamlı bir veri seti hareket tanıma ve beceri değerlendirmesi

    DENİZ EKİN CANBAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NAZIM KEMAL ÜRE

    DR. ÖĞR. ÜYESİ FANNY FICUCIELLO

  4. Simülasyon ve video gösterimi yöntemlerinin hemşirelik öğrencilerinin ameliyat öncesi ve ameliyat sonrası bakım verme düzeyleri üzerine etkisi: Randomize kontrollü çalışma

    Effects of simulation and video screening methods on PRE-surgery and postoperative providing care levels of nursing students: A randomized controlled study

    HAVVA YÖNEM AMAÇ

    Doktora

    Türkçe

    Türkçe

    2022

    HemşirelikAydın Adnan Menderes Üniversitesi

    Cerrahi Hastalıkları Hemşireliği Ana Bilim Dalı

    DOÇ. DR. RAHŞAN ÇAM

  5. Akciğer kanseri cerrahi uygulama ve sonuçlarının yapay zeka uygulamaları ile risk ve başarı tahmin analizi

    Risk and success prediction analysis with artificial intelligence applications of lung cancer surgical applications and results

    GİZEM ÖZÇIBIK IŞIK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Göğüs Cerrahisiİstanbul Üniversitesi-Cerrahpaşa

    Göğüs Cerrahisi Ana Bilim Dalı

    DOÇ. DR. HASAN VOLKAN KARA