Spatialcore: efficient spatial-compositional reasoning for multi-modal visual understanding
Spatialcore: Çok modlu görsel anlayış için verimli mekansal-bileşimsel muhakeme
- Tez No: 951765
- Danışmanlar: DOÇ. DR. CEMİL ZALLUHOĞLU, DR. ÖĞR. ÜYESİ LEVENT KARACAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 53
Özet
Büyük ölçekli VLM'ler güçlü mekânsal akıl yürütme sunar ancak hesaplama açısından yüksek maliyetlidir. Küçük ölçekli VLM'ler verimliliği artırsa da sınırlı dilsel yetenekler sergiler; bu durum sol/sağ yönelimini veya nesnelerin göreli konumlarını ayırt etme gibi mekânsal akıl yürütme görevlerinde zorluk olarak kendini gösterir. Bu çalışma, verim odaklı küçük VLM'ler ile SOTA büyük VLM'ler arasındaki mekânsal akıl yürütme boşluğunu kapatmayı amaçlayan SpatialCore'u tanıtmaktadır. LocVLM gibi büyük ölçekli muadillerin aksine SpatialCore, mekânsal ipuçları, sınır kutusu (bounding-box) koordinat açıklamaları ve sözde üretilmiş segmentasyon maskeleri enjekte etmek için Düşük Dereceli Uyarlama (LoRA) yönteminden yararlanmaktadır. Omurga ağı DeepSeek 1.3B sabitlenerek yalnızca 15 M eğitilebilir düşük dereceli parametre (toplam ağırlıkların \%1,15'i; 60 MB bellek ek yükü) eklenmiş; bu sayede sınır kutusu yaklaşımı GQA kıyaslamasında \%18 performans artışı sağlarken, segmentasyon maskeleriyle zenginleştirilmiş varyant \%20 artış elde etmiştir. Ancak segmentasyon-eklentili varyant, VQAv2 üzerinde sınır kutusu versiyonuna kıyasla \%6 performans düşüşü göstermektedir. Kayda değer biçimde bu mekânsal özelleşme bir takas ortaya koymaktadır: nesne düzeyine odaklanmanın artması sahnenin bütünsel entegrasyon kapasitesini azaltmaktadır. Sınır kutusu varyantı GQA'da \%60,3 doğruluk elde ederken, segmentasyon-eklentili varyant \%62,5 doğruluğa ulaşmış; bu sonuçlar karşılaştırılabilir küçük ölçekli modelleri geride bırakmakta ve 5× daha az parametreyle 7B ölçekli SOTA LocVLM-L'in (\%63,5) performans farkının \%98'ini kapatmaktadır. Bu çalışma, hafif uyarlama yöntemlerinin küçük ve büyük ölçekli görsel-dil mimarileri arasındaki yetenek farklılıklarını etkili biçimde giderebildiğini göstermektedir.
Özet (Çeviri)
Large VLMs offer strong spatial reasoning but are computationally prohibitive. Smaller VLMs improve efficiency but exhibit limited language capabilities, manifesting as difficulties in spatial reasoning tasks like discerning left/right orientation or relative object positions. This work introduces SpatialCore, a model aiming to bridge the spatial reasoning gap between efficiency-focused small VLMs and SOTA large VLMs. Unlike large-scale counterparts (e.g., LocVLM), SpatialCore leverages Low-Rank Adaptation (LoRA) to inject spatial cues, bounding-box coordinate annotations, and pseudo-generated segmentation masks for enhancing spatial reasoning capabilities. By freezing the backbone network DeepSeek 1.3B and introducing 15M trainable low-rank parameters (1.15\% of total weights, 60MB memory overhead), the bounding box approach yields an 18\% performance gain on the GQA benchmark, while the variant incorporating segmentation masks with bounding boxes yields a 20\% gain. However, the segmentation-augmented variant shows a 6\% performance degradation on VQAv2 relative to the bounding box version. Notably, this spatial specialization reveals a trade-off: enhanced object-level focus reduces holistic scene integration capacity. The bounding box variant achieves 60.3\% accuracy on GQA, while the segmentation-augmented variant attains 62.5\% – surpassing comparable small-scale models and closing 98\% of the performance gap to the 7B-scale state-of-the-art LocVLM-L (63.5\%) with 5× fewer parameters. This work demonstrates that lightweight adaptation effectively bridges capability disparities between small- and large-scale vision-language architectures.