Optimized visual odometry and satellite image matching-based localization for UAVS in GPS-denied environments
GPS olmayan ortamlarda İHA'lar için optimizasyonlu görsel odometri ve uydu görüntüsü eşleştirme tabanlı konumandırma
- Tez No: 948733
- Danışmanlar: DOÇ. DR. ALPTEKİN YILDIZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Savunma Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Savunma Teknolojileri Bilim Dalı
- Sayfa Sayısı: 81
Özet
İnsansız Hava Araçları (İHA'lar), şehir gözetimi, altyapı denetimi, afet müdahalesi ve çevresel gözlem gibi çok çeşitli sivil ve askeri uygulamalarda giderek daha önemli araçlar hâline gelmektedir. Bu görevlerdeki temel gereksinimlerden biri, güvenilir ve hassas bir konumlama sistemidir. Çoğu İHA, uçuş sırasında konumlarını belirlemek için Küresel Konumlama Sistemi (GPS) veya diğer uydu tabanlı navigasyon sistemlerine bağımlıdır. Ancak, gerçek dünya senaryolarının birçoğunda GPS sinyalleri zayıf, bozulmuş ya da tamamen erişilemez olabilir. Yüksek binalarla çevrili şehir merkezleri, yoğun bitki örtüsü altında kalan alanlar, kısmen kapalı yapılar veya GPS karıştırma ve aldatma saldırılarının kasıtlı olarak uygulandığı ortamlar buna örnektir. Bu tür GPS erişiminin mümkün olmadığı ya da kısıtlı olduğu koşullar, İHA'ların navigasyonu açısından ciddi bir zorluk teşkil etmekte ve güvenilir, doğru ve otonom çalışabilen alternatif konumlama yöntemlerine ihtiyaç doğurmaktadır. Bu tez, GPS erişiminin mümkün olmadığı ortamlarda görev yapan İHA'lar için tasarlanmış entegre bir görsel konumlama sistemini sunmaktadır. Önerilen sistem, birbirini tamamlayan iki yöntemi bir araya getirir: Görsel Odometri (VO) ve Uydu Görüntüsü Eşleştirme (SIM). Görsel odometri, sürekli kamera girdisi üzerinden yüksek frekansta göreli hareket takibi sağlarken; uydu görüntüsü eşleştirme, daha düşük frekansta ancak küresel doğrulukta konum düzeltmeleri sunar. Bu iki yöntemin birlikte kullanımı, GPS sinyallerinin tamamen yokluğunda bile İHA'nın küresel olarak doğru bir şekilde konumunu koruyabilmesini sağlayan sağlam bir çözüm oluşturur. Sistemin temelinde, aşağıya bakan monoküler (tekli) bir kamera yer almaktadır. Bu donanım, sadeliği, hafifliği ve enerji verimliliği gibi faktörler nedeniyle İHA üzerinde çalışmak için idealdir. VO bileşeni, en güncel özellik tabanlı eşzamanlı konumlama ve haritalama çerçevesi olan ORB-SLAM3'ün optimize edilmiş bir sürümü üzerine kuruludur. ORB-SLAM3, Oriented FAST özellikleri ve Rotated BRIEF (ORB) tanımlayıcılarını kullanarak video kareleri arasında görsel anahtar noktaları çıkarır ve izler, böylece kameranın pozisyonunu ve yönelimini kademeli olarak tahmin eder. Bu çalışmada ORB-SLAM3, sadece tek bir kamera girdisine ihtiyaç duyan monoküler modda kullanılmıştır; bu da sistem tasarımını sadeleştirirken donanım gereksinimlerini de azaltmıştır. Ancak, monoküler VO doğası gereği ölçek belirsizliği ve birikimli sapma (drift) sorunlarına açıktır. Küçük tahmin hataları zamanla birikir ve tahmini rota ile gerçek yol arasında önemli farklar oluşmasına neden olur. Bu durum, uzun menzilli ya da yüksek doğruluk gerektiren görevlerde kritik bir sınırlamadır ve çözülmesi gereken temel bir sorundur. Görsel odometri hattının geliştirilmesi ve değerlendirilmesini desteklemek amacıyla, bu çalışmada özel bir UAV veri kümesi (VNS veri seti) oluşturulmuştur. Uçuşlar, DJI Mavic Air 2 modeli bir İHA kullanılarak gerçekleştirilmiş, aşağıya bakan kamera ile 30 FPS hızında video kaydedilmiştir. GPS verileri ise 1 Hz frekansla eşzamanlı olarak toplanmış ve video kareleri ile ±10 milisaniye doğrulukla senkronize edilmiştir. GPS verileri, karşılaştırma amacıyla yerel bir Kuzey-Doğu-Aşağı (NED) koordinat sistemine dönüştürülmüştür. Uçuşlar, 30 ila 100 metre arasındaki irtifalarda gerçekleştirilmiş ve gerçekçi İHA operasyon koşullarını yansıtmaktadır. Bu veri seti, görsel odometri ile uydu görüntüsü eşleştirme yöntemlerinin birlikte değerlendirilebildiği az sayıdaki kaynaklardan biridir. VO hattı, İHA'ya özgü senaryolara uyum sağlamak için kapsamlı şekilde optimize edilmiştir. Bu süreçte, kamera iç parametrelerinin kalibrasyonu yapılmış, ORB özelliği çıkarım eşikleri ayarlanmış ve yüksek irtifadan elde edilen düşük detaylı görüntülerin daha iyi işlenebilmesi için sistem parametreleri değiştirilmiştir. Bu optimizasyonlar sayesinde ORB-SLAM3 tabanlı VO modülü, test edilen irtifa aralığında ±2 metre doğrulukta sürekli konum tahmini yapabilmiştir. Ancak, uzun uçuşlar boyunca monoküler VO'da ölçek kayması ve sapma birikimi meydana gelmeye devam etmiş ve bu yöntem tek başına uzun menzilli küresel konum tahmini için yetersiz kalmıştır. Bu sınırlamaları gidermek amacıyla sisteme Uydu Görüntüsü Eşleştirme (SIM) modülü entegre edilmiştir. Bu modül, İHA'nın mevcut kamera görüntüsünü coğrafi olarak referanslandırılmış bir uydu haritasıyla eşleştirerek, zaman zaman mutlak konum düzeltmeleri sağlar. Uydu görüntüleri, geniş bölgeleri kapsayan yüksek çözünürlüklü top-down (doğrudan yukarıdan) görünümler sunduğundan, sabit bir referans çerçevesi işlevi görür. Ancak, İHA görüntülerinin uydu fotoğraflarıyla eşleştirilmesi çeşitli teknik zorlukları beraberinde getirir. Görüş açısı, ölçek, ışık koşulları ve çevresel görünümler arasındaki farklar, geleneksel özellik tabanlı algoritmaların (örneğin SIFT veya ORB) başarısını önemli ölçüde azaltır. Bu nedenle, çalışmada modern ve öğrenme tabanlı bir görüntü eşleştirme hattı kullanılmıştır: SuperPoint (anahtar nokta tespiti), SuperGlue (bağlam tabanlı eşleştirme) ve GIM (Genelleştirilebilir Görüntü Eşleyici). SuperPoint, görüntülerde tekrarlanabilir anahtar noktalar tespit edip tanımlayıcılar oluşturan öz denetimli bir sinir ağıdır. Hem İHA hem de uydu görüntülerinde çeşitli sahne koşullarına karşı dayanıklıdır. SuperGlue, küresel bağlamı dikkate alarak görüntü çiftleri arasında anahtar noktaları eşleyen bir grafik sinir ağıdır ve geleneksel en yakın komşu algoritmalarına kıyasla daha başarılı sonuçlar verir. GIM modeli ise özellikle düşük dokulu veya görsel olarak zorlayıcı ortamlarda eşleşme genellemesini artırmak amacıyla sisteme entegre edilmiştir. Bu bileşenlerin bir araya getirilmesiyle oluşturulan SIM hattı, yapılan testlerde %93 doğru eşleşme oranı elde etmiş ve çoğu karede İHA'nın doğru konumunu başarıyla belirleyebilmiştir. Hesaplama yükünü azaltmak ve eşleştirme sürecini hızlandırmak için, harita getirme arayüzü geliştirilmiştir. Bu bileşen, en son VO tahminine dayalı olarak uydu haritasının ilgili bölgesini dinamik olarak seçer ve sadece bu parçayı eşleştirme modülüne sunar. Böylece sistemin tüm harita üzerinde arama yapmasına gerek kalmaz ve sapma olsa bile coğrafi olarak mantıklı bir alan üzerinde eşleşme yapılabilir. Yeterli sayıda eşleşme sağlandığında, Perspective-n-Point (PnP) algoritması kullanılarak İHA'nın altı serbestlik derecesine sahip (6-DoF) kamera pozu tahmin edilir. Bu tahmin, düz zemin varsayımı altında harita koordinat sistemine göre yapılır ve elde edilen mutlak konum, VO tahminini düzeltmek ve ölçek sorununu çözmek amacıyla kullanılır. Sürekli çalışan görsel odometri ile zaman zaman yapılan uydu görüntüsü eşleştirmesinin entegrasyonu, bu tezin temel yeniliğini oluşturmaktadır. VO yüksek frekansta hareket tahmini sağlarken, zamanla sapma biriktirir. SIM ise daha seyrek çalışsa da birikimsiz, küresel konum düzeltmeleri sağlayarak bu sapmaları sıfırlar. Bu iki yöntemin birlikte çalışması, GPS'in tamamen devre dışı kaldığı senaryolarda bile İHA'nın uzun süre boyunca küresel olarak tutarlı bir konumlamayla görev yapmasını sağlar. Gerçekleştirilen uygulamada, SIM çıktıları VO tahmininin“gerçek değer”olarak güncellenmesini sağlar ve sistemin sapma ve ölçek problemlerini ortadan kaldırır. Gelecekte, genişletilmiş Kalman filtreleri ya da poz grafiği tabanlı optimizasyon gibi gerçek zamanlı veri füzyon tekniklerinin eklenmesiyle sistem daha da geliştirilebilir. Sistemin bireysel bileşenleri ve bütünleşik yapısı, kapsamlı deneylerle test edilmiştir. Bu testlerde, VO sapması, gerçek yörünge ile tahmin edilen rotanın karşılaştırılması, anahtar nokta sayıları ve eşleşme kalitesi gibi metrikler kullanılmıştır. Ayrıca, Xfeat, LightGlue ve GIM gibi farklı eşleyici modeller karşılaştırılarak sistemin hangi kombinasyonlarla daha iyi performans gösterdiği analiz edilmiştir. Elde edilen sonuçlar, optimize edilmiş ORB-SLAM3 ile öğrenme tabanlı SIM'in birlikte kullanımının, tek başına çalışan VO'ya göre hem yerel hem de küresel konum doğruluğu açısından üstün olduğunu ortaya koymuştur. Bu çalışma, İHA konumlaması alanına birçok katkı sunmaktadır. Öncelikle, sadece monoküler kamera ve önceden indirilen uydu haritaları kullanarak GPS benzeri doğrulukta konumlama sağlanabileceğini göstermektedir. Ayrıca, gelişmiş görüntü eşleştirme tekniklerinin (ör. SuperGlue ve GIM) zorlayıcı uydu-İHA görüntüsü eşleşme problemlerinde etkili şekilde kullanılabileceğini ortaya koymaktadır. Bunun yanında, veri seti üretiminden VO optimizasyonuna, uydu harita yönetiminden konum tahmini mantığına kadar tam entegre sistem mimarisi sunulmakta ve ileride yapılacak çalışmalar için temel oluşturmaktadır. Son olarak, kamuya açık VNS veri seti, dış ortam koşullarında ve senkronize GPS doğruluk referansı ile çalışacak yeni konumlama yöntemlerinin değerlendirilmesine olanak sağlar. Sonuç olarak, bu tez GPS erişiminin mümkün olmadığı ortamlarda görev yapacak İHA'lar için sağlam ve ölçeklenebilir bir konumlama sistemi sunmaktadır. Görsel odometri ve uydu görüntüsü eşleştirmesinin bütünleşik kullanımı, yalnızca tek bir kamera ve önceden yüklenmiş haritalar ile yüksek doğruluklu navigasyonu mümkün kılmaktadır. Sistem, hafif yapısı sayesinde tüketici sınıfı İHA'lara entegre edilebilir, farklı çevresel koşullara uyarlanabilir ve ek altyapı gerektirmez. Gelecekte, ataletsel sensörler, barometreler ve çevresel değişimlere karşı dayanıklı eşleştirme algoritmaları entegre edilerek sistem daha da geliştirilebilir. Bu çalışma, GPS'e olan bağımlılığın azaltılması adına otonom hava sistemlerine yönelik önemli bir adım sunmaktadır.
Özet (Çeviri)
Unmanned Aerial Vehicles (UAVs) are increasingly utilized across diverse civilian and defense applications, ranging from infrastructure inspection and environmental monitoring to search and rescue operations. A fundamental requirement underpinning these missions is accurate and continuous localization. While most UAVs rely on the Global Positioning System (GPS) for navigation, this dependence becomes a liability in environments where GPS signals are degraded or denied—such as urban canyons, forests, indoor facilities, or conflict zones with active jamming. To maintain autonomy under such conditions, GPS-independent localization methods have emerged as a critical area of research. This thesis proposes an integrated localization framework tailored for UAVs operating in GPS-denied environments, combining Visual Odometry (VO) and Satellite Image Matching (SIM) into a unified system. VO provides high-rate relative motion estimates using a monocular downward-facing camera, whereas SIM offers periodic absolute position corrections by aligning UAV imagery with geo-referenced satellite maps. Together, they enable globally consistent and drift-corrected localization without reliance on GNSS infrastructure. The VO module is based on ORB-SLAM3, a state-of-the-art feature-based SLAM framework. Operating in monocular mode, it extracts ORB features and tracks them across frames to estimate the UAV's incremental motion. Despite optimizations such as camera calibration, parameter tuning, and feature threshold adjustments, monocular VO remains subject to scale ambiguity and drift accumulation, especially during long or texture-sparse flights. To evaluate the system under realistic UAV scenarios, a custom dataset—the Visual Navigation and Satellite (VNS) dataset—was constructed. UAV flights were performed using a DJI Mavic Air 2, recording nadir-view video at 30 FPS and collecting synchronized GPS data. The ground truth was derived by interpolating GPS readings and transforming them into a local North-East-Down (NED) coordinate frame, allowing metric comparison with the estimated VO trajectories. To address VO's inherent limitations, a SIM module was developed. This component periodically aligns UAV frames with satellite imagery to compute absolute position fixes. However, the task of matching images across drastically different viewpoints, resolutions, and illumination conditions is nontrivial. To overcome this, the system incorporates a learning-based image matching pipeline consisting of SuperPoint, SuperGlue, and GIM (Generalizable Image Matcher). SuperPoint is a self-supervised keypoint detector and descriptor generator robust to scene variations. SuperGlue, a graph neural network, enhances matching robustness by incorporating spatial context. GIM improves generalization to challenging scenes, particularly in natural environments with repetitive or low-texture features. A map retrieval mechanism was implemented to enhance computational efficiency. Instead of scanning the entire satellite image, the system uses the VO-estimated position to crop a plausible region and matches only within that subset. Once sufficient correspondences are found, a Perspective-n-Point (PnP) solver estimates the UAV's pose, which is then used to re-scale and correct the VO trajectory. These SIM updates function as intermittent global anchors, effectively bounding the drift and resolving scale ambiguity. The core innovation of the proposed system lies in this fusion of high-frequency VO and low-frequency, globally anchored SIM. The VO module provides continuous motion tracking, while SIM injects global consistency through absolute corrections. Although not fused in real time via filtering or smoothing, the SIM updates serve as corrective resets to the VO trajectory, significantly improving accuracy over extended durations without GPS. Experimental evaluations demonstrate the system's effectiveness. The VO+SIM pipeline outperformed standalone VO across all flight sequences, achieving lower drift and higher global trajectory fidelity. Matching accuracy was validated using quantitative metrics such as matching success rates, keypoint distribution, and pose estimation consistency. The integrated system successfully localized UAVs using only a monocular camera and satellite maps, without any GNSS input. In most scenarios, the trajectory remained within a few meters of the ground truth—approaching GPS-level accuracy. In addition to system design, this thesis contributes to the research community through the development of the VNS dataset, which provides high-quality UAV video, synchronized GPS logs, and satellite imagery. The dataset captures varied outdoor conditions and is suitable for benchmarking visual localization systems, especially those focused on cross-view and cross-domain challenges. In conclusion, the proposed system provides a scalable and lightweight localization solution for UAVs in GNSS-denied environments. By leveraging ORB-SLAM3 for real-time visual odometry and deep learning-based SIM for global corrections, it enables robust and accurate navigation using only onboard visual input. Future extensions may include tightly coupled sensor fusion (e.g., using IMU or barometer data), adaptive matching strategies, and real-time implementation of correction feedback through filtering or graph optimization. The methods presented in this thesis represent a significant step toward resilient, infrastructure-free UAV autonomy in operationally constrained environments.
Benzer Tezler
- Development and testing novel guidance algorithms for visual drone interception
Görsel dron yakalama için yeni güdüm algoritmalarının geliştirilmesi ve testi
AHMET TALHA ÇETİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE KOYUNCU
- Advanced visual odometry and depth estimation techniques for unmanned aerial systems (UAS) in U-Space environments
İnsansız hava araçları (İHA) için gelişmiş görsel odometri ve derinlik tahmin teknikleri U-Space ortamlarında
SEYED ERFAN SEYED ROGHANI
Doktora
İngilizce
2024
Havacılık ve Uzay Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. EMRE KOYUNCU
- Mobile robot odometric localization using decentralized kalman filter
Dağıtık kalman filtresi kullanılarak mobil robot odometrik konumlandırması
N'DJADJO ROMUALD KOUAKOU
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AŞKIN DEMİRKOL
- Deep learning-based keypoints driven visual inertial odometry for GNSS-denied flight
Yapay sinir ağları tabanlı nokta çıkarıcılı görsel-ataletsel odometri ile GPS'siz ortamda uçuş
ARSLAN ARTYKOV
Yüksek Lisans
İngilizce
2023
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE KOYUNCU
- Öğrenme odaklı simülasyon sistemlerinde kullanılan yapay zekâ (YZ) teknolojilerinin görsel tasarım açısından incelenmesi
An examination of artificial intelligence technologies used in learning-oriented simulation systems in terms of visual design
ZEYNEP ÖZKARA UZUN
Yüksek Lisans
Türkçe
2024
Gazetecilikİstanbul Aydın ÜniversitesiYeni Medya ve İletişim Ana Bilim Dalı
DOÇ. BEGÜM AYLİN ÖNDER