Vitect: Towards automatic building recognition with vision transformers
Vitect: Vizyon dönüştürücüleriyle otomatik bina tanımasına doğru
- Tez No: 878228
- Danışmanlar: Dr. LAVDİE RADA ÜLGEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Yapay Zeka Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Dijital görüntülerin yaygın olarak kullanılabilirliği ve makine görüşü teknolo-jilerinin sürekli gelişmesiyle karakterize edilen bir çağda, fotoğrafı çekilen binaların yerinin tam olarak belirlenmesi için otomatik yöntemlere duyulan ihtiyaç, çeşitli alan-larda büyük önem taşıyor. Bina tanıma şu anda turizm, navigasyon ve 3D modelleme gibi ticari alanlarda kullanılmaktadır, ancak aynı zamanda aranan veya kayıp kişilerin yerini tespit etme potansiyelinde bulunabilecek güvenlik ve terörle mücadele çabaları üzerinde de derin etkileri vardır. Ayrıca emlak uygulamalarının sahte ilanları tespit etmesine ve dolandırıcılıkla mücadele etmesine de yardımcı olabilir. Bu makale, Vision Transformers'ı (ViT) kullanarak Google Sokak Görünümü görüntülerinin kapsadığı herhangi bir alan içindeki belirli bir binanın kesin koordinat-larını belirlemeyi amaçlayan yeni bir yaklaşım olan ViTect'i tanıtmaktadır. Amaç, tanıma görevleri oluşturmak için kapsamlı bir veritabanı oluşturabilen otomatik bir çözüm oluşturmak ve böylece Google Street View görüntüleri gibi kapsamlı veri kümelerinde arama yapmak için gereken zahmetli manuel arama sürecini ortadan kaldırmaktır. Dünya çapında büyük şehirlerdeki Google Street View görüntülerinin kapsamlı kapsamını kullanan bu proje, bina algılama için bir YOLOv8 modelini ve bina tanıma için bir ViT modelini entegre ediyor. Sunulan iş akışı sistemin ilk versiyonunu temsil vi ediyor, uygulamaya yönelik bilgiler sunuyor ve potansiyel iyileştirmeleri tartışıyor. Bu yazıda birden fazla veri seti kullanılmıştır. Bunlardan ilki, YOLOv8 modelini tanıma oluşturma görevi konusunda eğitmek için 5000'den fazla görüntünün kullanıldığı Google'ın OpenImage v6'sından alındı. Google Street View'dan 287 panoramanın bölümlen-mesiyle elde edilen ikinci veri seti, tek tek binaları tanıyabilen bir ViT modeli oluştur-mak için kullanıldı. Kullanılan diğer bir veri kümesi, ViT modelinin etkinliğini diğer algoritmalara karşı kıyaslamak için kullanılan Zürih Bina Veritabanıdır (ZuBuD). Son olarak, son veri seti panoramaların çekildiği yerden bizzat toplandı ve ViT modelinin doğruluğunu test etmek için kullanıldı. Sistemin mevcut doğruluğu %93,26 düzeyinde olup, daha fazla iyileştirme ve optimizasyon için umut verici bir temel sağlamaktadır.
Özet (Çeviri)
In an era characterized by the widespread availability of digital imagery and the continuous advancement of machine vision technologies, the need for automated meth-ods to precisely locate photographed buildings holds significant importance across var-ious fields. Building recognition is currently used in commercial fields like tourism, navigation, and 3D modeling, but it also has profound implications for security and anti-terrorism efforts, which can be found in its potential potential for locating wanted or missing persons. It can also help real estate applications detect fake postings and combat fraud. This paper introduces ViTect (Vision Transformer Detector), a novel approach aimed at determining the exact coordinates of a given building within any area covered by Google Street View images using Vision Transformers (ViT). The goal is to estab-lish an automated solution capable of building a comprehensive database for building recognition tasks, thereby eliminating the laborious manual search process required for searching through extensive datasets like Google Street View images. Leveraging the extensive coverage of Google Street View images across major cities globally, this project integrates a YOLOv8 model for building detection and a ViT model for building recognition. The presented workflow represents an initial ver-sion of the system, offering insights into its implementation and discussing potential iv enhancements. Multiple datasets were utilized in this paper. The first was acquired from Google's OpenImage v6 where over 5000 images were used to train the YOLOv8 model on the task of building recognition. The second dataset was acquired from par-titioning 287 panoramas from Google Street View was used to create a ViT model capable of recognizing individual buildings. Another dataset that was used is the the Zurich Building Database (ZuBuD) which was used to benchmark the effectiveness of the ViT model against other algorithms. And finally, the last dataset was collected personally from the location that the panoramas were taken and was used to test the accuracy of the ViT model. The current accuracy of the system stands at 93.26%, pro-viding a promising foundation for further refinements and optimizations.
Benzer Tezler
- Genito-üriner sistem enfeksiyonlarından izole edilen Candida türlerinde bazı virülans faktörlerı ile antifungal ilaç direncinin araştırılması
Genito-üriner sistem enfeksiyonlarindan izole edi̇len Candida türlerinde bazi vi̇rülans faktörleri i̇le antifungal ilaç di̇rencinin araştirilmasi
SEZİN ÇOLAK HALLUM
Tıpta Uzmanlık
Türkçe
2019
MikrobiyolojiHatay Mustafa Kemal ÜniversitesiTıbbi Mikrobiyoloji Ana Bilim Dalı
PROF. DR. NİZAMİ DURAN
- Yöresel peynirlerden laktik asit bakterilerinin izolasyonu, tanısı ve bazı gıda patojenleri üzerindeki antimikrobiyal etkilerinin araştırılması
The isolation and diagnosis of lactic acid bacteria from regional cheese and the investigation of antimicrobial effects on some food pathogens
CENGİZ TABAKOĞLU
- Salamura beyaz peynirlerde kötü kokuya neden olan uçucu bileşenlerin tanımlanması ve bozulma yapıcı mikroorganizmalarla ilişkilendirilmesi
Identification of volatile compounds cause off-odour in turkish white cheese and associating with spoilage microorganisms
BEYZA BURCU MARANGOZ
Doktora
Türkçe
2020
Gıda Mühendisliğiİstanbul Aydın ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
PROF. DR. KAMİL BOSTAN
- Kesime sevk edilen repeat breeder ineklerde uterusların histopatolojik ve mikrobiyolojik değerlendirilmesi
Histopathological and microbiological evaluation of uteri in repeat breeder cows sent for slaughtering
YUNUS ÇAKICI
Yüksek Lisans
Türkçe
2018
Veteriner HekimliğiSelçuk ÜniversitesiDölerme ve Suni Tohumlama Ana Bilim Dalı
PROF. DR. MEHMET AKÖZ
- İdrar yolları enfeksiyonu etkeni E.coli'lerin adezinleri ile antibiyotik direnci arasındaki ilişkinin klasik ve moleküler yöntemlerle araştırılması
The investigation of relationship between adeshins and antibiotic resistance in E.coli induced urinary tract infections by using classic and molecular methods.
AYKUT İLKER ARSLAN