Mobil uygulama ile derin öğrenme tabanlı nesne tespiti ve büyük dil modeli ile ifade üretme
Deep learning-based object detection with mobile application and expression generation using a large language model
- Tez No: 945253
- Danışmanlar: DOÇ. DR. KAZIM YILDIZ, DOÇ. DR. ÖNDER DEMİR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 69
Özet
Günümüzde yapay zekâ alanındaki gelişmeler, nesne tanıma teknolojilerinde önemli ilerlemeler kaydetmiştir. Bilgisayarla görme, bilgisayar sistemlerine görsel verileri insanların yaptığına benzer şekilde anlama ve yorumlama yeteneği kazandırmayı amaçlayan bir yapay zekâ alandır. Nesne tanıma ise bilgisayarların nesneleri algılayarak tanıma yeteneğini ifade eder. Bu yetenek, güvenlik sistemlerinde çevresel tehditleri tespit etmek, otomobil teknolojilerinde sürücülere kolaylık sağlamak, sağlık alanında etkili teşhisler koymak gibi çeşitli amaçlarla kullanılabilmektedir. Yapay zekâ alanında insan yaşamını daha kolay, güvenli ve verimli hale getirmek için pek çok çalışma yürütülmektedir. Bu çalışmalar nesne tanıma modellerinin hızlarını artırmayı, performanslarını iyileştirmeyi ve geniş kapsamlı uygulamalara entegrasyonunu sağlamayı hedeflemektedir. Özellikle gerçek zamanlı uygulamalarda bu teknolojiler hayatı kolaylaştırarak etkili çözümler sunmaktadır. Bu çalışma kapsamında gerçek zamanlı olarak YOLO-v11 ile nesne tespiti, mesafe ölçümü ve nesne konumları ile ilgili açıklamaların elde edilebileceği bir mobil uygulama geliştirilmiştir. Bu uygulama, yapay zekâ modellerinin günlük hayatta kullanılmasıyla beraber anlık ihtiyaçların karşılanmasına yönelik pratik bir çözüm sunmaktadır. Araştırmanın temel amaçları arasında nesne konumlarının büyük dil modeli olan GPT-4o'da analiz edilmesi ve LiDAR teknolojisinin bu yapıya entegrasyonu da yer almaktadır. Bu çalışmada derin öğrenme modelinin F1 puanı 0.77, ortalama doğruluk değeri ise 0.806 olarak hesaplanmıştır. İnce ayar işlemi gerçekleştirilen GPT-4o, görsellerdeki nesne konumlarını doğru ve tutarlı bir şekilde belirleyerek doğal dilde açıklamalar üretmiştir. Modelin performansı, ROUGE-1 skoru 0.75, ROUGE-2 skoru 0.61 ve ROUGE-L skoru 0.71 olarak ölçülmüştür. Bu tez kapsamındaki çalışmalar, derin öğrenme ve doğal dil işleme modellerini birleştirerek mobil uygulamalarda yapay zekanın etkinliğini artırmayı ve gelecekteki araştırmalar için yol gösterici bir kaynak olmayı amaçlamaktadır.
Özet (Çeviri)
Significant progress has been made in object recognition technologies thanks to recent developments in the area of artificial intelligence. Computer vision is an area of artificial intelligence that seeks to enable computer systems to understand and interpret visual data in a manner similar to that of humans. Object recognition refers to the ability of computers to recognize objects by perceiving them. This ability has many applications, including the detection of environmental threats in security systems, the facilitation of driving through technology, and the support of effective diagnoses in healthcare. Many studies are being performed in the field of artificial intelligence to make human life easier, safer and more efficient. These studies aim to increase the speed of object recognition models, improve their performance, and integrate them into wide-ranging applications. Especially in real-time applications, these technologies offer effective solutions by making life easier. Within the scope of this study, a mobile application was developed with YOLO-v11 in which object detection, distance measurement and explanations about object locations can be obtained in real time. This application offers a practical solution for meeting instant needs with the use of artificial intelligence models in daily life. The main objectives of the research include analyzing object locations in the large language model GPT-4o and integrating LiDAR technology into this structure. In this study, the F1 score of the deep learning model was calculated as 0.77 and the average accuracy value was 0.806. GPT- 4o, which was fine-tuned, produced natural language explanations by determining object locations in images accurately and consistently. The performance of the model was measured as ROUGE-1 score 0.75, ROUGE-2 score 0.61 and ROUGE-L score 0.71. The studies within the scope of this thesis aim to increase the effectiveness of artificial intelligence in mobile applications by combining deep learning and natural language processing models, and to serve as a source of guidance for future research.
Benzer Tezler
- Deep learning model based on artificial intelligence for detection and classification of asphalt distress
Asfalt bozulmalarının tespiti ve sınıflandırılması için yapay zekâ tabanlı derin öğrenme modeli
MUHAMMET FATİH SADAK
Yüksek Lisans
İngilizce
2025
Ulaşımİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH HİLMİ LAV
- Efficient deep learning approaches for signal and image analysis applications
Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları
ONUR CAN KOYUN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Otonom simetrik mobil robotun bulanık mantık ve derin öğrenme tabanlı konum kontrolünün gerçekleştirilmesi
Realization of fuzzy logic and deep learning based position control of autonomous symmetric mobile robot
AHMET TOP
Doktora
Türkçe
2023
Elektrik ve Elektronik MühendisliğiFırat ÜniversitesiElektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı
PROF. DR. MUAMMER GÖKBULUT
- Object-aware interactive perception
Nesne farkındalıklı etkileşimli algılama
ÇAĞATAY KOÇ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SANEM SARIEL UZER
PROF. DR. SİNAN KALKAN
- Investigation of artificial intelligence-based point cloud semantic segmentation
Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi
MUHAMMED ENES ATİK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ZAİDE DURAN