Geri Dön

Analyzing source codes and detecting similarities

Kaynak kodların analizi ve benzerlik tespit edilmesi

  1. Tez No: 410623
  2. Yazar: FATMA BOZYİĞİT
  3. Danışmanlar: PROF. DR. RECEP ALP KUT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Akademik kurumlarda intihal konusu bir başkasının emeğinin çalınması olarak açıklanmaktadır. Son yıllarda teknolojide meydana gelen yenilikler ve gelişmeler sebebi ile yazılım uygulamaları miktarında oldukça büyük artış gözlenmektedir. Buna paralel olarak yazılım projelerinde çalıntı konusu önemli bir sorun haline gelmektedir. Bir programcı tarafından oluşturulmuş bir yazılımın başkaları tarafından intihali yazılım dünyasında birçok alanda istenmeyen durumdur. Bu çalışmada, özellikle eğitim alanında öğrenciler arasında kod paylaşımının önüne geçmek, ders değerlendirirken haksızlıkların oluşmasını engellemek amacı ile öğrenciler tarafından hazırlanmış olan yazılımların içerisinde hangilerinin benzerlik gösterdiği, benzerlik oranlarının ne olduğu gibi soruların cevabının bulunması hedeflenmektedir. Kaynak kodlar içerisinde benzerlik bulma konusunda hali hazırda kullanılan birçok method ve araç vardır. Benzerlikleri ortaya çıkarma konusunda genellikle geleneksel yöntemler kullanılmaktadır. Bu geleneksel yöntemlerden biri yazılıma ait metriklerin çıkarımı ve belirlenmesidir. Bu yöntemle beraber son yıllarda farklı methotlar da ortaya çıkarılmıştır. Bunlardan birisi doğal dil işleme alanına dâhil olan N-gram algoritmasıdır. Bu çalışma gerçekleştirilirken metrik çıkarma(parmak izi belirleme) yöntemi, N-gram method, Vektör Uzay Modeli ve Kosinüs Normalizasyon yöntemlerinden faydalanılmıştır. Bilgi elde etme sistemi(IR) ve Cosinüs Normalizasyon yöntemi benzerlik oranlarını hesaplamak için kullanılmaktadır. Deneysel çalışmalar iki farklı tip veri seti üzerinde yapılmıştır. İlk veri seti Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü öğrencilerine ait proglamlama ödevlerinden oluşmaktadır. İkinci veri seti ise belirli bir kodun farklılaştırılması ile elde edilmiş kaynak kodları içermektedir. Elde edilen sonuçlar çalışmanın amacına uygun bir şekilde gerçekleştirildiğini göstermektedir. Önerilen metodlara ait deneysel sonuçlar önceki metotlar ile karşılaştırıldığında başarılı sonuçlar vermektedir.

Özet (Çeviri)

Plagiarism in academic institutions is often expressed as copying someone else's work (i.e., another students or from sources such as books). By reason of the fact that innovations and developments are occurred in technology of late years, massive increase of software applications is monitored. Concordantly, plagiarism issue becomes more significant day by day. Plagiarism of programming source codes is an undesirable situation in the many fields of software development world. Especially in educational field, it is obviously realized that plagiarism in programming courses increases consistently. The aim of this study is attempting to answer questions such as“which codes are similar?”,“what similarity ratios are?”in order to prevent plagiarism among collage students who attend programming courses. There are many methods and tools are available to find similarities between program codes. Generally traditional methods are preferable while detecting similarities among source codes. One of these traditional methods is finding metrics in software documents. However, different approaches are seen in recent years while solving plagiarisim problems. N-gram method that belongs Natural Language Process (NLP) can be given as example of different approaches. While developing the proposed methodology, metric extraction method (fingerprint system), N-gram algortihm and Vector Space Model (VSM) were considered. Information Retrieval (IR) System and Cosine Normalization (CN) methods were utilized to calculate similarity ratios. Experimental study was performed on datasets of two different kinds. First type was created by collecting assignments of students who attend programming courses in Software Engineering Department of Celal Bayar University. Second type is yielded by changing source code examples in different forms. The results obtained provide convincing evidence that the study is fit the purpose.The experimental results about proposed methods give success when compared with the previous methods.

Benzer Tezler

  1. Automated maintenance support for data-tier software

    Veritabanı yazılımları için otomatikleştirilmiş bakım desteği

    ERSİN ERSOY

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN SÖZER

  2. Japon animelerinde kent ve mimarlık: Ghost in the shell ı&ıı ve metropolis üzerinden bir inceleme

    Architectural and urban representation in Japanese animes: Ghost in the shell i&ii and metropolis as case study

    MELODİ İPEK ÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    YRD. DOÇ. DR. OZAN ÖNDER ÖZENER

  3. Nesneye dayalı yazılımlarda tasarım düzeyinde klonların belirlenmesi

    Detection of design clones in object-oriented software systems

    UMUT TEKİN

    Doktora

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FEZA BUZLUCA

  4. Obfuscated JavaScript detection using syntactically and lexically enhanced machine learning

    Perdelenmiş JavaScript kodlarının sözdizimsel ve anlamsal yönden iyileştirilmiş makina öğrenmesi ile tespiti

    EREN KILIÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET TAHİR SANDIKKAYA

  5. Karadeniz Teknik Üniversitesi Farabi Hastanesi Biyokimya Laboratuvarı test sonuçlarından veri madenciliği yolu ile örüntü çıkarma

    Pattern extraction from Karadeniz Technical University Farabi Hospital Biochemistry Laboratory medical tests using data mining techniques

    YASEMİN ZEYNEP ENGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Tıp Bilişimi Ana Bilim Dalı

    DOÇ. DR. KEMAL TURHAN