Geri Dön

POS etiketlerinin N-gramlarına dayalı bir intihal tespit sistemi

A plagiarism detection system based on POS tag N-grams

  1. Tez No: 798159
  2. Yazar: KADİR YALÇIN
  3. Danışmanlar: PROF. DR. İLYAS ÇİÇEKLİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 144

Özet

İki farklı doküman ya da metin içindeki benzer öğeleri bulma sıklıkla karşılaşılan bir problemdir. Özellikle intihal şüphesi taşıyan bir metnin, intihal yapılan kaynak metin ile benzer nitelikler taşıması olasıdır. İntihal kavramı, başka kişilere ait yazıların bazı bölümlerinin veya tamamının alınarak, kendisine aitmiş gibi gösterilmesi veya başkalarına ait fikirlerin kaynak göstermeden farklı şekillerde anlatılmasıdır Günümüzde teknolojinin gelişmesiyle birlikte, intihal vakalarında gittikçe artış olduğuna ilişkin değerlendirmeler gözlenmektedir. Bu nedenle, intihalin önüne geçmek amacıyla üniversitelerde çeşitli intihal tespit programları kullanılmaya başlanmış, eğitim ve öğretim yönetmeliklerine intihal ve bilimsel etik ile ilgili esaslar eklenmiştir. Bu tez çalışması ile harici intihal tespitine ilişkin özgün bir yöntem önerilmiştir. Metin içindeki intihal edilmiş bölümleri belirlemek için hem sözdizimsel hem de anlamsal benzerlik özelliklerinden faydalanılmıştır. Şüpheli metinlerdeki intihal edilmiş bölümleri ve kaynak metinlerde bunlara karşılık gelen orijinal bölümleri tespit etmek için sözcük türü (POS) etiketi n-gramları kullanılmıştır. Her bir kaynak cümle, olası intihal adayı cümlelere hızlı bir şekilde erişilebilmesi amacıyla bir arama motoru tarafından sözcük türü (POS) etiketi n-gramlarına göre indekslenir. Sözcük türü etiketi n-gram'larına dönüştürülen şüpheli cümleler, kaynak cümlelere erişmek için sorgu olarak kullanılır. Sorgulardan dönen arama motoru sonuçları, şüpheli belgenin intihal edilmiş bölümlerinin tespit edilmesini sağlamaktadır. Verilen iki sözcük arasındaki anlamsal ilişki sözcük temsillerini kullanma tekniği olan Word2Vec ile hesaplanır. Diğer taraftan, cümle düzeyinde anlamsal benzerliğin hesaplanması için en uzun ortak sıra (LCS) algoritması uygulanmaktadır. Bu tez çalışması kapsamında, otomatik intihal tespit algoritmalarının değerlendirilmesi için oluşturulan PAN-PC-11 adlı veri seti kullanılmıştır. Testler, sonuçların çeşitliliğini değerlendirmek amacıyla farklı parametre ve eşik değerleri ile gerçekleştirilmiştir. Bu veri seti ile yapılan test sonuçlarına göre önerilen yöntem, 3. Uluslararası İntihal Tespiti Yarışması'nda (PAN11) yer alan intihal tespit sistemlerine göre düşük ve yüksek karmaşıklığa sahip intihal durumlarında en iyi performansı elde etmiştir.

Özet (Çeviri)

It is a common problem to find similar parts in two different documents or texts. Especially, a text suspected of plagiarism is likely to have similar characteristics with the source text. Plagiarism is defined as taking some or all of the writings of other people and showing them as their own, or expressing the ideas of others in different ways without citing the source. Today, it is observed that there is an increase in plagiarism cases with the development of technology. Therefore, in order to prevent plagiarism, various plagiarism detection programs have been used in universities and principles regarding plagiarism and scientific ethics have been added to education regulations. In this thesis, a novel method for detecting external plagiarism is proposed. Both syntactic and semantic similarity features were used to identify the plagiarized parts of the text. Part-of-speech (POS) tags are used to identify the plagiarized sections of suspicious texts and the original sections corresponding to these sections in the source texts. Each source sentence is indexed by a search engine according to its POS tag n-grams to access possible plagiarism candidate sentences rapidly. Suspicious sentences that converted to their POS tag n-grams are used as query to access source sentences. The search engine results returned from the queries enable to detect plagiarized parts of the suspicious document. The semantic relationship between two given words is calculated with Word2Vec, which is a method for using word embeddings. On the other hand, the longest common subsequence (LCS) algorithm is applied to calculate semantic similarity at the sentence level. In this thesis, PAN-PC-11 dataset, which was created to evaluate automated plagiarism detection algorithms, is used. The tests are carried out with different parameters and threshold values to evaluate the diversity of the results. According to the experimental results with this dataset, the proposed method achieved the best performance in low and high obfuscation plagiarism cases compared to the plagiarism detection systems in the 3rd International Plagiarism Detection Competition (PAN11).

Benzer Tezler

  1. Linguistic category induction and tagging using the paradigmatic context representations with substitute words

    Düşey kelime bağlamlarını olası kelimeler ile temsil ederek dil bilimsel sözcük kümeleri ve etikletlerinin bulunması

    MEHMET ALİ YATBAZ

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. DENİZ YURET

  2. Türkçe dizi etiketleme için sinir ağ modelleri

    Neural models for Turkish sequence labeling

    YASİN EŞREF

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  3. Classification of high school entrance exams and teacher made exam questions according to the Revised Bloom's Taxonomy with computational linguistics methods

    Liselere giriş sınavları ve öğretmen tarafından hazırlanan sınav sorularının bilgisayarlı dilbilimsel yöntemlerle Yenilenmiş Bloom Taksonomisine göre sınıflandırılması

    EREN YASEMEN KARAHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Eğitim ve ÖğretimYıldız Teknik Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DOÇ. DR. BURCU ÜNAL

  4. Supertagging with combinatory categorial grammar for dependency parsing

    Bağlılık ayrıştırması için birleşenli ulamsal gramer ile süper etiıketleme

    BURAK KERİM AKKUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. RUKET ÇAKICI

  5. Bankacılık sektöründe makine öğrenmesi yöntemlerini kullanarak POS ciro tahmini

    POS revenue estimation using machine learning methods in banking sector

    TUĞÇE SAYIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiYıldız Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN DEMİREL