Geri Dön

A cluster-based external plagiarism and parallel corpora detection method

Kümelemeye dayalı harici intihal ve paralel metin tespit yöntemi

  1. Tez No: 286305
  2. Yazar: CEYHUN EFE KARBEYAZ
  3. Danışmanlar: PROF. DR. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Günümüzde aynı edebi eserin farklı versiyonlarinı detaylı bir aramayla bulabilmekmümkündür. Sezgisel olarak bu tür aynı kaynak tabanlı çeviri eserlerin birbirlerinebenzer yapıda olmaları beklenmektedir. Aynı şekilde, intihal şüphesitaşıyan bir yazı metnin, intihal yapılan orijinal eser ile de yapısal olarak benzemesiolasıdır. Yazısal intihal ile kastedilen, bir yazarın yazdığı herhangi birmetninin, üslubunun veya belirttiği fikrin, yazar lehine kaynak gösterilmedenbaşka biri tarafından yazarın onayını almadan kullanılmasıdır. Günümüzdekiiçsel ve harici yazısal intihal tespit yöntemleri var olan intihalin tespitini makulzaman dilimleri içerisinde sonuçlandırabilmek için yapılan yazısal intihalin kapsamınısınırlandırma yoluna gitmişler ve intihali arayabilmenin önkoşulu olarakbir referans doküman kümesine ihtiyaç duymuşlardır. Bu da intihal tespityönteminde referans doküman kümesinin başarıyla oluşturulması gibi başkasorunların varlığını ortaya koymuştur. Bu tez çalışmasında bir harici intihalve benzer yapı tespit ve ölçme yöntemi önerilmiştir. İntihal tespit probleminianaliz etmek ve benzerligi ölçmek için metinlerdeki yapısal benzerlikten faydanılmıştır. Bu yöntem dahilinde öncelikle şüpheli ve kaynak metinler karşılıklıbloklara bölünmüştür. Oluşturulan her bir blok sabit sayıda kelime içeren birgrup dökümandan oluşmaktadır. Daha sonra bloklar indekslenmiş ve kapsamakatsayısına dayalı kümeleme yöntemiyle kümelenmiştir. Her iki metnin oluşanküme yapıları incelenmiş ve benzerlikleri ölçülmüştür. PAN'09 intihal veri kümesive ünlü edebi eser Leyla ve Mecnun'un farklı versiyonları üzerinde yapılan testsonuçlarına göre önerilen yöntem benzer yapı tespitini ve yapısal olarak benzerlikgösteren intihal durumlarını başarıyla tespit edebilmektedir.

Özet (Çeviri)

Today different editions and translations of the same literary text can be found.Intuitively such translations that are based on the same literary text are expectedto possess significantly similar structure. In the same way, it is possible that atext that is suspected to have plagiarism can possess structural similarities withthe text that is believed to be the source of the plagiarism. Textual plagiarismimplies the usage of an author?s text, his/her work or the idea that is inserted inanother textual work without giving a reference or without taking the permissionof the original text?s author. Today, existing intrinsic and external plagiarism detectionmethods tend to detect plagiarism cases within a given dataset in order torun these algorithms in a reasonable amount of time. Hence a reference documentset is built in order to search for plagiarism cases successfully by these algorithms.In this thesis, a method for detecting and quantifying the external plagiarism andparallel corpora is introduced. For this purpose, we use the structural similaritiesin order to analyze plagiarism detection problem and to quantify the similaritybetween given texts. In this method, suspicious and source texts are partitionedinto corresponding blocks. Each block is represented as a group of documentswhere a document consists of a fixed amount of words. Then, blocks are indexedand clustered by using the cover coefficient clustering algorithm. Cluster formationsfor both texts are then analyzed and their similarities are measured. Theresults over PAN?09 plagiarism dataset and over different versions of the famousliterary text classic Leyla and Mecnun show that the proposed method successfullydetects and quantifies the structurally similar plagiarism cases and succeedsin detecting the parallel corpora.

Benzer Tezler

  1. An approach for the automatic detection of agricultural field sub-boundaries from high resolution satellite images

    Yüksek çözünürlüklü uydu görüntülerinden tarımsal arazi alt-sınırların otomatik tespiti için bir yaklaşım

    SAMAN GHAFFARİAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Jeodezi ve FotogrametriHacettepe Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA TÜRKER

  2. Cluster labeling improvement by utilizing data fusion and Wikipedia

    Veri birleştirme ve Wikipedia kullanarak küme etiketlemenin iyileştirilmesi

    GÖKÇE AYDUĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. FAZLI CAN

  3. Kümelenmenin pozitif dışsallıklara etkisi: Denizli örneği

    The effects of cluster to positive externalities: Denizli

    AYLİN İDİKUT ÖZPENÇE

    Doktora

    Türkçe

    Türkçe

    2013

    MaliyePamukkale Üniversitesi

    Maliye Ana Bilim Dalı

    PROF. DR. EKREM KARAYILMAZLAR

  4. Öbek analizi algoritmaları

    Başlık çevirisi yok

    MUHAMMET ALTUN

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ ERCENGİZ