A cluster-based external plagiarism and parallel corpora detection method
Kümelemeye dayalı harici intihal ve paralel metin tespit yöntemi
- Tez No: 286305
- Danışmanlar: PROF. DR. FAZLI CAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Günümüzde aynı edebi eserin farklı versiyonlarinı detaylı bir aramayla bulabilmekmümkündür. Sezgisel olarak bu tür aynı kaynak tabanlı çeviri eserlerin birbirlerinebenzer yapıda olmaları beklenmektedir. Aynı şekilde, intihal şüphesitaşıyan bir yazı metnin, intihal yapılan orijinal eser ile de yapısal olarak benzemesiolasıdır. Yazısal intihal ile kastedilen, bir yazarın yazdığı herhangi birmetninin, üslubunun veya belirttiği fikrin, yazar lehine kaynak gösterilmedenbaşka biri tarafından yazarın onayını almadan kullanılmasıdır. Günümüzdekiiçsel ve harici yazısal intihal tespit yöntemleri var olan intihalin tespitini makulzaman dilimleri içerisinde sonuçlandırabilmek için yapılan yazısal intihalin kapsamınısınırlandırma yoluna gitmişler ve intihali arayabilmenin önkoşulu olarakbir referans doküman kümesine ihtiyaç duymuşlardır. Bu da intihal tespityönteminde referans doküman kümesinin başarıyla oluşturulması gibi başkasorunların varlığını ortaya koymuştur. Bu tez çalışmasında bir harici intihalve benzer yapı tespit ve ölçme yöntemi önerilmiştir. İntihal tespit probleminianaliz etmek ve benzerligi ölçmek için metinlerdeki yapısal benzerlikten faydanılmıştır. Bu yöntem dahilinde öncelikle şüpheli ve kaynak metinler karşılıklıbloklara bölünmüştür. Oluşturulan her bir blok sabit sayıda kelime içeren birgrup dökümandan oluşmaktadır. Daha sonra bloklar indekslenmiş ve kapsamakatsayısına dayalı kümeleme yöntemiyle kümelenmiştir. Her iki metnin oluşanküme yapıları incelenmiş ve benzerlikleri ölçülmüştür. PAN'09 intihal veri kümesive ünlü edebi eser Leyla ve Mecnun'un farklı versiyonları üzerinde yapılan testsonuçlarına göre önerilen yöntem benzer yapı tespitini ve yapısal olarak benzerlikgösteren intihal durumlarını başarıyla tespit edebilmektedir.
Özet (Çeviri)
Today different editions and translations of the same literary text can be found.Intuitively such translations that are based on the same literary text are expectedto possess significantly similar structure. In the same way, it is possible that atext that is suspected to have plagiarism can possess structural similarities withthe text that is believed to be the source of the plagiarism. Textual plagiarismimplies the usage of an author?s text, his/her work or the idea that is inserted inanother textual work without giving a reference or without taking the permissionof the original text?s author. Today, existing intrinsic and external plagiarism detectionmethods tend to detect plagiarism cases within a given dataset in order torun these algorithms in a reasonable amount of time. Hence a reference documentset is built in order to search for plagiarism cases successfully by these algorithms.In this thesis, a method for detecting and quantifying the external plagiarism andparallel corpora is introduced. For this purpose, we use the structural similaritiesin order to analyze plagiarism detection problem and to quantify the similaritybetween given texts. In this method, suspicious and source texts are partitionedinto corresponding blocks. Each block is represented as a group of documentswhere a document consists of a fixed amount of words. Then, blocks are indexedand clustered by using the cover coefficient clustering algorithm. Cluster formationsfor both texts are then analyzed and their similarities are measured. Theresults over PAN?09 plagiarism dataset and over different versions of the famousliterary text classic Leyla and Mecnun show that the proposed method successfullydetects and quantifies the structurally similar plagiarism cases and succeedsin detecting the parallel corpora.
Benzer Tezler
- An approach for the automatic detection of agricultural field sub-boundaries from high resolution satellite images
Yüksek çözünürlüklü uydu görüntülerinden tarımsal arazi alt-sınırların otomatik tespiti için bir yaklaşım
SAMAN GHAFFARİAN
Yüksek Lisans
İngilizce
2014
Jeodezi ve FotogrametriHacettepe ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA TÜRKER
- Cluster labeling improvement by utilizing data fusion and Wikipedia
Veri birleştirme ve Wikipedia kullanarak küme etiketlemenin iyileştirilmesi
GÖKÇE AYDUĞAN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. FAZLI CAN
- Kümelenmenin pozitif dışsallıklara etkisi: Denizli örneği
The effects of cluster to positive externalities: Denizli
AYLİN İDİKUT ÖZPENÇE
- Öbek analizi algoritmaları
Başlık çevirisi yok
MUHAMMET ALTUN
Yüksek Lisans
Türkçe
1998
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiMühendislik Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. ALİ ERCENGİZ