Yapay zeka ile ortak yönelimli web sitelerinin tespiti
Detection of common tendentious websites with artificial intelligence
- Tez No: 689239
- Danışmanlar: DR. ÖĞR. ÜYESİ YAHYA ŞİRİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: İstanbul Sabahattin Zaim Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 90
Özet
Çalışmamızda iyi bir sınıflandırıcı yaparak herhangi bir web sitesinin yönelimini tespit etmek için metin sınıflandırma ile hangi tipte sınıf olduğunun bulunabilmesi konusu üzerinde durulmuştur. Farklı sınıflara ait web sitelerinden alınan İngilizce metinlerin vektörleri oluşturulmuştur. Sınıfı bilinmeyen herhangi bir web sitesinden alınan metnin hangi sınıfa ait olduğu belirlenebilir ve böylece yönelimi tespit edilebilir. Bunun için Gensim Kütüphanesi kullanılarak, Doc2Vec'in PV-DM ve PV-DBOW yöntemleri ile model eğitimleri yapılmıştır. Farklı iterasyonlarla yapılan eğitimlerin iki model için de doğruluk oranına etkileri araştırılmak istenmiştir. Buradan elde edilen vektörler üzerinde makine öğrenmesi sınıflandırma yöntemleri Random Forest ve Gauss Naive Bayes ile başarı oranları incelenmiştir. Daha sonra görüntü işlemede etkili bir yöntem olduğu bilinen derin öğrenme yöntemi CNN kullanılmak üzere, Doc2Vec ile elde edilen her bir örneğe ait vektörler resme çevrilmiştir. Makine öğrenmesi sınıflandırma yöntemleri ile elde edilen sonuçların başarı oranları karşılaştırılmış ve ortak yönelimin tespiti açısından etkileri değerlendirilmiştir. Son olarak, Doc2Vec ile oluşturulan belge vektörleri boyut azaltma yöntemleri olan PCA ve t-SNE kullanılarak 2 boyuta indirilip grafiği çizdirilmiştir. Bu çalışmadan elde edilen sonuçlara göre web sitelerinin ortak yönelimlerinin tespit edilmesi konusunda yüksek doğruluk oranı elde edilmiş olup web siteleri başarılı bir şekilde ait oldukları sınıfa göre etiketlenmişlerdir.
Özet (Çeviri)
In our study, it was focused on finding the type of class by text classification to detect the tendentious of any website by making a good classifier. Vectors of English text where taken from websites of different classes have been created. The text extracted from any website of unknown class is able to determine which class it belongs to and thus it's tendentious can be detected. Therefore, model trainings were made with the PV-DM and PV-DBOW methods of Doc2Vec by using Gensim Library. The effects of the trainings with different iterations on the accuracy rate for both methods were investigated. The machine learning classification methods on the vectors obtained from here are analyzed with Random Forest and Gauss Naive Bayes. Afterwards, vectors belonging to each sample obtained with Doc2Vec were converted into a picture with the use the deep learning method CNN, which is known to be an effective method of image processing. The success rates of the results obtained by machine learning classification methods were compared and their effects were evaluated in terms of detecting the common tendentious. Finally, document vectors created with Doc2Vec have been reduced to 2 dimensions and plotted using PCA and t-SNE, which are reduction dimension methods. According to the results obtained from this study, high accuracy rate has been reached in detecting of common tendentious of the websites and the websites have been successfully tagged by the class they belong to.
Benzer Tezler
- Kıyı yapısı inşaatları için iş güvenliği risk yönetim sistemi
Occupational safety risk management system for coastal structure construction
DİNÇER İNANÇ YILMAZ
Doktora
Türkçe
2024
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. DENİZ ARTAN
- Bütünleşik tedarik zinciri ağlarında bilişim paylaşım ölçüm modeli
A model of information sharing measurement in integrated supply chain networks
FATİH ÇALLI
Doktora
Türkçe
2007
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiÜretim Yönetimi ve Pazarlama Ana Bilim Dalı
PROF.DR. ORHAN TORKUL
- Çoklu ajan sistemleri ile inşaat sektörü için bir yüklenici seçimi modeli
A multi agent systems based contractor selection model
FAİKCAN KOĞ
- Bilgi yönetimi için anlamsal öğrenme ortamlarının incelenmesi
The investigation of semantic learning environments for knowledge management
FATEMA ALLAFI ABDALLA ESDEIRA
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKastamonu Üniversitesiİlköğretim Ana Bilim Dalı
YRD. DOÇ. DR. YASEMİN GÜLTEPE
- Bilgiye erişimde kullanılabilirliğin yeni bir yapay zekâ yöntemiyle geliştirilmesi
Improving usability in access to information by a new artificial intelligence method
VELİ ÖZCAN BUDAK
Doktora
Türkçe
2021
Bilgi ve Belge Yönetimiİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL