Geri Dön

Yapay zeka ile ortak yönelimli web sitelerinin tespiti

Detection of common tendentious websites with artificial intelligence

  1. Tez No: 689239
  2. Yazar: HASİBE BÜŞRA DOĞRU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YAHYA ŞİRİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: İstanbul Sabahattin Zaim Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 90

Özet

Çalışmamızda iyi bir sınıflandırıcı yaparak herhangi bir web sitesinin yönelimini tespit etmek için metin sınıflandırma ile hangi tipte sınıf olduğunun bulunabilmesi konusu üzerinde durulmuştur. Farklı sınıflara ait web sitelerinden alınan İngilizce metinlerin vektörleri oluşturulmuştur. Sınıfı bilinmeyen herhangi bir web sitesinden alınan metnin hangi sınıfa ait olduğu belirlenebilir ve böylece yönelimi tespit edilebilir. Bunun için Gensim Kütüphanesi kullanılarak, Doc2Vec'in PV-DM ve PV-DBOW yöntemleri ile model eğitimleri yapılmıştır. Farklı iterasyonlarla yapılan eğitimlerin iki model için de doğruluk oranına etkileri araştırılmak istenmiştir. Buradan elde edilen vektörler üzerinde makine öğrenmesi sınıflandırma yöntemleri Random Forest ve Gauss Naive Bayes ile başarı oranları incelenmiştir. Daha sonra görüntü işlemede etkili bir yöntem olduğu bilinen derin öğrenme yöntemi CNN kullanılmak üzere, Doc2Vec ile elde edilen her bir örneğe ait vektörler resme çevrilmiştir. Makine öğrenmesi sınıflandırma yöntemleri ile elde edilen sonuçların başarı oranları karşılaştırılmış ve ortak yönelimin tespiti açısından etkileri değerlendirilmiştir. Son olarak, Doc2Vec ile oluşturulan belge vektörleri boyut azaltma yöntemleri olan PCA ve t-SNE kullanılarak 2 boyuta indirilip grafiği çizdirilmiştir. Bu çalışmadan elde edilen sonuçlara göre web sitelerinin ortak yönelimlerinin tespit edilmesi konusunda yüksek doğruluk oranı elde edilmiş olup web siteleri başarılı bir şekilde ait oldukları sınıfa göre etiketlenmişlerdir.

Özet (Çeviri)

In our study, it was focused on finding the type of class by text classification to detect the tendentious of any website by making a good classifier. Vectors of English text where taken from websites of different classes have been created. The text extracted from any website of unknown class is able to determine which class it belongs to and thus it's tendentious can be detected. Therefore, model trainings were made with the PV-DM and PV-DBOW methods of Doc2Vec by using Gensim Library. The effects of the trainings with different iterations on the accuracy rate for both methods were investigated. The machine learning classification methods on the vectors obtained from here are analyzed with Random Forest and Gauss Naive Bayes. Afterwards, vectors belonging to each sample obtained with Doc2Vec were converted into a picture with the use the deep learning method CNN, which is known to be an effective method of image processing. The success rates of the results obtained by machine learning classification methods were compared and their effects were evaluated in terms of detecting the common tendentious. Finally, document vectors created with Doc2Vec have been reduced to 2 dimensions and plotted using PCA and t-SNE, which are reduction dimension methods. According to the results obtained from this study, high accuracy rate has been reached in detecting of common tendentious of the websites and the websites have been successfully tagged by the class they belong to.

Benzer Tezler

  1. Kıyı yapısı inşaatları için iş güvenliği risk yönetim sistemi

    Occupational safety risk management system for coastal structure construction

    DİNÇER İNANÇ YILMAZ

    Doktora

    Türkçe

    Türkçe

    2024

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. DENİZ ARTAN

  2. Bütünleşik tedarik zinciri ağlarında bilişim paylaşım ölçüm modeli

    A model of information sharing measurement in integrated supply chain networks

    FATİH ÇALLI

    Doktora

    Türkçe

    Türkçe

    2007

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Üretim Yönetimi ve Pazarlama Ana Bilim Dalı

    PROF.DR. ORHAN TORKUL

  3. Çoklu ajan sistemleri ile inşaat sektörü için bir yüklenici seçimi modeli

    A multi agent systems based contractor selection model

    FAİKCAN KOĞ

    Doktora

    Türkçe

    Türkçe

    2016

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. HAKAN YAMAN

  4. Bilgi yönetimi için anlamsal öğrenme ortamlarının incelenmesi

    The investigation of semantic learning environments for knowledge management

    FATEMA ALLAFI ABDALLA ESDEIRA

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKastamonu Üniversitesi

    İlköğretim Ana Bilim Dalı

    YRD. DOÇ. DR. YASEMİN GÜLTEPE

  5. Bilgiye erişimde kullanılabilirliğin yeni bir yapay zekâ yöntemiyle geliştirilmesi

    Improving usability in access to information by a new artificial intelligence method

    VELİ ÖZCAN BUDAK

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgi ve Belge Yönetimiİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM EROL