Geri Dön

Yapay bağışıklık sistemlerini kullanarak türkçe metinlerde tür, yazar ve cinsiyet tanıma

Genre, author and gender recognition in turkish texts using artificial immune systems

  1. Tez No: 179730
  2. Yazar: ZAFER KABAN
  3. Danışmanlar: YRD. DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 138

Özet

İnternet kullanımının hızla yaygınlaşmasıyla birlikte her geçen gün farklı kategorilerde bir çok doküman elektronik ortamda yerini almaktadır. Artan doküman sayısıyla birlikte bu dokümanların benzer olanlarının önceden belirlenmiş gruplara ayrılması ihtiyacı ortaya çıkmıştır. Doküman sınıflandırma dediğimiz bu işlem sayesinde dokümanlar önceden belirlenmiş sınıflara ayrıştırılmaktadır. Bu çalışmada dokümanlar, dokümanların türüne, yazarına ve yazarının cinsiyetine göre olmak üzere üç ana başlık altında sınıflandırılmıştır.Yapay Bağışıklık Sistemleri, doğal bağışıklık sisteminden esinlenerek, bu sistemin mühendislik açısından incelenerek karmaşık problemlerin çözümünde kullanılan yöntemlerden biridir. Daha önce örüntü tanıma, hesapsal güvenlik, anomali tespiti, optimizasyon, makine öğrenmesi, robotik, kontrol, çizelgeleme, hata teşhisi gibi alanlarda ve bunların alt dallarında; ayrıca ekoloji, üretim sistemleri, akıllı evler, adaptif gürültü nötralizasyonu, indüktif problem çözümü, açık web sunucu koordinasyonu, protein yapısı tahmini gibi alanlarda başarıyla kullanılmış ve etkili sonuçlar alınmış olan bu yöntem doküman sınıflandırma alanında ilk kez bu çalışmada kullanılmıştır.Çalışmada 16 farklı özellik vektörü oluşturularak, Yapay Bağışıklık Sistemi algoritmalarıyla ve literatürde daha önce bu alanda sıkça kullanılan diğer sınıflandırma yöntemleri olan Naive Bayes, K-En Yakın Komşuluk, Destek Vektör Makinesi ve Rastgele Orman gibi sınıflandırıcılarla deneyler gerçekleştirilerek Türkçe dokümanlar üzerinde dokümanın türü, yazarı ve yazarının cinsiyeti belirlenmeye çalışılmıştır.Özellik vektörleri üzerinde boyut indirgeme işlemleri uygulanarak sınıflandırma yöntemlerinin başarılarının arttığı gözlenmiştir.Yapılan denemelerde karakter n-gram'ları, kelime kökleri ve kelime gövdeleri gibi uygun özellik vektörlerinden YTU boyut indirgeme algoritmasıyla oluşturulmuş yeni özellik vektörleriyle Yapay Bağışıklık Sistemi algoritmalarının Türkçe dokümanların türünü, yazarını ve yazarının cinsiyeti belirlemede çok başarılı sonuçlar verdiği ve bu alanda geliştirilecek olan sistemlerde kullanılabileceği görülmüştür.

Özet (Çeviri)

With the rapid growth of internet usage many documents arise in electronic form everyday in different categories. The increase in the number of documents arises the need for categorizing the likely documents in predefined groups. Documents are categorized to the predefined classses by a process called document classification. In this study, documents are classified in three main headlines which are according to their genre, author and author?s gender.Artificial Immune Systems are inspired from natural immune systems that are used in engineering applications to solve complex problems. Previously, they are used in pattern recognition, computational security, anomaly detection, optimization, machine learning, robotics control, tabulation, error detection and their branches, ecology, product systems, smart homes, adaptive noise neutralization, inductive problem solving, web server coordination, protein structure guessing and succesful results are gained but they are first used in document classification problem within this thesis study.In this study, 16 different feature vectors are constructed and tested on document genre detection, document author?s gender detection and authorship attribution with Artificial Immune Systems algorithms and mostly used classifiers in literature on document classification which are Naive Bayes, K-Nearest Neighborhood, Support Vector Machines and Random Forests.It is observed that dimension reduction techniques that are applied to the feature vectors increase the classification performance of classifiers.In the experiments it is seen that when we apply dimension reduction algorithm called YTU to suitable featurs vectors such as character n-grams, word roots and word stems and create new feature vectors, Artificial Immune Systems algorithms give successful results in document genre detection, document author?s gender detection and authorship attribution of Turkish documents and can be used in such systems.

Benzer Tezler

  1. Yapay zeka teknikleri kullanarak sabit görüntüler için sayısal damgalama

    Digital watermarking scheme for still images using artificial intelligent techniques

    OĞUZ FINDIK

    Doktora

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ERKAN ÜLKER

  2. Karaciğer kanseri tedavisinde makine algoritma öğrenimi ve yapay zeka teşhisi

    Machine algorithm learning and artificial intelligence diagnosis in liver cancer treatment

    YAKUP YASİN ÖZSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ADEM ÖZYAVAŞ

  3. Hibrit sınıflayıcılar kullanarak kalpteki ritim bozukluklarının teşhisi

    Diagnosis of the heart rhythm disorders by using hybrid classifiers

    ŞULE YÜCELBAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLAY TEZEL

  4. Gösterge panelinin tedarik zinciri yönetimi bağlamındaki karar süreçlerine etkisi üzerine bir ampirik araştırma

    An empirical research on the impact of the dashboard on decision processes in the context of supply chain management

    YÜKSEL YURTAY

    Doktora

    Türkçe

    Türkçe

    2020

    İşletmeSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT AYANOĞLU

  5. Genetik algoritmalar ile tıbbi veri madenciliği

    Medical data mining via genetic algorithms

    EMİNE TUĞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET ARSLAN