Geri Dön

Trigram özellik veri seti kullanılarak sınıflandırma yöntemleriyle dil tanıma

Language identification with classification methods using trigram feature data set

  1. Tez No: 299282
  2. Yazar: ŞENGÜL BAYRAK
  3. Danışmanlar: DR. HİDAYET TAKÇI, PROF. DR. MÜBARİZ EMİNLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Dil Tanıma, N-gram Özellik Çıkarım Metodu, YSA, DVM, BCO, K-Ortalamalar Algortiması, Language Identification, N-Gram Based Feature Extraction Method, ANN, SVM, FCM, K-OrtalamalarAlgortihms
  7. Yıl: 2011
  8. Dil: Türkçe
  9. Üniversite: Haliç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Doküman anlamanın birinci adımı doküman dilinin tanınmasıdır. Dil tanımanın amacı; dili bilinmeyen metinleri işlemek ve onları tanımlamaktır. Dokümanlar için dil bulma işlemi bir bakıma üst veri üretimi olarakta görülebilir. Dil tanıma sırasında; dokümanları sunacak sınıfları elde edebilmek için dokümandaki kelimelerin frekans değerleri kullanılır. Ayrıca dili bilinmeyen test dokümanlarının dilini bulmak için de dokümanın terim-doküman matrisi ile dil arasındaki benzerlikler bulunur. En yüksek benzerliği veren sınıf yeni dokümanın sınıfı olarak belirlenir. Böylece dil tanıma işlemi tamamlanmış olur. İstatistiksel dil tanıma olarak bilinen bu yöntem metin içeriğinden bağımsız dil tanımayı destekler. Dil tanıma, dilin ayırt edici özelliklerine sınıflandırma algoritmaları uygulanması ile gerçekleştirilmektedir. Bu kapsamda; dili tanımlayan, dilin özelliklerini sunmada ve özellikler arası ilişkilerin açığa çıkarılmasında kullanılan temel iki yöntem vardır, bunlar, dilbilimsel yöntemler ve istatistiksel yöntemlerdir (harf kombinasyonları, n-gram yöntemi, markov modelleri, bayesian ve vektör uzayı). Bunlardan istatistiksel yöntemde, dilin istatistiksel özellikleri kullanılır, dilbilimsel yöntemde ise dillere ait karakteristik özellikler kullanılır.Sınıflandırma ve kümeleme algoritmalarıyla metin tabanlı dil tanımadaki performans analizini öneren sistemimiz eğitimi ve testi için, European Corpus Initiative (ECI) adı verilen uluslar arası kabul görmüş, çok dilli bir külliyat kullanılmıştır. Eğitim için ECI CDROM külliyatından, 1 KB ile 100 KB arasında uzunluklarda 15 dil için (Türkçe, İngilizce, Almanca, Hollandaca, Fransızca, İtalyanca, Cezayirce, İspanyolca, Portekizce, Norveççe, Maltaca, Latince, Litvanyaca, İsveççe, Andoa Dili) alt külliyatlar kullanılmıştır.Bu çalışmada doküman dili tanıma için n-gram tabanlı istatistiksel bir yöntem kullanılmaktadır. Yöntem; n-gram sıklıklarının dokümanın dilini tanımada kullanılabileceği temeline dayanmaktadır ve 26 harfi esas alan, trigram özellik kümesi ile çalışarak 300 öznitelik frekans değeri yöntemlere giriş olarak kullanılmıştır. Dolayısıyla Latin alfabesini kullanan diller ve Avrupa dillerinin tanınması için bir çözüm geliştirilmeye çalışılmıştır. Bu çalışmada, trigram seçimi, eğitim seti boyutu ve seçilen sınıflandırma algoritmalarının başarısı gibi parametreler esas alınarak test çalışmaları yapılmıştır. Eğitim setinin oluşturulmasında kullanılan N-Gram Özellik Seçimi Yöntemi, Profil Tabanlı Yöntem, Örnek Tabanlı Yöntem, Centroid Tabanlı Sınflayıcı, Bulanık C Ortalamalar Algoritması C# ortamında implemente edilirken, Yapay Sinir Ağları ve Destek Vektör Makinaları sınıflandırma algoritmaları ise Tanagra ve Weka veri madenciliği yazılımları kullanılarak eğitilerek test edilmiş ve sınflandırma başarıları doğruluk oranlarına göre verilmiştir.

Özet (Çeviri)

The first step of understanding the documents is identifying the language. The purpose of identifying the language, processing and describing unknown texts. Finding language for documents can be seen as the production of metadata. During the language identification; to obtain the During the language identification; to obtain the class which will present the documents use the frequencies. In addition, for finding unknown documents' language, obtain similarity between term-documents matrix and language. The highest similarity is as the class a new document class and so language identification process is completed. This method is known as statistical language identification, text support, regardless of content.Language identification, obtains with applying the algorithms to languages' distinctive features. In this context, describing of the language, providing the features and specifications for the removal of the basic relations between the two methods that are linguistic methods, and statistical methods (combination of letters, the n-gram method, markov models, bayesian classifier, and vector space). In statistical method is used statistical properties of language but linguistic method is used characteristics of languages.Our proposed method for training and testing, the European Corpus Initiative (ECI) which the internationally recognized name, used in a multilingual corpus. For training CD-ROM for the ECI corpus, lengths between 1 KB and 100 KB for the language of 15 (in Turkish, English, German, Dutch, French, Italian, Cezayirce, Spanish, Portuguese, Norwegian, Maltese, Latin, Lithuanian, Swedish, Andoa Language) sub-digests used.In this study,using n-gram based method for language identification. Method, n-gram frequencies can be used in identifying the language of the document is based on and 26 letters is based on for working with trigram feature set. Therefore, a solution has been developed for languages using the Latin alphabet and European languages. In this study, the trigram selection, training set size and classification tests success are conducted on the basis of parameters. Tanagra and Weka's data mining software used in testing and training procedures. For preparation training set is used of N-Gram Feature Selection Method, Profile-Based Method, Example-Based Method, Centroid-Based Classify, Fuzzy C Means Algorithm is implemented C# programming language, Artificial Neural Networks and Support Vector Machines classification algorithms in the Tanagra and the Weka data mining software using the training of the classification success rates have been tested and is based on accuracy.

Benzer Tezler

  1. Kuraklıkla ilgili sosyal medya mesajlarının duygu analizi

    Sentiment analysis of social media data about drought

    SEVDANUR DURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TURGAY AYDOĞAN

  2. Obfuscated JavaScript detection using syntactically and lexically enhanced machine learning

    Perdelenmiş JavaScript kodlarının sözdizimsel ve anlamsal yönden iyileştirilmiş makina öğrenmesi ile tespiti

    EREN KILIÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET TAHİR SANDIKKAYA

  3. PDZ domains: Interaction prediction, classification and peptide library construction

    PDZ yapısal bölgeleri: Bağlanma tahmini, sınıflandırma ve peptit veri tabanı oluşturma

    SİBEL KALYONCU

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    BiyokimyaKoç Üniversitesi

    Biyokimya Ana Bilim Dalı

    DR. ATTİLA GÜRSOY

    DR. ÖZLEM KESKİN

  4. Günümüz yazılı Türkçesinin istatistiksel özellikleri ve bir metin sıkıştırma uygulaması

    Statistical properties of contemporary printed Turkish and a text compression application

    GÖKHAN DALKILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2001

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    DOÇ. DR. MEHMET EMİN DALKILIÇ

  5. Cloninger mizaç ve karakter özelliklerinin remisyonda depresif hastalarda sıcak ve soğuk bilişlerle ilişkisi

    The effect of cloninger temperament and character features on hot and cold cognitions in remitted depression

    SERKAN BAYAD

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2020

    PsikiyatriManisa Celal Bayar Üniversitesi

    Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF. DR. ÖMER AYDEMİR