Geri Dön

Derin öğrenme yöntemleri ile Türkçe metinlerde benzerlik tespiti

Detection of similarities with deep learning methods in Turkish texts

  1. Tez No: 606859
  2. Yazar: İRFAN AYGÜN
  3. Danışmanlar: PROF. DR. AHMET BEDRİ ÖZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Günümüz teknolojilerinde doğal dillerin makineler tarafından algılanabilmesi birçok problemin çözümü için kaçınılmaz bir ihtiyaçtır. Metinler üzerinde yapılan çalışmalar sayesinde intihal tespiti, metin-yazar eşleştirmesi, metin konusunun tespiti, otomatik özet çıkarımı gibi birçok alanda yazılım tabanlı çözümler kullanılmaktadır. Örneklendirilen çalışmalar ve benzer birçok alanda, metinlerin bilgisayarlar tarafından yorumlanması ve işlenmesi beklenmektedir. Metinlerin yorumlanabilmesi için ise kullanılan dile ait gerek yapısal gerek ise dilbilimsel özelliklerin bilgisayarlar tarafından kavranması beklenir. Bu işlem sürecinde türlü zorluklar ve çözülmesi gereken problemler bulunmaktadır. Bu sorunlardan önemli bir tanesi, metinlerin bilgisayarlar tarafından anlamsal olarak kavranabilmesidir. Bilgisayarın metinden anlam çıkarabilir seviyeye gelmesi, bahsi geçen sorunlara büyük ölçüde çözüm sağlayacaktır. Ayrıca kullanıcı etkileşimini oldukça üst seviyeye çıkararak, çözümünde insan algısı gerektiren problemlere yazılım tabanlı alternatifler sunmak mümkün hale gelecektir. Metinlerin benzerliğini ölçmek, bu çerçevede ele alınan bir problem olarak literatürde türlü çalışmalara konu olmuştur. Geçmiş yıllarda metinleri sadece yapısal olarak kıyaslamak mümkün görülürken son yıllarda çeşitli anlamsal benzerlik tespiti yapan yöntemler geliştirilmiştir. Metinlerden anlamsal çıkarım yapmakta kullanılan güncel bir yöntem de derin öğrenme tabanlı kelime temsili yöntemidir. Bu yöntem sayesinde sözcüklerin anlamsal yakınlıklarını saptamak mümkün hale gelmiştir. Bu çalışmada, Türkçe metinlerin hem anlamsal hem de yapısal şekilde incelenmesi sonucunda ortak bir yaklaşım ile benzerliklerinin ölçülmesi hedeflenmiştir. Yapısal benzerliğin ölçülmesinde Kosinüs Benzerliğinden, anlamsal benzerliğin tespitinde ise Word2Vec modelinden faydalanılmıştır. Tez sonucunda, bu iki farklı yaklaşımın ortak kullanımını sağlayan bir yöntem önerilmektedir. Bu kapsamda hem konu odaklı (Bilgi Güvenliği) hem de genel kullanım dili ile oluşturulan metinler üzerinde deneysel testler yapılmıştır. Elde edilen sonuçlar, önerilen yöntemin başarısını kanıtlar nitelikte bulgular ve sonuçlar bölümünde paylaşılmıştır.

Özet (Çeviri)

In today's technologies, the perception of natural languages by machines is an inevitable need for solving many problems. Thanks to the studies carried out on texts, software based solutions are used in many areas such as plagiarism detection, text-author matching, detection of text subject, and text summarization. It is expected that the texts will be interpreted and processed by computers in the exemplified works and many similar fields. In order to interpret the texts, it is expected that the structural and linguistic features of the language used should be comprehended by computers. There are various difficulties and problems to be solved in this process. One of these problems is the ability of computers to comprehend the texts semantically. If the computer is able to make sense from the text, it will provide a great solution to the aforementioned problems. In addition, it will be possible to offer software-based alternatives to problems requiring human perception in the solution by increasing user interaction to a very high level. Measuring the similarity of texts has been the subject of various studies in the literature as a problem addressed within this framework. In the past years, it has been possible to compare the texts only structurally, but in the recent years methods have been developed to detect various semantic similarities. A current method used to make semantic inferences from texts is deep learning based word representation method. This method makes it possible to determine the semantic affinity of words. In this study, as a result of examining Turkish texts both semantically and structurally, it is aimed to measure similarities with a common approach. The structural similarity was measured by Cosine Similarity and the semantic similarity was used by Word2Vec model. As a result of the thesis, a method which provides the common use of these two different approaches is proposed. In this context, experimental tests were conducted on both subject-oriented (Information Security) and general-language texts. The results obtained are shared in the findings and conclusions section which prove the success of the proposed method.

Benzer Tezler

  1. Yazılım güvenliğinde derin öğrenme tabanlı kaynak kod analizi ve yorum önerimi

    Deep learning based source code analysis and review recommendations in software security

    YUSUF KARTAL

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. KEMAL ÖZKAN

  2. Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi

    Generating news headline from Turkish news using deep learning methods

    ENİSE KARAKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU YILMAZ

  3. Developing a deep learning based offline optical character recognition model for printed Ottoman turkish

    Derin öğrenme tabanlı çevrimdışı Osmanlıca basılı karakter tanıma modeli geliştirilmesi

    AHMED NADHEER QASIM AL-KHAFFAF

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT ATİLA

  4. Derin öğrenme yöntemleri ile zaman serisi tahmini

    Time series classification with deep learning methods

    HAKAN GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  5. Derin öğrenme kullanılarak İngilizce – Türkçe çeviriler için cümle eşleme sistemi

    Sentence alignment for English to Turkish translations by using deep learning system

    EMİR KIZILIRMAK

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERDAL GÜVENOĞLU

    DOÇ. DR. VOLKAN TUNALI