Derin öğrenme yöntemleri ile Türkçe metinlerde benzerlik tespiti
Detection of similarities with deep learning methods in Turkish texts
- Tez No: 606859
- Danışmanlar: PROF. DR. AHMET BEDRİ ÖZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Günümüz teknolojilerinde doğal dillerin makineler tarafından algılanabilmesi birçok problemin çözümü için kaçınılmaz bir ihtiyaçtır. Metinler üzerinde yapılan çalışmalar sayesinde intihal tespiti, metin-yazar eşleştirmesi, metin konusunun tespiti, otomatik özet çıkarımı gibi birçok alanda yazılım tabanlı çözümler kullanılmaktadır. Örneklendirilen çalışmalar ve benzer birçok alanda, metinlerin bilgisayarlar tarafından yorumlanması ve işlenmesi beklenmektedir. Metinlerin yorumlanabilmesi için ise kullanılan dile ait gerek yapısal gerek ise dilbilimsel özelliklerin bilgisayarlar tarafından kavranması beklenir. Bu işlem sürecinde türlü zorluklar ve çözülmesi gereken problemler bulunmaktadır. Bu sorunlardan önemli bir tanesi, metinlerin bilgisayarlar tarafından anlamsal olarak kavranabilmesidir. Bilgisayarın metinden anlam çıkarabilir seviyeye gelmesi, bahsi geçen sorunlara büyük ölçüde çözüm sağlayacaktır. Ayrıca kullanıcı etkileşimini oldukça üst seviyeye çıkararak, çözümünde insan algısı gerektiren problemlere yazılım tabanlı alternatifler sunmak mümkün hale gelecektir. Metinlerin benzerliğini ölçmek, bu çerçevede ele alınan bir problem olarak literatürde türlü çalışmalara konu olmuştur. Geçmiş yıllarda metinleri sadece yapısal olarak kıyaslamak mümkün görülürken son yıllarda çeşitli anlamsal benzerlik tespiti yapan yöntemler geliştirilmiştir. Metinlerden anlamsal çıkarım yapmakta kullanılan güncel bir yöntem de derin öğrenme tabanlı kelime temsili yöntemidir. Bu yöntem sayesinde sözcüklerin anlamsal yakınlıklarını saptamak mümkün hale gelmiştir. Bu çalışmada, Türkçe metinlerin hem anlamsal hem de yapısal şekilde incelenmesi sonucunda ortak bir yaklaşım ile benzerliklerinin ölçülmesi hedeflenmiştir. Yapısal benzerliğin ölçülmesinde Kosinüs Benzerliğinden, anlamsal benzerliğin tespitinde ise Word2Vec modelinden faydalanılmıştır. Tez sonucunda, bu iki farklı yaklaşımın ortak kullanımını sağlayan bir yöntem önerilmektedir. Bu kapsamda hem konu odaklı (Bilgi Güvenliği) hem de genel kullanım dili ile oluşturulan metinler üzerinde deneysel testler yapılmıştır. Elde edilen sonuçlar, önerilen yöntemin başarısını kanıtlar nitelikte bulgular ve sonuçlar bölümünde paylaşılmıştır.
Özet (Çeviri)
In today's technologies, the perception of natural languages by machines is an inevitable need for solving many problems. Thanks to the studies carried out on texts, software based solutions are used in many areas such as plagiarism detection, text-author matching, detection of text subject, and text summarization. It is expected that the texts will be interpreted and processed by computers in the exemplified works and many similar fields. In order to interpret the texts, it is expected that the structural and linguistic features of the language used should be comprehended by computers. There are various difficulties and problems to be solved in this process. One of these problems is the ability of computers to comprehend the texts semantically. If the computer is able to make sense from the text, it will provide a great solution to the aforementioned problems. In addition, it will be possible to offer software-based alternatives to problems requiring human perception in the solution by increasing user interaction to a very high level. Measuring the similarity of texts has been the subject of various studies in the literature as a problem addressed within this framework. In the past years, it has been possible to compare the texts only structurally, but in the recent years methods have been developed to detect various semantic similarities. A current method used to make semantic inferences from texts is deep learning based word representation method. This method makes it possible to determine the semantic affinity of words. In this study, as a result of examining Turkish texts both semantically and structurally, it is aimed to measure similarities with a common approach. The structural similarity was measured by Cosine Similarity and the semantic similarity was used by Word2Vec model. As a result of the thesis, a method which provides the common use of these two different approaches is proposed. In this context, experimental tests were conducted on both subject-oriented (Information Security) and general-language texts. The results obtained are shared in the findings and conclusions section which prove the success of the proposed method.
Benzer Tezler
- Yazılım güvenliğinde derin öğrenme tabanlı kaynak kod analizi ve yorum önerimi
Deep learning based source code analysis and review recommendations in software security
YUSUF KARTAL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. KEMAL ÖZKAN
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Developing a deep learning based offline optical character recognition model for printed Ottoman turkish
Derin öğrenme tabanlı çevrimdışı Osmanlıca basılı karakter tanıma modeli geliştirilmesi
AHMED NADHEER QASIM AL-KHAFFAF
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT ATİLA
- Derin öğrenme yöntemleri ile zaman serisi tahmini
Time series classification with deep learning methods
HAKAN GÜNDÜZ
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Derin öğrenme kullanılarak İngilizce – Türkçe çeviriler için cümle eşleme sistemi
Sentence alignment for English to Turkish translations by using deep learning system
EMİR KIZILIRMAK
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERDAL GÜVENOĞLU
DOÇ. DR. VOLKAN TUNALI