Doğal dil işleme tekniklerini kullanarak Türkçe metinlerden bilgi çıkarımı

Extracting information from Turkish texts using natural language processing techniques

PDF İndir

Tez No: 956020
Yazar: FURKAN BAĞIRGAN
Danışmanlar: DR. ÖĞR. ÜYESİ BEYZA GÖRKEMLİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Erciyes Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 98

Özet

Metinler, insanların bilgiyi aktarmak için kullandığı araçların başında gelmektedir. Bilgiye erişim açısından metinlerden bilgi çıkarımı bu hususta büyük önem taşımaktadır. Metin verilerinin tek tek insanlar tarafından kontrol edilerek gerekli bilgilerin çıkarılması epey bir vakit ve maliyete yol açar. Bu sorunları ortadan kaldırmak için doğal dil işleme teknikleri kullanılır. Doğal dil işlemede yaygın olarak kullanılan anahtar sözcük çıkarımı, bir metnin en önemli ve temsil edici kelimelerini belirleyerek içeriği özetlemeye yardımcı olan temel yöntemlerden biridir. Anahtar sözcük çıkarımı anlamsal bağlam temelli ve sıklık frekansı temelli olmak üzere iki yolla mümkündür. Anlamsal bağlam, cümledeki kelimelerin anlamlarına dayalı bir çıkarım yapmaya olanak tanır. Sıklık frekansı ise kelimelerin metinde tekrarlanma sıklığı üzerinden elde edilir. Sıklık frekanslarının hesaplanması için öncelikle Türkçedeki kelimelerin yapısı bilinmelidir. Hiçbir eke sahip olmayan kökler ve bu köklerin yapım ekleri alarak yeni bir anlam kazanmasıyla oluşan gövdeler, tek başlarına bir anlama sahipken çekim ekleri alan kelimeler yeni bir anlam kazanmaz. Bu çalışmada, önceki çalışmaları temel alan yeni bir gövdeleme yöntemi geliştirilerek, Türkçedeki kısa öyküler üzerinde sıklık frekansları ile anahtar sözcük çıkarımı yapılmıştır. Çalışmanın sonuçları, sözlük kullanan kural tabanlı yeni bir gövdeleme yöntemi ile anahtar sözcük çıkarımının, anlatı türündeki metinler için sade ve etkili bir yaklaşım olup uygulanabilirliğini göstermiştir.

Özet (Çeviri)

Texts are among the primary tools people use to transfer information. Extracting information from texts is of great importance in terms of accessing information. Checking text data one by one by people to extract the necessary information leads to a lot of time and cost. Natural language processing techniques are used to eliminate these problems. Keyword extraction, widely used in natural language processing, is one of the basic methods that help summarize the content by determining a text's most essential and representative words. Keyword extraction is possible in two ways: semantic context-based and frequency-based. Semantic context allows an inference based on the meanings of the words in the sentence. Frequency-based occurrence is obtained based on the frequency of repetition of the words in the text. Understanding the Turkish language's structural characteristics is essential to compute word frequency. Roots without any suffixes, and stems formed by adding derivational suffixes to these roots, acquire new meanings on their own, while words with inflectional suffixes do not. In this study, a new stemming method based on previous studies was developed to extract keywords from Turkish short stories using frequency. The study results showed that keyword extraction with a new rule-based stemming method using a dictionary is a simple and effective approach, and its applicability for narrative texts.

Benzer Tezler

Tez No
740021
TFEEC : Türkçe finansal olay çıkarım derlemi
TFEEC : Turkish financial event extraction corpus
KADİR ŞİNAS KAYNAK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
807250
Akademik hukuk makalelerinde atıf önerisi
Citation recommendation on scholarly legal articles
DOĞUKAN ARSLAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
Tez No
658195
Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant
Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi
DENİZ GÜL ÖZCAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Akdeniz Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT DENİZ ULUŞAR
Tez No
332828
Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
SERAP ÖZKAYA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
Tez No
779347
Makine öğrenmesi ile veri madenciliği teknikleri kullanılarak anahtar kelime tahmini ve tezlerdeki anahtar kelimelerin doğruluk oranı tespiti
Keyword estimation and accuracy of keywords in theses using machine learning and data mining techniques
AYNUR GÜNAY
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Nişantaşı Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH ŞAHİN

Geri Dön