Dizilerden birimlere: Bilişimsel dilbilim çerçevesinde bir birimlendirici tasarımı

Strings to tokens: Designing a tokenizer within a computational linguistics framework

PDF İndir

Tez No: 959204
Yazar: TANER SEZER
Danışmanlar: PROF. DR. ÖZAY KARADAĞ
Tez Türü: Doktora
Konular: Dilbilim, Eğitim ve Öğretim, Linguistics, Education and Training
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Hacettepe Üniversitesi
Enstitü: Eğitim Bilimleri Enstitüsü
Ana Bilim Dalı: Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
Bilim Dalı: Türkçe Eğitimi Bilim Dalı
Sayfa Sayısı: 113

Özet

Birimlendirme, doğal dilin bilgisayar tarafından işlenmesinde temel bir adımdır; bu işlem karakter dizilerinin anlamlı birimlere dönüştürülmesini sağlar. Çalışmada, bir metni oluşturan her karakter dizisinin bir birim olabileceği, ancak her birimin mutlaka bir sözcük olması gerekmediği savından hareketle özgün bir birimlendirici tasarlanmıştır. TS Tokenizer adıyla geliştirilen araç, düzenli ifadeler ve sözcük listelerini birleştiren hibrit bir yapı ile tasarlanmıştır. Böylelikle hem sözcükler hem de rakamlar, noktalama işaretleri, sosyal medyaya özgü kullanımlar gibi sözcük dışı birimler ilgili karakter dizisinin metin içindeki işlevi temel alınarak birimlendirme sürecine dahil edilmiştir. TS Tokenizer, Python diliyle hazırlanmış, hem bir Python kütüphanesi olarak hem de komut satırı üstünden kullanılabilecek şekilde tasarlanmış ve sunulmuştur. Çalışmada, geleneksel birimlendirme yaklaşımları ile güncel sözcük-altı birimlendirme yöntemleri karşılaştırmalı olarak ele alınmış; bu yöntemlerin sözcük bütünlüğünü gözetmemesi nedeniyle sosyal bilimlerin dil çözümleme beklentilerini karşılamada yetersiz kaldığı eleştirel bir bakışla tartışılmıştır. Uygulama bölümünde NLTK kütüphanesinin sunduğu birimlendiriciler ile TS Tokenizer karşılaştırılmış, ders kitaplarından ve sosyal medya verilerinden oluşan iki farklı derlem analiz edilmiştir. Her iki derlemde de TS Tokenizer'ın, daha verimli sonuç ürettiği, sözcük bütünlüğünü koruma ve noktalama işaretlerinin ayrıştırılması gibi ölçütlerde daha yüksek başarı sağladığı gözlenmiştir. Sonuç olarak, TS Tokenizer; dil eğitimi, uygulamalı dilbilim, derlem dilbilim ve dijital beşeri bilimler gibi alanlarda özgün birimlendirme ihtiyaçlarına yanıt veren, erişilebilir ve açık kaynaklı bir birimlendirici olarak sunulmuştur.

Özet (Çeviri)

Tokenization is a fundamental step in the computational processing of natural language, enabling the conversion of character sequences into meaningful tokens. This study is based on the premise that any sequence of characters in a text can be considered as a token, but not every token must necessarily be a word. Upon this idea, a novel tokenizer named TS Tokenizer has been developed. This tool employs a hybrid architecture that combines using both regular expressions and lexicons. In this way, both words and non-word elements, such as numbers, punctuation marks, and social media-specific expressions, are included in the tokenization process based on their function within the text. TS Tokenizer is implemented in Python and is designed to function both as a Python library and a command-line tool. The study provides a comparative analysis of traditional tokenization methods and recent subword-level approaches. These newer methods are critically examined for their inability to preserve word integrity, a limitation that reduces their usefulness for linguistic analysis in the social sciences. In the experimental section, TS Tokenizer is evaluated against existing tokenizers provided by the NLTK library using two different corpora: one derived from textbooks and the other from social media data. In both corpora, TS Tokenizer demonstrated better performance, particularly in preserving word boundaries and correctly segmenting punctuation. In conclusion, TS Tokenizer is presented as an accessible and open-source tokenizer that responds to the specific tokenization needs of fields such as language education, applied linguistics, corpus linguistics, and digital humanities.

Benzer Tezler

Tez No
947755
آراء شوقي ضيف عن اللغة واألدب في كتابه تاريخ األدب العربي } دراسة تحليلي
Târîhü'l-Edebi'l-Arabî adlı eseri çerçevesinde Şevki Dayf'ın Arap dili ve edebiyatına dair görüşleri (Analitik bir çalışma)
ŞEYMA HAKÇIOĞLU
Yüksek Lisans
Arapça
2025
Dilbilim Van Yüzüncü Yıl Üniversitesi
Temel İslam Bilimleri Ana Bilim Dalı
DOÇ. DR. RIFAT AKBAŞ
Tez No
653435
Kazan-Tatar Türkçesinin tarihî Kıpçak yadigârları bağlamında aidiyeti -anlam bilimsel bir karşılaştırma-
The involvement of Kazan-Tatar language in the context of historical Kıpchak texts -a semantic comparison-
ÖZGE SÖNMEZLER DURAN
Doktora
Türkçe
2020
Dilbilim Selçuk Üniversitesi
Türk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. UFUK DENİZ AŞCI
Tez No
942659
Ardıl çeviride not alma tekniklerinin İngilizce ve Türkçe dil çifti bağlamında incelenmesi: Profesyoneller ve yarı profesyonellerle birlikte bir vaka incelemesi
The analysis of note taking language in consecutive interpreting within the scope of English and Turkish language pair: A case study with professionals and semi professionals
YAŞAR AKGÜN
Yüksek Lisans
Türkçe
2025
Mütercim-Tercümanlık Ege Üniversitesi
Mütercim Tercümanlık Ana Bilim Dalı
PROF. DR. MEHMET TAHİR ÖNCÜ
Tez No
291690
Language production in a typological perspective: A corpus study of Turkish slips of the tongue
Tipolojik açıdan dil üretimi: Türkçe dil sürçmeleri derlemi çalışması
İBRAHİM ÖZGÜR ERİŞEN
Yüksek Lisans
İngilizce
2010
Dilbilim Orta Doğu Teknik Üniversitesi
Bilişsel Bilim Ana Bilim Dalı
PROF. DENİZ ZEYREK
YRD. DOÇ. DR. ANNETTE HOHENBERGER
Tez No
502571
Corpus-driven lexical profiles of Turkish fear verbs and metaphorical profiles of somatic fear idioms in Turkish
Türkçe korku eylemlerinin derlem çıkışlı sözcüksel profilleri ve Türkçedeki somatik korku deyimlerinin metafor profilleri
MUHAMMET FATİH ADIGÜZEL
Doktora
İngilizce
2018
Dilbilim Mersin Üniversitesi
İngiliz Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. SERA YEŞİM AKSAN

Geri Dön