Dizilerden birimlere: Bilişimsel dilbilim çerçevesinde bir birimlendirici tasarımı
Strings to tokens: Designing a tokenizer within a computational linguistics framework
- Tez No: 959204
- Danışmanlar: PROF. DR. ÖZAY KARADAĞ
- Tez Türü: Doktora
- Konular: Dilbilim, Eğitim ve Öğretim, Linguistics, Education and Training
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
- Bilim Dalı: Türkçe Eğitimi Bilim Dalı
- Sayfa Sayısı: 113
Özet
Birimlendirme, doğal dilin bilgisayar tarafından işlenmesinde temel bir adımdır; bu işlem karakter dizilerinin anlamlı birimlere dönüştürülmesini sağlar. Çalışmada, bir metni oluşturan her karakter dizisinin bir birim olabileceği, ancak her birimin mutlaka bir sözcük olması gerekmediği savından hareketle özgün bir birimlendirici tasarlanmıştır. TS Tokenizer adıyla geliştirilen araç, düzenli ifadeler ve sözcük listelerini birleştiren hibrit bir yapı ile tasarlanmıştır. Böylelikle hem sözcükler hem de rakamlar, noktalama işaretleri, sosyal medyaya özgü kullanımlar gibi sözcük dışı birimler ilgili karakter dizisinin metin içindeki işlevi temel alınarak birimlendirme sürecine dahil edilmiştir. TS Tokenizer, Python diliyle hazırlanmış, hem bir Python kütüphanesi olarak hem de komut satırı üstünden kullanılabilecek şekilde tasarlanmış ve sunulmuştur. Çalışmada, geleneksel birimlendirme yaklaşımları ile güncel sözcük-altı birimlendirme yöntemleri karşılaştırmalı olarak ele alınmış; bu yöntemlerin sözcük bütünlüğünü gözetmemesi nedeniyle sosyal bilimlerin dil çözümleme beklentilerini karşılamada yetersiz kaldığı eleştirel bir bakışla tartışılmıştır. Uygulama bölümünde NLTK kütüphanesinin sunduğu birimlendiriciler ile TS Tokenizer karşılaştırılmış, ders kitaplarından ve sosyal medya verilerinden oluşan iki farklı derlem analiz edilmiştir. Her iki derlemde de TS Tokenizer'ın, daha verimli sonuç ürettiği, sözcük bütünlüğünü koruma ve noktalama işaretlerinin ayrıştırılması gibi ölçütlerde daha yüksek başarı sağladığı gözlenmiştir. Sonuç olarak, TS Tokenizer; dil eğitimi, uygulamalı dilbilim, derlem dilbilim ve dijital beşeri bilimler gibi alanlarda özgün birimlendirme ihtiyaçlarına yanıt veren, erişilebilir ve açık kaynaklı bir birimlendirici olarak sunulmuştur.
Özet (Çeviri)
Tokenization is a fundamental step in the computational processing of natural language, enabling the conversion of character sequences into meaningful tokens. This study is based on the premise that any sequence of characters in a text can be considered as a token, but not every token must necessarily be a word. Upon this idea, a novel tokenizer named TS Tokenizer has been developed. This tool employs a hybrid architecture that combines using both regular expressions and lexicons. In this way, both words and non-word elements, such as numbers, punctuation marks, and social media-specific expressions, are included in the tokenization process based on their function within the text. TS Tokenizer is implemented in Python and is designed to function both as a Python library and a command-line tool. The study provides a comparative analysis of traditional tokenization methods and recent subword-level approaches. These newer methods are critically examined for their inability to preserve word integrity, a limitation that reduces their usefulness for linguistic analysis in the social sciences. In the experimental section, TS Tokenizer is evaluated against existing tokenizers provided by the NLTK library using two different corpora: one derived from textbooks and the other from social media data. In both corpora, TS Tokenizer demonstrated better performance, particularly in preserving word boundaries and correctly segmenting punctuation. In conclusion, TS Tokenizer is presented as an accessible and open-source tokenizer that responds to the specific tokenization needs of fields such as language education, applied linguistics, corpus linguistics, and digital humanities.
Benzer Tezler
- آراء شوقي ضيف عن اللغة واألدب في كتابه تاريخ األدب العربي } دراسة تحليلي
Târîhü'l-Edebi'l-Arabî adlı eseri çerçevesinde Şevki Dayf'ın Arap dili ve edebiyatına dair görüşleri (Analitik bir çalışma)
ŞEYMA HAKÇIOĞLU
Yüksek Lisans
Arapça
2025
DilbilimVan Yüzüncü Yıl ÜniversitesiTemel İslam Bilimleri Ana Bilim Dalı
DOÇ. DR. RIFAT AKBAŞ
- Kazan-Tatar Türkçesinin tarihî Kıpçak yadigârları bağlamında aidiyeti -anlam bilimsel bir karşılaştırma-
The involvement of Kazan-Tatar language in the context of historical Kıpchak texts -a semantic comparison-
ÖZGE SÖNMEZLER DURAN
Doktora
Türkçe
2020
DilbilimSelçuk ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. UFUK DENİZ AŞCI
- Ardıl çeviride not alma tekniklerinin İngilizce ve Türkçe dil çifti bağlamında incelenmesi: Profesyoneller ve yarı profesyonellerle birlikte bir vaka incelemesi
The analysis of note taking language in consecutive interpreting within the scope of English and Turkish language pair: A case study with professionals and semi professionals
YAŞAR AKGÜN
Yüksek Lisans
Türkçe
2025
Mütercim-TercümanlıkEge ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
PROF. DR. MEHMET TAHİR ÖNCÜ
- Language production in a typological perspective: A corpus study of Turkish slips of the tongue
Tipolojik açıdan dil üretimi: Türkçe dil sürçmeleri derlemi çalışması
İBRAHİM ÖZGÜR ERİŞEN
Yüksek Lisans
İngilizce
2010
DilbilimOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DENİZ ZEYREK
YRD. DOÇ. DR. ANNETTE HOHENBERGER
- Corpus-driven lexical profiles of Turkish fear verbs and metaphorical profiles of somatic fear idioms in Turkish
Türkçe korku eylemlerinin derlem çıkışlı sözcüksel profilleri ve Türkçedeki somatik korku deyimlerinin metafor profilleri
MUHAMMET FATİH ADIGÜZEL
Doktora
İngilizce
2018
DilbilimMersin Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. SERA YEŞİM AKSAN