Geri Dön

Dizilerden birimlere: Bilişimsel dilbilim çerçevesinde bir birimlendirici tasarımı

Strings to tokens: Designing a tokenizer within a computational linguistics framework

  1. Tez No: 959204
  2. Yazar: TANER SEZER
  3. Danışmanlar: PROF. DR. ÖZAY KARADAĞ
  4. Tez Türü: Doktora
  5. Konular: Dilbilim, Eğitim ve Öğretim, Linguistics, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Türkçe Eğitimi Bilim Dalı
  13. Sayfa Sayısı: 113

Özet

Birimlendirme, doğal dilin bilgisayar tarafından işlenmesinde temel bir adımdır; bu işlem karakter dizilerinin anlamlı birimlere dönüştürülmesini sağlar. Çalışmada, bir metni oluşturan her karakter dizisinin bir birim olabileceği, ancak her birimin mutlaka bir sözcük olması gerekmediği savından hareketle özgün bir birimlendirici tasarlanmıştır. TS Tokenizer adıyla geliştirilen araç, düzenli ifadeler ve sözcük listelerini birleştiren hibrit bir yapı ile tasarlanmıştır. Böylelikle hem sözcükler hem de rakamlar, noktalama işaretleri, sosyal medyaya özgü kullanımlar gibi sözcük dışı birimler ilgili karakter dizisinin metin içindeki işlevi temel alınarak birimlendirme sürecine dahil edilmiştir. TS Tokenizer, Python diliyle hazırlanmış, hem bir Python kütüphanesi olarak hem de komut satırı üstünden kullanılabilecek şekilde tasarlanmış ve sunulmuştur. Çalışmada, geleneksel birimlendirme yaklaşımları ile güncel sözcük-altı birimlendirme yöntemleri karşılaştırmalı olarak ele alınmış; bu yöntemlerin sözcük bütünlüğünü gözetmemesi nedeniyle sosyal bilimlerin dil çözümleme beklentilerini karşılamada yetersiz kaldığı eleştirel bir bakışla tartışılmıştır. Uygulama bölümünde NLTK kütüphanesinin sunduğu birimlendiriciler ile TS Tokenizer karşılaştırılmış, ders kitaplarından ve sosyal medya verilerinden oluşan iki farklı derlem analiz edilmiştir. Her iki derlemde de TS Tokenizer'ın, daha verimli sonuç ürettiği, sözcük bütünlüğünü koruma ve noktalama işaretlerinin ayrıştırılması gibi ölçütlerde daha yüksek başarı sağladığı gözlenmiştir. Sonuç olarak, TS Tokenizer; dil eğitimi, uygulamalı dilbilim, derlem dilbilim ve dijital beşeri bilimler gibi alanlarda özgün birimlendirme ihtiyaçlarına yanıt veren, erişilebilir ve açık kaynaklı bir birimlendirici olarak sunulmuştur.

Özet (Çeviri)

Tokenization is a fundamental step in the computational processing of natural language, enabling the conversion of character sequences into meaningful tokens. This study is based on the premise that any sequence of characters in a text can be considered as a token, but not every token must necessarily be a word. Upon this idea, a novel tokenizer named TS Tokenizer has been developed. This tool employs a hybrid architecture that combines using both regular expressions and lexicons. In this way, both words and non-word elements, such as numbers, punctuation marks, and social media-specific expressions, are included in the tokenization process based on their function within the text. TS Tokenizer is implemented in Python and is designed to function both as a Python library and a command-line tool. The study provides a comparative analysis of traditional tokenization methods and recent subword-level approaches. These newer methods are critically examined for their inability to preserve word integrity, a limitation that reduces their usefulness for linguistic analysis in the social sciences. In the experimental section, TS Tokenizer is evaluated against existing tokenizers provided by the NLTK library using two different corpora: one derived from textbooks and the other from social media data. In both corpora, TS Tokenizer demonstrated better performance, particularly in preserving word boundaries and correctly segmenting punctuation. In conclusion, TS Tokenizer is presented as an accessible and open-source tokenizer that responds to the specific tokenization needs of fields such as language education, applied linguistics, corpus linguistics, and digital humanities.

Benzer Tezler

  1. آراء شوقي ضيف عن اللغة واألدب في كتابه تاريخ األدب العربي } دراسة تحليلي

    Târîhü'l-Edebi'l-Arabî adlı eseri çerçevesinde Şevki Dayf'ın Arap dili ve edebiyatına dair görüşleri (Analitik bir çalışma)

    ŞEYMA HAKÇIOĞLU

    Yüksek Lisans

    Arapça

    Arapça

    2025

    DilbilimVan Yüzüncü Yıl Üniversitesi

    Temel İslam Bilimleri Ana Bilim Dalı

    DOÇ. DR. RIFAT AKBAŞ

  2. Kazan-Tatar Türkçesinin tarihî Kıpçak yadigârları bağlamında aidiyeti -anlam bilimsel bir karşılaştırma-

    The involvement of Kazan-Tatar language in the context of historical Kıpchak texts -a semantic comparison-

    ÖZGE SÖNMEZLER DURAN

    Doktora

    Türkçe

    Türkçe

    2020

    DilbilimSelçuk Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. UFUK DENİZ AŞCI

  3. Ardıl çeviride not alma tekniklerinin İngilizce ve Türkçe dil çifti bağlamında incelenmesi: Profesyoneller ve yarı profesyonellerle birlikte bir vaka incelemesi

    The analysis of note taking language in consecutive interpreting within the scope of English and Turkish language pair: A case study with professionals and semi professionals

    YAŞAR AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Mütercim-TercümanlıkEge Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    PROF. DR. MEHMET TAHİR ÖNCÜ

  4. Language production in a typological perspective: A corpus study of Turkish slips of the tongue

    Tipolojik açıdan dil üretimi: Türkçe dil sürçmeleri derlemi çalışması

    İBRAHİM ÖZGÜR ERİŞEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DENİZ ZEYREK

    YRD. DOÇ. DR. ANNETTE HOHENBERGER

  5. Corpus-driven lexical profiles of Turkish fear verbs and metaphorical profiles of somatic fear idioms in Turkish

    Türkçe korku eylemlerinin derlem çıkışlı sözcüksel profilleri ve Türkçedeki somatik korku deyimlerinin metafor profilleri

    MUHAMMET FATİH ADIGÜZEL

    Doktora

    İngilizce

    İngilizce

    2018

    DilbilimMersin Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. SERA YEŞİM AKSAN