Geri Dön

Кыргыз текст корпустарынын негизинде гипертексттик-көрсөткүч сөздүгүнтүзүү(журналдык жанр тексти

Kırgız metin korpuslarına dayalı hipermetin sözlük dizini oluşturma (Dergi türü metin)

  1. Tez No: 614758
  2. Yazar: ERNİST BEKBOEV
  3. Danışmanlar: DOÇ. DR. BAKIT ŞARŞEMBAEV
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: dergi, metin, frekans sözlük, korpus
  7. Yıl: 2015
  8. Dil: Kırgızca
  9. Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 133

Özet

Dergi türü metinden frekans sözlüğü oluşturup, bu tür metinlere ait olan özellikler incelenir. Toplam olarak 169 dergi üzerinden çeşitli istatistik hesaplamalar gerçekleştirilir. Kırgız dilinin dergi türü korpusun oluşturma işleminin ilk adımların gözleyebilirsiniz. Tezimde üç dergi yayınlarını kullandım: “Жаңы Ала-Тоо”2009 – 2013 yıllarında çıkan yayınları (56 tane yayın) “Шоокум”2005 – 2014 yıllarında çıkan yayınları (95 tane yayın) “Акбашат”dergisinin bütün yayınları (18 tane yayın)“Жаңы Ала-Тоо”dergisi çoğunlukla edebi dergisidir. Yazarlar, şairler ve edebi eser ile ilişkisi var olan insanlar kendi çalışmalarını yayınlayabilirler. Bu derginin 56 yayını MS Word doküman ortamında saklandı. Her yayın yaklaşık 220-300 sayfalık kitap biçimindedir. Demek ki bu yayınlarda milyonlarca kelimeler vardır. Bu yüzden dergiyi yıllara göre böldük (5 tane). Dergiler PDF formatında serbest dağıtılır.“Шоокум”dergisi ise bilim, sosyal hayat ve kültür dergisidir. Toplam 95 yayın içinde 1500-2000 bilimsel araştırma makaleleri vardır. 2005 yılının 25 Aralık günü birinci yayını cıkmış. Bütün dergileri web site ortamında HTML biçiminde yayınlanır.“Акбашат”dergisi bize İslam dini dergisi olarak bilinir. Genelde Kırgızistandaki İslam kültürünün durumu tartışılır. Toplam olarak tezimde 18 yayını kullanıldı. Bu dergi de web site ortamında yayınlanır. Demek bu üç dergi bizim dini, edebi eser ve sosyal hayatımızı kapsar. Toplam 169 dergi yayını MS Word 2010(OpenXML formatı) biçimine getirildi. Tezim için yeterli sayıda dergi yayınları toplandı. ix Tezde hipermetin sözlük dizisini oluşturmak için gerekli olan materyaller ve onları gerekli olan hale getirme aşamaları gösterilir. Dergileri veri tabana saklama işlemi, Java programlama dili ve JavaFX teknolojisi yardımıyla metinleri paragraflara ve kelimelere paylaşma süreci adım adım anlatılır. Çeşitli istatistik verilerin bilgisayar üzerinden nasıl üretildiğini görebiliriz. İstatistik iki çeşit kaynak üzerinden hesaplanır:  Metin üzerinden  Sözlük üzerinden (benzersiz kelimeleri içeren) Dergileri işaretleme - tezin en uzun vakit süren işlemidir. Her dergi yayını MS Word 2010 ortamına getirilecek şekilde saklanması gerekir. Bu ortam hepimize belli ve yazımda ortak olduğu için seçilmiş. JavaFX teknolojisi ile üretilen yazılım MS Word dokümanlarını okuyabilir. Dokümanları okuduğu zaman paragrafları dört stile göre bölecek(MS Word programın içindeki stiller):  1. stil derginin adını belirleyecek  2. stil derginin bir bölümün belirleyecek  3. stil derginin herhangi bölümünün alt bölümün belirleyecek  4. stil ise genel metin stili olacak Her dergi yayını 1. stildeki metin ile başlayacaktır. Ondan sonra her hangi bir bölüm'ün adı gider. Bölüm adın'dan sonra alt bölüm'ün adı ve o alt bölüme ait olan bütün paragraflar gider. Böylece her paragraf için hangi dergiye, bölüme ve alt bölüme ait olduğu bilgilerimiz olacak. Bu durumda dergileri veri tabana yüklemeye hazırız. Aynı zamanda her paragraf kelimelere bölünüp frekans sözlüğe yüklenir. Paragrafları kelimelere bölürken belli strateji kullanmamız gerekir. Kelimeleri paragraftan ayırma işlemi belli simgelere göre yapılacak. Bu simgelerin toplamı bizim stratejimizi belirler. Ama farklı dergiler için farklı strateji kullanmak zorundayız. Çünkü farklı dergilerin yazma stilleri de farklı. Örnek olarak“Жаңы Ала-Тоо”dergisinin kelimelere ayırma stratejisi“\t \”0123456789«»·¹°|_][@?;:/.,+*)('&…%$•!“”'—№–\\“ simgelerden oluşur. Program paragrafı parçalarken bu simgelerin birisine karşılaşırken kelimenin başladığını veya bittiğini anlar. Böylece frekans sözlüğümüzü doldurmuş oluruz. x Karşılaşacak olacağımız en büyük problem – dergileri MS Word 2010 biçimine getirmektir. Dergilerimizin en büyük kısmın ”Жаңы Ала-Тоо“ dergisi oluşturuyor. Dergi editörleri PDF biçiminde kendi yazı tiplerini kullnıyorlar. Maalesef çevirici programlar bu yazı tipleri MS Word ortamına hata ile dönüştürüyorlar. En son seçimi Adobe Acrobat XI Pro programı üzerinden yaptım. Dönüştürmede olabildikçe en az hata yapabilecektiğini gördüm. ”Шоокум“ ve ”Акбашат“ dergileri HTML biçiminde yayınlandığı için onları doğrudan web sayfalardan kopyaladım. Bu iki derginin yaklaşık 1500 web sayfası MS Word dokümanlarına kopyalandı ve stilleri kullanarak işaretlendi. Yukarıda anlatıldığı gibi bu dergiler için ayrı strateji kullanmamız gerekir. Örnek olarak, web sayfalardaki boşluk simgesi MS Word programındaki boşluk simgesinden farklı olabilir. Çünkü web sitelerde ”" işareti kullanılır ve programımız o işarete karşılaştığı zaman kelimenin pragraf içindeki sınırını belirlemesi gerekir. Cümleler veri tabanına yazılırken onlara ait olan dergi adı, bölüm adı, paragrafın sıra numarası belirlenir. Sonuçta üretilen yazılım kullanıcılara dergi içerisinde istenilen maddeyi aramaya fırsat verir. Frekans sözlüğü üzerinden aşağıdaki istatistik hesaplamalar yapıldı:  En uzun kelimelerin dizisi  En sık kullanılan kelimelerin dizisi  En sık kullanılan harflerin dizisi  Harflerin kombinasyonları ve kullanma frekansları (36x36 tablo şekilde) En uzun kelimelerin listesi her dergi için ayrı ayrı yapılır. Sonradan onları birbiriyle karşılaştırabiliriz. Bu listeler SQL komutların kullanarak veya yazılım üzerinden elde edilir. En sık kullanılan kelimelerin ve harflerin dizisi dergi türü metnine ait olan özellikleri incelemede gerek olur. Harflerin kombinasyon istatistiği metnin aktif ve pasif bölgelerin bulmaya yardımcı olur.

Özet (Çeviri)

Журналдык жанр тексттердин негизинде 169 журналдык номерди камтыган корпус түзүлөт. Түзүлгөн жыштык сөздүктүн жардамы менен ар түрдүү статистикалык эсептер ишке ашырылат. Журналдарды берилиштер базасына киргизиш үчүн атайын колдук өнөр менен калыптоо жасалат жана програмдык жабдыктын жардамы менен тексттик документтер берилиштер базасына жызылат. Гипертексттик көрсөткүч сөздүгүн түзүү үчүн материалдар MS Word документ форматында даярдалышы керек. Иштелип чыккан програмдык жабдык JavaFX технологиясы менен түзүлгөн. Көптөгөн проблемалар калыптоо учурунда кездешет. Анткени оригиналдуу документтер PDF жана веб баракчаларында жайгашат. Журналдарда корголгон стильдер колдонгондугу үчүн аларды MS Word документ форматына келтирүү процессинде көптөгөн каталар жана туура эмес форматтоолор ортого чыгат. Диссертацияда колдонулган журналдардын баары MS Word 2010(Open XML форматы) форматына келтирилген. Диссертацияда төмөнкү журналдар колдонулган: •“Жаңы Ала-Тоо ”•“Акбашат”•“Шоокум”Жалпысынан алганда 169 журнал номерлери калыптоодон өткөзүлгөн. Алардын негизги көлөмүн“Жаңы Ала-Тоо”журналы түзөт. Бул журналдын номерлери орточо эсептөөлөр менен 200-300 барактардан турат. Жүргүзүлгөн статистика боюнча төмөнкү маалыматтар белгилүү: vii • Эң узун сөздөрдүн тизмеси • Эң жыш колдонулган сөздөрдүн тизмеси • Эң жыш кодонулган тамгалардын ирети • Тамга айкаштарынын комбинациялык-квантитативдик мүнөздөрү MS Word документин калыптоодо төрт стиль колдонулган (1, 2, 3, 4). Стильдер ирети менен журналдын атын, бөлүмүн, бөлүгүн жана сүйлөмдү белгилейт. JavaFx программасы бул калыптоонун негизинде сүйлөмдөрдү берилиштер базасына жазат жана корпус боюнча издөө мүмкүнчулүгүн колдонуучуга берет. Натыйжада каалаган сөз үчүн сүйлөмдөрдү жана ал сөздүн колдонуу жыштыгын тапсак болот. Aчкыч сѳздѳр: жыштык сөздүк; корпус; калыптоо.

Benzer Tezler

  1. Кыргыз текст корпустарынын негизинде гипертексттик-көрсөткүч сөздүгүнтүзүү(романдык жанр тексти)

    Kırgız metin korpuslarına dayalı hipermetin sözlük dizinioluşturma (Roman türü metin)

    ADİLET İBRAGİMON

    Yüksek Lisans

    Kırgızca

    Kırgızca

    2012

    FelsefeKırgızistan-Türkiye Manas Üniversitesi

    Felsefe Ana Bilim Dalı

    DOÇ. DR. BAKIT BORKOYEV

  2. Түрк тилинен кыргыз тилине текст которуу программасы

    Türkçeden Kırgızca'ya metin çeviren yazılımın geliştirilmesi

    BAHORİDDİN DUŞABAYEV

    Yüksek Lisans

    Kırgızca

    Kırgızca

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırgızistan-Türkiye Manas Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    DOÇ. DR. Rayımbek SULTANOV

  3. КЫРГЫЗ ПОЭМАСЫ ЭР ЭШИМДЕГИ ЧАКЧЫЛДАР ЖАНА АЛАРДЫН КОЛДОНУЛУШУ (текст-индекс-факсимиле)

    Kırgız Destanı Er Eşim'deki zarf-fiiller ve kullanımları

    DARKAN MAMACANOVA

    Yüksek Lisans

    Kırgızca

    Kırgızca

    2009

    DilbilimKırgızistan-Türkiye Manas Üniversitesi

    Türkoloji Ana Bilim Dalı

    YRD. DOÇ. DR. GÖKSEL ÖZTÜRK

  4. Kırgız halk destanı 'Kız saykal' (İnceleme, metin)

    Кыргыз элинин «кыз сайкал» эпосу (анализ, текст)

    M.NURULLAH CİCİOĞLU

    Doktora

    Türkçe

    Türkçe

    2010

    Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas Üniversitesi

    Türkiye Çalışmaları Ana Bilim Dalı

    PROF. DR. SULAYMAN KAYIPOV

  5. Ali Emîrî Efendi'nin durûb-ı emsâl-i Osmâniyye'si [Metin-çeviri-açıklamalar-dizin]

    Али эмири эфендинин дуруби эмсали османиеси [текст-котормо-түшүндүрмөлөр-индекс]

    İSLAM KÜÇÜK

    Doktora

    Türkçe

    Türkçe

    2014

    Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas Üniversitesi

    Türkoloji Ana Bilim Dalı

    DOÇ. DR. HAKAN TAŞ