Кыргыз текст корпустарынын негизинде гипертексттик-көрсөткүч сөздүгүнтүзүү(журналдык жанр тексти
Kırgız metin korpuslarına dayalı hipermetin sözlük dizini oluşturma (Dergi türü metin)
- Tez No: 614758
- Danışmanlar: DOÇ. DR. BAKIT ŞARŞEMBAEV
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: dergi, metin, frekans sözlük, korpus
- Yıl: 2015
- Dil: Kırgızca
- Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 133
Özet
Dergi türü metinden frekans sözlüğü oluşturup, bu tür metinlere ait olan özellikler incelenir. Toplam olarak 169 dergi üzerinden çeşitli istatistik hesaplamalar gerçekleştirilir. Kırgız dilinin dergi türü korpusun oluşturma işleminin ilk adımların gözleyebilirsiniz. Tezimde üç dergi yayınlarını kullandım: “Жаңы Ала-Тоо”2009 – 2013 yıllarında çıkan yayınları (56 tane yayın) “Шоокум”2005 – 2014 yıllarında çıkan yayınları (95 tane yayın) “Акбашат”dergisinin bütün yayınları (18 tane yayın)“Жаңы Ала-Тоо”dergisi çoğunlukla edebi dergisidir. Yazarlar, şairler ve edebi eser ile ilişkisi var olan insanlar kendi çalışmalarını yayınlayabilirler. Bu derginin 56 yayını MS Word doküman ortamında saklandı. Her yayın yaklaşık 220-300 sayfalık kitap biçimindedir. Demek ki bu yayınlarda milyonlarca kelimeler vardır. Bu yüzden dergiyi yıllara göre böldük (5 tane). Dergiler PDF formatında serbest dağıtılır.“Шоокум”dergisi ise bilim, sosyal hayat ve kültür dergisidir. Toplam 95 yayın içinde 1500-2000 bilimsel araştırma makaleleri vardır. 2005 yılının 25 Aralık günü birinci yayını cıkmış. Bütün dergileri web site ortamında HTML biçiminde yayınlanır.“Акбашат”dergisi bize İslam dini dergisi olarak bilinir. Genelde Kırgızistandaki İslam kültürünün durumu tartışılır. Toplam olarak tezimde 18 yayını kullanıldı. Bu dergi de web site ortamında yayınlanır. Demek bu üç dergi bizim dini, edebi eser ve sosyal hayatımızı kapsar. Toplam 169 dergi yayını MS Word 2010(OpenXML formatı) biçimine getirildi. Tezim için yeterli sayıda dergi yayınları toplandı. ix Tezde hipermetin sözlük dizisini oluşturmak için gerekli olan materyaller ve onları gerekli olan hale getirme aşamaları gösterilir. Dergileri veri tabana saklama işlemi, Java programlama dili ve JavaFX teknolojisi yardımıyla metinleri paragraflara ve kelimelere paylaşma süreci adım adım anlatılır. Çeşitli istatistik verilerin bilgisayar üzerinden nasıl üretildiğini görebiliriz. İstatistik iki çeşit kaynak üzerinden hesaplanır: Metin üzerinden Sözlük üzerinden (benzersiz kelimeleri içeren) Dergileri işaretleme - tezin en uzun vakit süren işlemidir. Her dergi yayını MS Word 2010 ortamına getirilecek şekilde saklanması gerekir. Bu ortam hepimize belli ve yazımda ortak olduğu için seçilmiş. JavaFX teknolojisi ile üretilen yazılım MS Word dokümanlarını okuyabilir. Dokümanları okuduğu zaman paragrafları dört stile göre bölecek(MS Word programın içindeki stiller): 1. stil derginin adını belirleyecek 2. stil derginin bir bölümün belirleyecek 3. stil derginin herhangi bölümünün alt bölümün belirleyecek 4. stil ise genel metin stili olacak Her dergi yayını 1. stildeki metin ile başlayacaktır. Ondan sonra her hangi bir bölüm'ün adı gider. Bölüm adın'dan sonra alt bölüm'ün adı ve o alt bölüme ait olan bütün paragraflar gider. Böylece her paragraf için hangi dergiye, bölüme ve alt bölüme ait olduğu bilgilerimiz olacak. Bu durumda dergileri veri tabana yüklemeye hazırız. Aynı zamanda her paragraf kelimelere bölünüp frekans sözlüğe yüklenir. Paragrafları kelimelere bölürken belli strateji kullanmamız gerekir. Kelimeleri paragraftan ayırma işlemi belli simgelere göre yapılacak. Bu simgelerin toplamı bizim stratejimizi belirler. Ama farklı dergiler için farklı strateji kullanmak zorundayız. Çünkü farklı dergilerin yazma stilleri de farklı. Örnek olarak“Жаңы Ала-Тоо”dergisinin kelimelere ayırma stratejisi“\t \”0123456789«»·¹°|_][@?;:/.,+*)('&…%$•!“”'—№–\\“ simgelerden oluşur. Program paragrafı parçalarken bu simgelerin birisine karşılaşırken kelimenin başladığını veya bittiğini anlar. Böylece frekans sözlüğümüzü doldurmuş oluruz. x Karşılaşacak olacağımız en büyük problem – dergileri MS Word 2010 biçimine getirmektir. Dergilerimizin en büyük kısmın ”Жаңы Ала-Тоо“ dergisi oluşturuyor. Dergi editörleri PDF biçiminde kendi yazı tiplerini kullnıyorlar. Maalesef çevirici programlar bu yazı tipleri MS Word ortamına hata ile dönüştürüyorlar. En son seçimi Adobe Acrobat XI Pro programı üzerinden yaptım. Dönüştürmede olabildikçe en az hata yapabilecektiğini gördüm. ”Шоокум“ ve ”Акбашат“ dergileri HTML biçiminde yayınlandığı için onları doğrudan web sayfalardan kopyaladım. Bu iki derginin yaklaşık 1500 web sayfası MS Word dokümanlarına kopyalandı ve stilleri kullanarak işaretlendi. Yukarıda anlatıldığı gibi bu dergiler için ayrı strateji kullanmamız gerekir. Örnek olarak, web sayfalardaki boşluk simgesi MS Word programındaki boşluk simgesinden farklı olabilir. Çünkü web sitelerde ”" işareti kullanılır ve programımız o işarete karşılaştığı zaman kelimenin pragraf içindeki sınırını belirlemesi gerekir. Cümleler veri tabanına yazılırken onlara ait olan dergi adı, bölüm adı, paragrafın sıra numarası belirlenir. Sonuçta üretilen yazılım kullanıcılara dergi içerisinde istenilen maddeyi aramaya fırsat verir. Frekans sözlüğü üzerinden aşağıdaki istatistik hesaplamalar yapıldı: En uzun kelimelerin dizisi En sık kullanılan kelimelerin dizisi En sık kullanılan harflerin dizisi Harflerin kombinasyonları ve kullanma frekansları (36x36 tablo şekilde) En uzun kelimelerin listesi her dergi için ayrı ayrı yapılır. Sonradan onları birbiriyle karşılaştırabiliriz. Bu listeler SQL komutların kullanarak veya yazılım üzerinden elde edilir. En sık kullanılan kelimelerin ve harflerin dizisi dergi türü metnine ait olan özellikleri incelemede gerek olur. Harflerin kombinasyon istatistiği metnin aktif ve pasif bölgelerin bulmaya yardımcı olur.
Özet (Çeviri)
Журналдык жанр тексттердин негизинде 169 журналдык номерди камтыган корпус түзүлөт. Түзүлгөн жыштык сөздүктүн жардамы менен ар түрдүү статистикалык эсептер ишке ашырылат. Журналдарды берилиштер базасына киргизиш үчүн атайын колдук өнөр менен калыптоо жасалат жана програмдык жабдыктын жардамы менен тексттик документтер берилиштер базасына жызылат. Гипертексттик көрсөткүч сөздүгүн түзүү үчүн материалдар MS Word документ форматында даярдалышы керек. Иштелип чыккан програмдык жабдык JavaFX технологиясы менен түзүлгөн. Көптөгөн проблемалар калыптоо учурунда кездешет. Анткени оригиналдуу документтер PDF жана веб баракчаларында жайгашат. Журналдарда корголгон стильдер колдонгондугу үчүн аларды MS Word документ форматына келтирүү процессинде көптөгөн каталар жана туура эмес форматтоолор ортого чыгат. Диссертацияда колдонулган журналдардын баары MS Word 2010(Open XML форматы) форматына келтирилген. Диссертацияда төмөнкү журналдар колдонулган: •“Жаңы Ала-Тоо ”•“Акбашат”•“Шоокум”Жалпысынан алганда 169 журнал номерлери калыптоодон өткөзүлгөн. Алардын негизги көлөмүн“Жаңы Ала-Тоо”журналы түзөт. Бул журналдын номерлери орточо эсептөөлөр менен 200-300 барактардан турат. Жүргүзүлгөн статистика боюнча төмөнкү маалыматтар белгилүү: vii • Эң узун сөздөрдүн тизмеси • Эң жыш колдонулган сөздөрдүн тизмеси • Эң жыш кодонулган тамгалардын ирети • Тамга айкаштарынын комбинациялык-квантитативдик мүнөздөрү MS Word документин калыптоодо төрт стиль колдонулган (1, 2, 3, 4). Стильдер ирети менен журналдын атын, бөлүмүн, бөлүгүн жана сүйлөмдү белгилейт. JavaFx программасы бул калыптоонун негизинде сүйлөмдөрдү берилиштер базасына жазат жана корпус боюнча издөө мүмкүнчулүгүн колдонуучуга берет. Натыйжада каалаган сөз үчүн сүйлөмдөрдү жана ал сөздүн колдонуу жыштыгын тапсак болот. Aчкыч сѳздѳр: жыштык сөздүк; корпус; калыптоо.
Benzer Tezler
- Кыргыз текст корпустарынын негизинде гипертексттик-көрсөткүч сөздүгүнтүзүү(романдык жанр тексти)
Kırgız metin korpuslarına dayalı hipermetin sözlük dizinioluşturma (Roman türü metin)
ADİLET İBRAGİMON
Yüksek Lisans
Kırgızca
2012
FelsefeKırgızistan-Türkiye Manas ÜniversitesiFelsefe Ana Bilim Dalı
DOÇ. DR. BAKIT BORKOYEV
- Түрк тилинен кыргыз тилине текст которуу программасы
Türkçeden Kırgızca'ya metin çeviren yazılımın geliştirilmesi
BAHORİDDİN DUŞABAYEV
Yüksek Lisans
Kırgızca
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırgızistan-Türkiye Manas ÜniversitesiMühendislik Bilimleri Ana Bilim Dalı
DOÇ. DR. Rayımbek SULTANOV
- КЫРГЫЗ ПОЭМАСЫ ЭР ЭШИМДЕГИ ЧАКЧЫЛДАР ЖАНА АЛАРДЫН КОЛДОНУЛУШУ (текст-индекс-факсимиле)
Kırgız Destanı Er Eşim'deki zarf-fiiller ve kullanımları
DARKAN MAMACANOVA
Yüksek Lisans
Kırgızca
2009
DilbilimKırgızistan-Türkiye Manas ÜniversitesiTürkoloji Ana Bilim Dalı
YRD. DOÇ. DR. GÖKSEL ÖZTÜRK
- Kırgız halk destanı 'Kız saykal' (İnceleme, metin)
Кыргыз элинин «кыз сайкал» эпосу (анализ, текст)
M.NURULLAH CİCİOĞLU
Doktora
Türkçe
2010
Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas ÜniversitesiTürkiye Çalışmaları Ana Bilim Dalı
PROF. DR. SULAYMAN KAYIPOV
- Ali Emîrî Efendi'nin durûb-ı emsâl-i Osmâniyye'si [Metin-çeviri-açıklamalar-dizin]
Али эмири эфендинин дуруби эмсали османиеси [текст-котормо-түшүндүрмөлөр-индекс]
İSLAM KÜÇÜK
Doktora
Türkçe
2014
Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas ÜniversitesiTürkoloji Ana Bilim Dalı
DOÇ. DR. HAKAN TAŞ