Көп тилдүү веб тиркемелердин мазмунунда колдонулган тилдерди аныктоо: аспап иштеп чыгуу жана тил колдонуусун талдоо
Çok dilli web uygulamalarının içeriğinde kullanılan dillerin belirlenmesi: Araç geliştirme Ve dil kullanım analizi
- Tez No: 791763
- Danışmanlar: DOÇ. DR. RİTA İSMAİLOVA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
- Anahtar Kelimeler: web sitesi yerelleştirme, arayüz, kolay içerik, dil ayarları, Dil Algılama, algoritma, kitaplık, Chrome uzantısı, N-gram, NLP, CLD, Chrome API
- Yıl: 2022
- Dil: Kırgızca
- Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
Бүгүнкү күндө глобалдашуу менен бирге сүйлөшүү байланышы гана эмес, тармакта тексттик форматта да маалымат алмашуу зарылдыгы келип чыгууда. Бул ар кайсы өлкөлөрдөгү башка тилдерде сүйлөгөн башка колдонуучуларга маалымат алмашууга, башка өлкөлөрдө жайгашкан сервистердин кызматтарынан пайдаланууга, мисалы э-коммерцияга ж.б. жардам берет. Ошол себептүү, көп тилдүү веб тиркемелер кеңири тарала баштады. Көбүнчө веб-сайттын локалдары деп аталган ар кандай тилдеги веб тиркеменин версиялары - бул колдонуучу интерфейсинде конфигурацияланган, колдоого алынган локалдардагы тил орнотууларынын же өлкөнүн стандарттарынын жыйындысы. Тил орнотуулары хост тутумунан мураска алынат, бирок бул бардык тилдерге толук которула бербеген веб-сайттын мазмунуна тиешелүү эмес. Дүйнө жүзүндөгү изилдөөчүлөр программалык камсыздоону локалдаштыруу процессине көп көңүл бурушканына карабастан, веб-сайттарда көп тилдүү контенттин болушу жана ар кандай локалдардагы текст чындыгында айтылган тилде жазылгандыгы боюнча көп изилдөө жүргүзүлгөн эмес. Ошондуктан, бул изилдөөнүн алкагында контентке талдоо жүргүзүү чечими кабыл алынды жана веб-сайттардагы баардык локализацияларда мазмундун бар экендигин аныктоочу программалык камсыздоо иштелип чыкты жана анын натыйжалуулугун талдоо сунушталды. Локалдаштыруу процесси өзү көп убакытты талап кылат. Машиналык котормодогу изилдөөлөр көрсөткөндөй, эгер мазмун кайталанса жана электрондук соода сайттарындагыдай кыскача сүрөттөөлөрдөн турса, локалдаштыруу процесси жөнөкөйлөтүлөт. Бирок, мамлекеттик веб-сайттардын, айрыкча дипломатиялык өкүлчүлүктөрдүн веб-сайттарынын мазмуну конкреттүү жана так болушу керек. Интернет котормочуларда терминологияны жакшы билген адамдар-котормочулар бере турган теориялык колдоонун көлөмү жок, мисалы — техникалык макалаларды локалдаштырууда. Веб которуулардын сапатын баалоонун так критерийлери жок. Бирок, дүйнө жүзү боюнча көптөгөн колдонуучулар көбүнчө өз тилинде ар кандай маалыматтын болушуна көз каранды; ошентип, веб-сайттын мазмунун жакшы которуу көбүнчө веб-сайтка ээ болгон компаниянын ийгилигинин же ийгиликсиздигинин себеби болуп саналат. Жогоруда айтылгандай, бул дагы сайтта берилген баардык локалдардын мазмунунун жеткиликтүүлүгүнө байланыштуу көйгөйгө алып келет. Көпчүлүк учурларда, иш жүзүндө биз мазмундун жоктугун же мазмун менен локалдык тилдин дал келбестигин көрөбүз, мында бир же эки гана локалда көрсөтүлгөн тилдерде толук маалымат бар. Бул белгилүү бир тилдеги мазмунду окуган колдонуучулар үчүн ыңгайсыз. Ошентип, жарыяланган локалдык сайттын тилинин дал келбестиги көйгөйү, колдонуучунун веб-сайтта жетишкен натыйжалуулугу жана канааттануусу катары аныкталган жана интернеттеги эң чоң көйгөйлөрдүн бири болуп калат. Ошол эле учурда, веб-баракчалардын мазмунун жазган тилди аныктоо көп убакытты талап кылат. Себеби веб-сайттын ар бир барагын ачып, ар бир макаланы кол менен изилдеген, ар бир беттеги берилген тилдеги тексттин пропорциясын эсептөө кыйын. Бул процессти автоматташтырууну карап жатканда, адабиятты талдоо веб-баракчалардын мазмуну жазылган тилди аныктоо үчүн ылайыктуу курал жок экендиги аныкталды. Мындай аспаптарга муктаждык болгонуна карабастан, алардын жоктугун тилди автоматтык түрдө аныктоо (ALD) татаал маселе деп оңой эле түшүндүрсө болот. Табигый тил ушунчалык татаал жана ийкемдүү болгондуктан, тилди талдоо иштеп чыгуучуларга жана изилдөөчүлөргө олуттуу кыйынчылыктарды жаратат. Тилди автоматтык түрдө аныктоо үчүн алгоритмге документтерди символдук коддоо жана тил боюнча классификациялоону киргизүү керек. Алардын идентификациясы документтерди индекстөө, иштетүү жана чыпкалоо үчүн маанилүү. Табигый тилди иштетүү – бул табигый тилди мазмуну боюнча сүрөттөөнүн өзгөчө ыкмасы. Ошондуктан, бул изилдөөдө көп тилдүү веб тиркемелердин мазмунун аныктоо үчүн курал иштелип чыкты. Бул максатка жетүү үчүн, веб тиркеме мазмунунун тилин аныктоо керек. Учурда тилди аныктоо үчүн ар кандай алгоритмдер колдонулат, бирок бул алгоритмдер чоң маалыматтардын негизинде иштейт (мисалы, алар google translate же yandex translate сыяктуу сервистерде колдонулат). Ошондуктан, изилдөөнүн эң маанилүү бөлүгү веб-сайттын мазмунунун тилин аныктоого арналган. Ушуга байланыштуу бул изилдөөнүн алкагында веб-баракчалардын мазмуну кайсы тилде жазылганын аныктоо үчүн“Тилди аныктоо”аттуу курал иштелип чыккан. Бул иштин актуалдуулугу, жогоруда айтылгандай, программалык камсыздоону локалдаштыруу процесси көптөгөн этаптардан турган оор процесс экендигинде. Ошол эле учурда колдонуучунун эне тилиндеги колдонуучу интерфейсинин болушу, изилдөөчүлөрдүн программалык камсыздоонун ыңгайлуулугуна көңүлүн бурган маселелердин бири болуп саналат. Контентти локализациялоонун натыйжаларын аныктоо боюнча изилдөөлөрдүн өтө аз болушу да учурдагы магистрдик диссертациянын маанилүүлүгүнүн көрсөткүчү. Демек, көп тилдүү веб тиркемелердин мазмунунун тилин аныктоочу куралга муктаждык бар экендиги талашсыз. Бул магистрдик диссертацияда көп тилдүү веб-сайттардын мазмунуна басым жасоо менен ар бир тилдеги мазмундун канчасы көрсөтүлгөн тилде жазылганын көрсөтүүчү курал иштелип чыккан. Бул тапшырманын татаалдыгы, биринчиден веб-баракчаны жеткирүүнүн так техникасында, экинчиден сайттагы тексттин тилин аныктоодо. Изилдөөдө лингвистиканы жана машина үйрөнүүнү айкалыштырган табигый тилди иштетүү (NLP), ошондой эле биз сүйлөп жаткан тилди жана адамдардын табигый тилде кантип баарлашарын түшүнүүгө жардам берген табигый тилди түшүнүү (NLU) компьютердик ыкмалары колдонулат. Мындан тышкары, биз тилди аныктоо үчүн N-грамма ыкмалары LogR: LID, PPM: LID жана да TextCat, FastText, Google CLD, Google CLD2, Google CLD3 каралды. Тилди аныктоо үчүн i18n китепканасы колдонулган. Акыр-аягы, колдонуунун жөнөкөйлүгүн эске алуу менен жана веб-контент талдоо жаатындагы көптөгөн изилдөөлөрдүн натыйжаларына таянып, иштелип чыккан куралды браузердин кеңейтүүсү катары чыгаруу чечими кабыл алынды. Ошентип, биздин“Тилди аныктоо”куралыбыз Google LLC технологиялык компаниясы тарабынан иштелип чыккан Google Chrome браузеринин API аркылуу ишке ашырылган. Куралдын натыйжалуулугун көрсөтүү үчүн Кыргыз Республикасынын дипломатиялык өкүлчүлүктөрүнүн 38 веб-сайты изилденген. Бул макалада бул сайттарды изилдөөнүн натыйжалары да берилген. Aчкыч сѳздѳр: веб-сайтты локализациялоо, интерфейс, достук мазмун, тил жөндөөлөрү, тил аныктоо, алгоритм, китепкана, chrome узартылышы, N-грамм, NLP, CLD, Chrome API
Özet (Çeviri)
Günümüzde küreselleşme ile birlikte sadece iletişime değil, metin formatında bilgi alışverişine de ihtiyaç duyulmaktadır. Bu, farklı ülkelerde farklı dilleri konuşan diğer kullanıcıların bilgi alışverişinde bulunmasına, diğer ülkelerde bulunan hizmetlerin hizmetlerini, örneğin e-ticarette vb. yardım edecek. Böylece çok dilli web uygulamaları yaygınlaşmaya başlamıştır. Bir web uygulamasının farklı dillerdeki, genellikle web sitesi yerelleri olarak adlandırılan sürümleri, kullanıcı arabiriminde yapılandırılan desteklenen konumlardaki bir dizi dil ayarı veya ülke standardıdır. Bu dil ayarları, ana bilgisayar sisteminden devralınmasına rağmen, tüm dillere tam olarak çevrilmemiş web sitesi içeriği için geçerli değildir. Dünyanın dört bir yanındaki araştırmacılar yazılım yerelleştirme sürecine odaklanmış olsalar da, web sitelerinde çok dilli içeriğin mevcudiyeti ve farklı konumlardaki metnin aslında konuşulan dilde yazılıp yazılmadığı konusunda çok az araştırma yapılmıştır. Bu nedenle, bu çalışma kapsamında içerik analizi yapılmasına karar verilmiş ve web sitelerindeki tüm yerelleştirmelerde içeriğin varlığını tespit etmek ve etkinliğini analiz etmek için yazılımlar geliştirilmiştir. Yerelleştirme sürecinin kendisi zaman alıcıdır. Makine çevirisinde yapılan araştırmalar, içeriğin e-ticaret sitelerinde olduğu gibi kendini tekrar etmesi ve kısa açıklamalar içermesi durumunda yerelleştirme sürecinin basitleşeceğini göstermektedir. Ancak, hükümet web sitelerinin, özellikle de diplomatik misyonların web sitelerinin içeriği belirli ve açık olmalıdır. İnternet tercümanları, örneğin teknik makaleleri yerelleştirirken, terminolojiye aşina olan tercümanlar tarafından sağlanacak teorik desteğe sahip değildir. Web transferlerinin kalitesini değerlendirmek için net kriterler yoktur. Ancak, dünya çapındaki birçok kullanıcı genellikle kendi dillerinde farklı bilgilerin bulunmasına bağlıdır; Bu nedenle, web sitesi içeriğinin iyi çevrilmesi, genellikle bir web sitesine sahip olan bir şirketin başarısının veya başarısızlığının nedenidir. Yukarıda belirtildiği gibi, bu yine site içeriğinin sitede temsil edilen tüm yerel ayarlarda kullanılabilirliği ile ilgili bir soruna yol açar. Çoğu durumda, uygulamada, belirtilen dillerde tam bilgi setini içeren yalnızca bir veya iki yerel ayar ile içeriğin dili ile yerel ayar arasında bir içerik eksikliği veya uyumsuzluk görüyoruz. Bu, belirli bir dilde içerik okuyan kullanıcılar için elverişsizdir. Bu nedenle, site dilinin belirtilen yerel ayar ile uyumsuzluğu sorunu, bir kullanıcının bir web sitesinde ulaşabileceği verimlilik, etkinlik ve memnuniyet olarak tanımlanan web'deki en büyük kullanılabilirlik sorunlarından biri haline gelir. Aynı zamanda web sayfalarının içeriklerinin yazıldığı dilin belirlenmesi uzun zaman almaktadır. Her sayfada belirli bir dildeki metnin oranını hesaplamak zor olduğundan, web sitesinin her sayfasını açıp her makaleyi manuel olarak incelemek. Bu sürecin otomasyonu düşünüldüğünde, literatür analizinin web sayfalarının içeriğinin yazıldığı dili belirlemeye uygun bir araca sahip olmadığı tespit edilmiştir. Bu tür araçlara ihtiyaç duyulmasına rağmen, bunların eksikliği, otomatik dil algılamanın (ALD) zor bir iş olduğu gerçeğiyle kolayca açıklanabilir. Doğal dil o kadar karmaşık ve esnektir ki, dil analizi geliştiriciler ve araştırmacılar için önemli zorluklar doğurur. Dili otomatik olarak belirlemek için, algoritma belgelerin sembolik kodlamasını ve dil sınıflandırmasını içermelidir. Kimlikleri, belgelerin indekslenmesi, işlenmesi ve filtrelenmesi için önemlidir. Doğal dil işleme, doğal dili içerik açısından tanımlamanın benzersiz bir yoludur. Bu nedenle bu çalışmada çok dilli web uygulamalarının içeriklerini tespit etmek için bir araç geliştirilmiştir. Bu amaca ulaşmak için web uygulaması içeriğinin dilini tanımlamanız gerekir. Şu anda bir dili tanımlamak için farklı algoritmalar kullanılıyor ancak bu algoritmalar büyük veri bazında çalışıyor (örneğin google translate veya yandex translate gibi hizmetlerde kullanılıyor). Bu nedenle, çalışmanın en önemli kısmı web sitesi içeriğinin dilini belirlemektir. Bu bağlamda, bu çalışma kapsamında web sayfalarının içeriklerinin yazıldığı dili belirlemek için“Dil Algıla”adlı bir araç geliştirilmiştir. Bu çalışmanın önemi, daha önce de belirtildiği gibi, yazılım yerelleştirme sürecinin birçok aşamadan oluşan çok zahmetli bir süreç olması gerçeğinde yatmaktadır. Aynı zamanda, kullanıcı arayüzünün kullanıcının ana dilinde bulunması, yazılımların kullanılabilirliği konusunda araştırmacıların dikkatini çeken konulardan biridir. İçerik yerelleştirmenin sonuçlarını ortaya çıkaracak araştırmaların çok az olması da mevcut yüksek lisans tezinin öneminin bir göstergesidir. Bu nedenle, çok dilli web uygulamalarının içeriğinin dilini belirlemek için bir araca ihtiyaç duyulduğuna şüphe yoktur. Bu yüksek lisans tezinde, çok dilli web sitelerinin içeriğine odaklanarak, her yerel ayardaki içeriğin ne kadarının gerçekte belirtilen dilde yazıldığını gösteren bir araç geliştirilmiştir. Bu görevin karmaşıklığı, ilk olarak, bir web sayfasını sunma tekniğinde ve ikinci olarak, sitedeki metnin dilini belirlemede yatmaktadır. Çalışma, bilgisayar bilimi, dilbilim ve makine öğrenimini birleştiren doğal dil işlemeyi (NLP) ve ayrıca konuştuğumuz dili ve insanların doğal dilde nasıl iletişim kurduklarını anlamaya yardımcı olan doğal dil anlama (NLU) bilgisayar tekniklerini kullanır. Ek olarak, dil tanımlaması için N-gram yöntemlerine baktık; LogR: LID, PPM: LID TextCat, FastText, Google CLD, Google CLD2, Google CLD3 gibi dil tanımlama yöntemleri de dikkate alındı. Dili belirlemek için i18n kütüphanesi kullanıldı. Son olarak, kullanım kolaylığı göz önüne alındığında ve web içerik analizi alanında yapılan birçok çalışmanın sonuçlarına dayanarak, geliştirilen aracın bir tarayıcı uzantısı olarak yayınlanmasına karar verildi. Böylece teknoloji şirketi Google LLC tarafından geliştirilen Google Chrome tarayıcı API'si üzerinden“Dil algıla”aracımız hayata geçirildi. Aracın etkinliğini göstermek için Kırgız Cumhuriyeti'nin bir diplomatik misyonunun 38 web sitesi incelendi ve araştırma sonuçları sunuldu.
Benzer Tezler
- Eturizm temelli dijital platform ve uygulamaların kullanımının değerlendirilmesi: Kırgızistan örneği
Туризм индустриясында колдонулган санарип платформаларды жана тиркемелерди талдоо: Кыргызстандын мисалында
SALİMA SEİTAKHUNOVA
Yüksek Lisans
Türkçe
2022
TurizmKırgızistan-Türkiye Manas ÜniversitesiTurizm İşletmeciliği ve Otelcilik Ana Bilim Dalı
DOÇ. DR. GÜNTEKİN ŞİMŞEK
- Sinema eğitiminde yeni yaklaşımlar: Newyork film akademesi
Кино билим берү́ү́дөгү́жаңы ыкмалар: Нью-Йорк киноакадемиясы
ÖVÜNÇ ÇELİKEZEN
Yüksek Lisans
Türkçe
2022
İletişim BilimleriKırgızistan-Türkiye Manas Üniversitesiİletişim Bilimleri Ana Bilim Dalı
PROF. DR. MEHMET SEZAİ TÜRK
- Köktürkçedeki eş anlamlı ve zıt anlamlı kelimeler
Байыркы түрк тилиндеги синоним сөздөр жана антоним сөздөр
HİLMİ GÜLENAY
Yüksek Lisans
Türkçe
2013
DilbilimKırgızistan-Türkiye Manas ÜniversitesiTürkoloji Ana Bilim Dalı
DOÇ. DR. TAALAYBEK ABDİYEV
- Кыргызстанда кош тилдүү жогорку билимдин учурдагы абалы жана социалдык-педагогикалык өнүгүү негиздери (бишкек шаарындагы жогорку окуу жайлардын мисалында)
Kırgızistan'da iki dilli yüksek öğretimin durumu ve sosyal-pedagojik gelişme eğilimi (Bişkek yüksek öğretim kurumları örneğinde)
CILDIZ MAMIROVA
Yüksek Lisans
Kırgızca
2012
Eğitim ve ÖğretimKırgızistan-Türkiye Manas ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. NURBÜBÜ ASİPOVA
- Текст тапшырмаларын баалоо моделин иштеп чыгуу
Metin ödevlerin değerlendirme modelinin geliştirilmesi
IRISKÜL SAPARALİEVA
Yüksek Lisans
Kırgızca
2022
Doğu Dilleri ve EdebiyatıKırgızistan-Türkiye Manas ÜniversitesiDOÇ. DR. RİTA İSMAİLOVA