Geri Dön

A template-independent content extraction approach for news web pages

Haber internet sayfaları için şablon-bağımsız içerik çıkartma yöntemi

  1. Tez No: 315163
  2. Yazar: AHMET YENİÇAĞ
  3. Danışmanlar: PROF. DR. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgi ve Belge Yönetimi, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Information and Records Management, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 95

Özet

İnternet haber sayfaları, reklamlar, bağlantılar, ve kullanıcı yorumları gibi fazladan elemanlar içermektedirler. Bu elemanlar, haber içeriklerinin çıkartılmasını zorlu kılmaktadırlar.Günümüzdeki haber içeriği çıkartma (HİÇ) yöntemleri genellikle şablon bağımlı olarak çalışmaktadırlar. Haber sağlayıcılar, internet sayfası şablonlarını sıklıkla değiştirdikleri için,bu yöntemler düzenli bakım gerektirmektedirler. Bu nedenle, haber içeriklerini internet sayfası şablonlarına bağımlı olmaksızın doğru bir şekilde çıkartabilecek HİÇ yöntemlerine gereksinim duyulmaktadır. Bu tez çalışmasında, bir şablon bağımsız haber içeriği çıkartma yöntemi (N-EXT) önerilmiştir. N-EXT ilk olarak, bir haber sayfasını HTML etiketlerine göre bloklara ayrıştırır. Daha sonra haber içeriğinin çoğunluğunu ya da tamamını içeren bloğu tespit etmek için ayrıştırdığı tüm blokları inceler. Bu amaçla, bloklara metinsel boyutlarını ve haber başlığına olan benzerliklerini göz önünde tutarak birer ağırlık tahsis eder. Bu iki ağırlık bileşenlerinin önemini belirlemek için k-kat çapraz doğrulama yaklaşımı ve olası farklı benzerlik ölçülerinin etkilerini değerlendirmek için de tek yönlü varyans analizi (ANOVA) ve Scheffe çoklu karşılaştırma testi birlikte kullanılmıştır. En yüksek ağırlığa sahip blok, haber bloğu olarak düşünülür. Haber bloğu içerisinde yer alan fakat haber içeriğiyle ilgisi olmayan cümleler, önerilen yöntem tarafından haber bloğuna olan benzerlikleri değerlendirilerek haber bloğundan elenir. Son olarak, önerilen yöntem olası haber içeriği kalıntılarını tespit etmek için, haber bloğu dışındaki blokları da inceler. Farklı haber sitelerinin internet sayfalarını içeren iki farklı deney koleksiyonu üzerinde yapılan deneylerce, önerilen yöntemin doğruluğu ve dayanıklılığı gösterilmiştir.

Özet (Çeviri)

News web pages contain additional elements such as advertisements, hyperlinks, and reader comments. These elements make the extraction of news contents a challenging task. Current news content extraction (NCE) methods are usually template-dependent. They require regular maintenance, since news providers frequently change their web page templates. Therefore, there is a need for NCE methods that extract news contents accurately without depending on web page templates. In this thesis, a template-independent News content EXTraction approach, called N-EXT, is introduced. It first parses a web page into its blocks according to the HTML tags. Then, it examines all blocks to detect the one that contains the major part of the news content. For this purpose, it assigns weights to the blocks by considering both their textual sizes and similarities to the news title. For quantifying the importance of these two weight components, we use the k-fold cross validation approach; and for assessing the impact of different possible similarity measures, we use a one-way Analysis of Variance (ANOVA) with a Scheff\'{e} comparison. The block with the highest weight is considered as the news block. Our approach eliminates the sentences in the news block that are not related to the news content by considering similarities of sentences to the news block. Finally, it also examines other blocks to detect the rest of the news content. The experimental results show the accuracy and robustness of our method by using two test collections whose web pages are obtained from several different news websites.

Benzer Tezler

  1. Liquid crystal - templated synthesis of polymeric microparticles with complex nanostructures

    Sıvı kristal şablonunda kompleks nanoyapılara sahip polimerik mikro parçacıkların sentezlenmesi

    BURAK AKDENİZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Kimya MühendisliğiOrta Doğu Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE BÜKÜŞOĞLU

  2. Tasarım dergilerinde sayfa tasarım unsurları: XOXO The Mag ve Alldesign dergilerinin görsel tasarım analizi ve karşılaştırılması

    Page design elements in design magazines: visual design analysis and comparison of The XOXO The Mag and Alldesign magazines

    SERPİL CAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Güzel Sanatlarİstanbul Arel Üniversitesi

    Grafik Tasarımı Ana Sanat Dalı

    YRD. DOÇ. DEMET KARAPINAR

  3. Development of supramolecular hydrogels with adjustable viscoelastic, mechanical and self-recovering properties

    Ayarlanabilir viskoelastik, mekanik ve kendi-kendini onarma özelliklerine sahip supramoleküler hidrojellerin geliştirilmesi

    ESRA SU

    Doktora

    İngilizce

    İngilizce

    2021

    Kimyaİstanbul Teknik Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. OĞUZ OKAY

  4. Program risk yönetimine yapısal tasarım matrisi esaslı yeni bir yaklaşım

    A new approach to program risk management based on design structural matrix

    FEVZİ MURAT SOLMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    YRD. DOÇ. DR. UMUT ASAN

  5. Ortaokul öğrencilerinin matematik problemi çözme-kurma becerilerinin ve problem kurma ile ilgili metaforik düşüncelerinin incelenmesi

    An investigation of problem solving-posing abilities of secondary school students and their thoughts concerning problem posing by means of using methaphors

    ELİF ESRA ARIKAN

    Doktora

    Türkçe

    Türkçe

    2014

    Eğitim ve ÖğretimYıldız Teknik Üniversitesi

    Matematik Ana Bilim Dalı

    DOÇ. DR. HASAN ÜNAL