Abstrakt: | Blogy sú neustále rastúcim sociálno-ekonomickým fenoménom ovplyvňujúcim mnohé aspekty nášho života. Menia pohľad na novodobú žurnalistiku, výrazne začali konkurovať tradičným periodikám na Internete, ktoré majú svoju oporu aj v printových médiách. Denne vznikajú tisícky nových blogov a objem blogosféry, celého univerza blogov, sa zdojnásobuje každých päť mesiacov. Tento veľký objem dát, podobne ako celý Web, obsahuje články rôznych kvalít; od vysoko cenných až po bezcenný spam. Klasické algoritmy pre hodnotenie kvality webstránok ako sú PageRank a HITS sa ukazujú ako nedostatočné, lebo nevyužívajú dodatočné informácie -- charakteristiky blogov. V posledných rokoch sa z tohto dôvodu prebiehajú rôzne výskumy zamerané na analýzu blogov a návrh hodnotiacich algorimtov, ktoré by umožnili triediť ich podľa kvality, či popularity.
Jazyk XML sa stal abecedou webových jazykov. Je to jednoduchý, ľahko rozšíriteľný jazyk vhodný na výmenu a ukladanie štruktúrovaných dát, ktoré sa uplatňujú v rôznych aplikáciach (medicína, legislatíva, personalistika, katalógy). Výhodou jazyka XML je textový formát, dobre čitateľný pre ľudí i stroje.
Uchovávanie údajov v XML nie je nová myšlienka. Uskutočniť ju efektívne v súborovom systéme sa však dá iba nad malou množinou dát z dôvodu neprítomnosti indexov, ktoré by zrýchlili pomalé prehľadávanie rozsiahlych XML dokumentov. Problémom je tiež neexistencia aparátu na modifikáciu XML skombinovateľná s dopytovacími jazykmi pre jazyk XML. Ako riešenie týchto problémov sa ponúka nie veľmi známy a pomerne nový koncept -- XML databázy. XML databáza je špecialne určená na ukladanie a manipuláciu s XML dokumentami. Podporuje indexovanie, transakcie a kultivované nástroje na úpravu dát.
Náplňou tejto diplomovej práce je skĺbiť výskum v oblasti XML databáz a hodnotiacich algoritmov pre blogy. Za týmto účelom bol zhotovený plne funkčný komunitný blog portál \texttt{blog.maftyz.sk}, na ktorom boli aplikované výsledky výskumu. Portál beží v súčasnoti na natívnej XML databáze Sedna vyvinutej pri Ruskej Akadémii vied a získava si čím ďalej väčšií záujem verejnosti. V apríli 2008 mal 150 registrovaných používateľov a 600 publikovaných príspevkov. Aj vďaka týmto používateľom sa dala overiť úspešnosť autormi upravenej verzie EigenRumor algoritmu, v ktorej boli zohľadnené špecifické podmienky a výhody tohoto portálu. Rozšírenie ponúknuté v tejto práci využíva zhustený graf príspevkov. Vďaka tejto inovácii po aplikovaní iteratívneho EigenRumor algoritmu dosahuje hodnotenie, ktoré lepšie odráža názor a smerovanie komunity.
|
---|