Popis: veřejný agregátor RSS na webu Specifikace:
- agregátor obsahu by měl obsahovat tématický strom kategorií (seznam kategorií, jejich hierarchii a seznam kanálů do kategorií bych dodal)
- na stránce každé kategorie zpráv je třeba zobrazit seznam zpráv, každou položku ve formátu - vždy nadpis zprávy (s odkazem) a začátek perexu přebíraného z RSS
- odkaz na zprávu musí vést na stránku na agregátoru, kde se vypíše nadpis a kompletní perex z RSS + odkaz na kompletní článek, dále nadpisy a začátky perexů spřízněných článků z jiných webů Postup zjišťování příbuzných článků:
- vždy, když je zařazen do databáze agregátoru nový článek, systém projede např. 1.000 předchozích článků ze všech zdrojů, spočte Jaccardův index, nebo podobnost podle komprese (není to komplikované, podrobnosti o algoritmech mohu vysvětlit) a vybere top 20 nejpodobnějších článků dle skóre
- dále se na stránce článku zobrazí štítky (seznam štítků by měl být konfigurovatelný pomocí textového souboru, počítám nejméně s tisíci štítků) Výpis článků dle štítku: pomocí interního fulltextového vyhledávání - opět zobrazit nadpisy + začátky perexů, opět s odkazy na stránky v agregátoru