The Hindu: přechod k automatizovanému sémantickému tagování

Sémantické tagování se stalo základním kamenem moderního digitálního publikování. Pohání vše od SEO a personalizace až po interní workflow v redakcích. Na CUE Days 2025 v Kodani si Jirka Hana ze společnosti Geneea povídal se Sureshem Vijayaraghavanem, CTO mediálního domu The Hindu Group, o tom, jak jedna z nejrespektovanějších indických zpravodajských organizací přistupuje k tagování, proč přechází z ručních systémů na automatizované a co tato změna znamená pro novináře i čtenáře.

V rozhovoru níže Suresh nabízí vzácný pohled do zákulisí fungování The Hindu a vysvětluje, proč se konzistentní, AI-řízená metadata stávají klíčovou součástí jejich budoucnosti.

Představení The Hindu a rozsahu jeho provozu

Jiří: Sureshi, moc děkuji, že jste si dnes udělal čas a připojil se k nám. Na úvod – mohl byste nám krátce The Hindu představit?

Suresh: Díky, Jiří, že jste mě pozval. The Hindu je organizace stará 147–148 let. Vydáváme čtyři hlavní produkty: dva deníky, The Hindu a Business Line, a dva magazíny, Frontline a Sportstar. Kromě toho vytváříme i několik doplňkových publikací, které buď doprovázejí deníky, nebo se distribují samostatně.

V rámci The Hindu vydáváme 41 tištěných publikací a 23 digitálních publikací denně. Business Line vydává 16 tištěných a šest digitálních publikací. Celkově máme více než 750 redakčních zaměstnanců, od reportérů, přes editory za stoly, až po seniorské editory, a denně máme v provozu více než 30 stolů.

Od přechodu k digitálnímu publikování naše databáze obsahu narostla na zhruba 5,2 milionu publikovaných článků. Průměrně naše skupina denně vytvoří 700 až 750 článků napříč dvěma hlavními deníky a magazíny.

Když se podíváte na všechna naše obsahová aktiva, máme v CUE DAM (cloudový systém pro správu digitálního obsahu (DAM), který Stibo DX vytvořila speciálně pro potřeby médií a vydavatelství) přibližně 54 milionů textových položek pokrývajících téměř 148 let archivů, k tomu zhruba 4 až 4,5 milionu obrázků a téměř 10 milionů PDF souborů.

Sídlo máme v Chennai v jižní Indii a jsme jedním z hlavních národních deníků v zemi.

Jak The Hindu dnes používá sémantické a funkční tagy

Jiří: To je opravdu působivé. Děkuji za přehled — dokonale to dokresluje kontext. Teď se pojďme bavit o sémantickém tagování, důvodu, proč jsme tady. S tagy, nebo obsahovými tagy, pracujete už dlouho. Mohl byste nám popsat, jak je využíváte v The Hindu a jaké výhody přinášejí redakci, čtenářům nebo i byznysu?

Suresh: Až dosud bylo naše tagování výhradně ruční. U článků používáme IPTC tagy a redaktoři je přiřazují ručně.

Používáme také takzvané funkční tagy. Ty nám pomáhají organizovat a sdružovat články. Pokud například vybereme určitý tag, můžeme zobrazit všechny související články dohromady nebo zjistit nejnovější aktualizace k danému tématu.

To je jeden příklad, ale funkční tagy pohánějí hlavně interní workflow. Označují breaking news, rozlišují prémiové a volně přístupné články nebo označují, že článek má být zařazen do newsletteru. Když editor uzná, že se článek hodí do newsletteru, přidá příslušný tag a newsletterový systém si jej automaticky vyzvedne.

V případě Business Line, našeho finančního deníku, používáme tagy k identifikaci firem kótovaných na burze. Když je napsán článek o kótované společnosti, dostane „company tag“. Díky tomu můžeme kdykoli seskupit všechny články a informace týkající se této společnosti.

Tyto tagy se používají při renderování ve frontendové části CUE. Když si uživatel otevře článek o určité společnosti, systém může okamžitě zobrazit všechny související materiály a seskupit informace o společnosti do dedikované sekce.

Funkční tagy nám také pomáhají rozlišit magazínové články od obsahu denního tisku.

Takže na nejvyšší úrovni pracujeme se dvěma kategoriemi tagů: článkovými tagy a funkčními tagy. To, co jsem popsal, pokrývá hlavní důvody, proč na nich závisíme. A prozatím vše stále děláme ručně — naši redaktoři tagy přidávají při tvorbě článků.

Přechod k automatizaci: proč opustit ruční tagování?

Jiri: Když se podíváme dopředu — nedávno jste dokončili upgrade platformy CUE, gratuluji.

Suresh: Děkuji.

Jiří A spolu s tímto upgradem jste nasadili také službu automatizovaného tagování od Geneey. Až dosud, jak jste řekl, novináři tagovali vše ručně. Co vás vedlo k přechodu na automatizovaný systém? Šlo jen o úsporu času, nebo se snažíte získat i jiné výhody?

Suresh: Když jsme hodnotili přístup k tagování, zaměřili jsme se na pět hlavních aspektů, které nás přiměly k přijetí automatizovaného sémantického tagování. Šetření času novinářů je určitě výhoda, ale tento krok je především součástí širší strategie vedoucí ke zlepšení kvality, konzistence a dohledatelnosti obsahu napříč platformami.

Pět strategických důvodů pro automatizované tagování

Prvním aspektem je konzistence a přesnost. U ručního tagování mohou dva lidé označit tentýž článek rozdílně nebo někdo pod tlakem uzávěrky zapomene přidat důležitý tag. Automatizované tagování zajistí, že každý obsah bude klasifikován podle stejné taxonomie a logiky. Tato konzistence je zásadní pro následné využití — vyhledávání, personalizaci či analytiku.

Druhým aspektem je efektivita redakce. Chceme, aby se naši novináři soustředili na práci s vysokou přidanou hodnotou — reportáže, investigaci, storytelling — ne na opakující se manuální úkoly. A tagování je učebnicový příklad toho, co lze automatizovat.

Třetím aspektem jsou bohatší metadata ve velkém měřítku. Automatizace nám umožňuje označovat obsah mnohem detailněji, než je v lidských silách. Model dokáže detekovat entity, témata, sentiment, lokace, lidi, organizace, události a mnoho dalšího — a to napříč tisíci článků denně. Tím vzniká podrobný obsahový graf, který podporuje jak uživatelskou zkušenost, tak interní přehledy.

Dalším aspektem je zlepšení vyhledávání, doporučování a SEO. Lepší metadata vedou k lepším výsledkům vyhledávání a silnější vnitřní provázanosti článků. Když jsou metadata konzistentní, externí vyhledávače dokážou náš obsah lépe pochopit a zařadit.

Pak je tu personalizace a analytika. Konzistentní strukturovaná metadata tvoří páteř personalizace. Automatizované tagování nám umožňuje chápat obsah na velmi detailní úrovni a párovat jej s preferencemi uživatelů. Pomáhá nám také analyzovat trendy v pokrytí témat, vzorce engagementu, obsahové mezery či nově vznikající témata.

A konečně jde o budoucí odolnost našeho CMS a redakčních workflow. Automatizované tagování se stává základní vrstvou pro zavádění dalších AI nástrojů v redakci, jako jsou sumarizace nebo jazyková vylepšení. Posiluje celý publikační systém.

Výhled do budoucna: tagování jako inteligentní vrstva vydavatelských procesů

Ve stručnosti: automatizované tagování pro nás není jen vylepšení workflow. Je to strategická investice do inteligentní vrstvy našeho publikačního stacku. Zlepšuje kvalitu redakční práce, zvyšuje komfort čtenářů a poskytuje strukturovaný datový základ, který potřebujeme pro personalizaci, analytiku i budoucí inovace.

Jiří: Sureshi, děkuji, že jste nám umožnil nahlédnout do zákulisí The Hindu a velmi detailně popsal, co dokáže tagování přinést vydavatelství, jako je to vaše.

Přechod deníku The Hindu na automatizované sémantické tagování představuje významný krok směrem k efektivnější, datově řízené redakci – k redakci, kde se novináři mohou soustředit na samotné zpravodajství, zatímco AI se stará o strukturální práci, která pohání objevování obsahu, personalizaci i dlouhodobou hodnotu.

Velké díky společnosti Stibo DX za to, že nám na CUE Days 2025 poskytla prostor a podporu, aby mohl tento rozhovor vzniknout.

A samozřejmě velké díky Sureshi Vijayaraghavanovi za sdílení těchto poznatků a za to, že nám umožnil být svědky toho, jak se přední světový vydavatel připravuje na další kapitolu digitální žurnalistiky.