Pokud pracujete v publikování zpráv, je velká šance, že ve svém obsahu již používáte nějaký typ štítků, klíčových slov. Společnost Parse.ly zjistila, že 70% vydavatelů digitálních médií štítky používá, a to bylo v roce 2015. V roce 2022 je toto číslo ještě výrazně vyšší. Výzkum v Geneea ukázal, že různí vydavatelé přijímají odlišné přístupy ke štítkování obsahu, s velmi rozdílnými výsledky. Ať už tedy štítky používáte nebo ne, může pro Vás být užitečný přehled toho, co jsou štítky jsou a co umí. V tomto příspěvku se pokusíme shrnout nejen to, ale také to, proč může být použití Geneea NLP (zpracování přirozeného jazyka) pro štítkování dobrý nápad.
Co jsou štítky?
V kontextu obsahu zpráv jsou štítky typem metadat. Zpravodajský článek je obvykle doprovázen metadaty, jako je autor příspěvku, časové údaje a informace o tom, do kterých sekcí webu patří (jako jsou zprávy, obchod, kultura atd.). Štítky – někdy také označované jako témata nebo klíčová slova – je mohou doplňovat.
Než budeme mluvit o samotných štítcích, je dobré krátce probrat sekce, které tvoří (zpravodajský) web. Sekce tvoří strukturu zpravodajského webu. Mohou být navrženy interně nebo mohou vycházet ze stávající normy. Existuje několik komplexních klasifikačních systémů, jako je IPTC nebo IAB, které mohou vydavatelé použít nebo upravit tak, aby vyhovovaly jejich konkrétním potřebám. Tyto systémy se skládají z řízené slovní zásoby kategorií organizovaných do hierarchie témat. Zahrnují stovky kategorií, takže má smysl vybrat si rozsah, který vyhovuje vašemu pokrytí.
Noviny, které pokrývají obecné zprávy, mohou používat pouze kategorie nejvyšší úrovně (např. politika, sport nebo věda), zatímco specializovanější časopis se bude chtít své konkrétní oblasti zájmu věnovat hlouběji. My v Geneea pracujeme s několika z těchto populárních kategorizačních systémů a můžeme zákazníkům nabídnout automatickou klasifikaci do přizpůsobeného výběru kategorií, které odpovídají jejich preferencím.
Sekce jsou navrženy tak, aby jakýkoli článek zapadl do jedné nebo více předem vybraných kategorií, což znamená, že pokud, například, nezasáhne globální pandemie, je počet sekcí použitých na webu obvykle omezený. To dává dokonalý smysl pro strukturu zpravodajského webu, ale také to znamená, že články o různých tématech skončí ve stejné sekci. Je dobré vědět, že článek patří, do „světové politiky“, ale nestačí to k tomu, abychom zjistili, o čem článek skutečně je. Jde o vztah mezi USA a Ruskem? Nebo volby v Německu? Zde přicházejí na řadu štítky.
Nejčastěji používanými štítky jsou takzvané „obsahové štítky“, neboli „klíčová slova“ či „témata“. Umožňují detailní klasifikaci článků. Užitečné však mohou být i jiné typy štítků – například štítky založené na typu obsahu, sentimentu, tónu, délce atd. Dokonce i takzvané obsahové štítky mohou být podrobnější než klasická klíčová slova. Mohou obsahovat podrobnější informace o konkrétním předmětu, například zda se týká osoby nebo organizace a jak se vztahuje k jiným entitám v reálném světě.
Štítky jsou skvělé tím, že jsou to metadata doprovázející článek, což znamená, že je lze použít, aniž by bylo třeba přistupovat k samotnému článku. Ale k čemu přesně se dají použít?
K čemu jsou štítky dobré?
Mnoho vydavatelů uvažuje o štítcích z hlediska toho, jaký přínos budou mít pro jejich čtenáře. Štítky umožňují snadno propojit související články, aby čtenáři mohli pokračovat v prozkoumávání tématu, které je zajímá. Když například dojde k novému vývoji v izraelsko-palestinském konfliktu, můžete pomocí štítků rychle najít články na toto téma ve svém archivu a vytvořit časovou osu, aby si vaši čtenáři udělali lepší obrázek o tom, co k aktuální situaci vedlo. Můžete dokonce svým čtenářům nabídnout možnost přihlásit se k odběru určitého štítku, aby dostali e-mail pokaždé, když vyjde nový článek na dané téma. Tyto funkce mohou čtenářům zpříjemnit orientaci na vašem webu. Jak ale mohou štítky prospět samotným vydavatelům?
Obecně lze říci, že štítky umožňují lepší analýzu. Články bez štítků je těžké analyzovat pouze na základě hlavních kategorií, jako je sport, zprávy nebo podnikání. Specifické štítky umožňují podrobnou analýzu dat o zapojení čtenářů, lepší organizaci archivů a další. Pokud mají vydavatelé zájem o analýzu čtenosti, mohou k tomu použít štítky.
Výběr způsobu štítkování
Výběr „správných“ štítků pro zpravodajský článek není tak snadný, jak by se mohlo zdát. Když vydavatel nemá dobře promyšlenou strategii štítkování, může to vést k problémům, protože náhodně použité štítky značně znesnadňují smysluplnou analýzu. Články často postrádají důležité štítky nebo jsou v nich štítky nadbytečné či irelevantní. Také úroveň detailů se může značně lišit. Existuje několik dobrých návodů, které vysvětlují, jak správně štítky používat (jeden z nich si můžete prohlédnout na tomto webu), ale i když máte zavedenou strategii, stále mohou nastat potíže. Navrhnout strategii je jedna věc, dokázat se jí držet v praxi už je něco docela jiného.
Ruční štítkování
I při důkladných kontrolách zůstává faktem, že pokud novináři tvoří štítky ručně, je pravděpodobné, že budou dělat chyby. Manuálně aplikované štítky příliš často trpí duplicitami a překlepy. Když se Süddeutsche Zeitung podívali na své štítky, zjistili, že je mezi nimi velké množství zbytečných duplicitních štítků. Uveďme jen jeden příklad: „Kancléřka Merkelová“, „kancléřka Angela Merkelová“, „německá kancléřka Angela Merkelová“ a „A. Merkelová“ byly štítky označující jednu a tutéž osobu. Podobně je typické, že se stejný štítek často používá v jednotném i množném čísle („iPhone“ vs. „iPhony“).
Navíc, protože neexistují dva lidé, kteří by byli stejní, novináři často volí různé štítky pro podobné články. V Geneea jsme se na tuto problematiku podívali podrobněji, a zjistili jsme, že shoda mezi novináři štítkujícími stejné články je menší než 20 procent. Různí novináři používají synonyma pro stejný koncept nebo mají různé představy o tom, jaké by konkrétní štítky měly být. V důsledku toho může jeden novinář používat štítek „lidská práva“, zatímco jiný používá „práva LGBT“. Jeden zadá „Blízký východ“, zatímco jiný používá „Palestina“ a „Izrael“ a tak dále. Všechny tyto rozdíly vedou k nesrovnalostem v jakékoli analýze nebo kdekoli jinde, kde se štítky používají.
Zmiňme také fakt, že štítkování je mezi novináři velice nepopulární činnost. Existuje tedy jiný způsob štítkování, který by zaručil, že vytvořené štítky budou konzistentní, relevantní, jedinečné a budou obsahovat důležité detaily? Naštěstí existuje.
Štítkování pomocí NLP
Nejlepším způsobem, jak štítky úspěšně identifikovat, je použití metod zpracování přirozeného jazyka (NLP). Software NLP, jako je ten, který vyvíjíme v Geneee, je systém umělé inteligence vytrénovaný k tomu, aby četl texty podobně jako člověk. Díky funkcím, jako je morfologická a syntaktická analýza (určování slovních druhů, pádů, větných členů atd), naše AI rozumí vztahům mezi entitami, a to nejen na úrovni jedné věty, ale i mezi větami. To znamená, že dokáže najít entitu (ať už je to osoba, organizace nebo cokoli jiného), která představuje hlavní předmět článku – i když je jménem zmíněna pouze jednou. Podobně může dát větší váhu těm entitám, které jsou v textu v roli podmětu, než těm, které jsou předmětem. Jde tedy o víc než o pouhé počítání, kolikrát je někdo či něco v textu zmíněno.
Navíc díky rozpoznávání pojmenovaných entit (NER) dokáže náš NLP software rozlišit pojmenované a nepojmenované (obecné) entity a zároveň pojmenovaným entitám přiřadí několik typů (jako je osoba, místo atd). Tato klasifikace pak může být použita k upřednostnění určitých entit před ostatními ve štítcích, a to v závislosti na požadované strategii. Strategie se může lišit pro různé typy článků. Například software může upřednostňovat lidi a organizace v politických článcích, produkty jako auta nebo mobilní telefony v technických článcích a obecné pojmy v článcích vědeckých. Naše NLP AI svým způsobem pracuje s textem jako člověk, ale výhodou je, že jakmile dostane zadanou strategii, bude se jí držet, což znamená, že bude vždy volit stejné štítky pro stejný článek. Vyzkoušejte si to sami na svém vlastním článku v našem online demu.
Další velkou výhodou našeho systému je to, že je propojen s naší vlastní rozsáhlou znalostní bází (Geneea Knowledge Base). Ta v současné době obsahuje přibližně 10 milionů položek z nejrůznějších zdrojů a každým dnem se zvětšuje. Díky GKB rozpozná AI určitou entitu, i když se na ni odkazuje různými jmény, a může pro ni vždy poskytnout přesně stejný štítek (aby se předešlo výše uvedenému problému s duplikáty). Naši znalostní databázi lze také použít k poskytování dalších informací o štítcích a jejich vzájemných vztazích, díky čemuž mohou štítky poskytovat lepší funkce než jednoduchá klíčová slova. Naše umělá inteligence zároveň využívá informace z GKB k rozlišení různých entit se stejným názvem, aby články o americkém herci Adamu Scottovi nebyly zaměňovány s články o australském golfistovi Adamu Scottovi. Je důležité zdůraznit, že do naší znalostní báze můžeme kdykoli přidat entity a informace, které jsou pro určitého zákazníka specifické, a umožnit tak, abyste získali přesně ta data, která potřebujete.
Zmínili jsme jen některé z mnoha výhod, které štítkování pomocí NLP oproti lidskému štítkování má. Není tedy překvapením, že stále více vydavatelů na automatické nebo poloautomatické tagování přechází. Zatímco některé větší mediální domy si mohou dovolit vyvinout vlastní řešení (například The New York Times), pro mnoho menších vydavatelů to není proveditelné. Proto je tu Geneea, která tuto službu vydavatelům zprostředkovává. Naše API lze snadno integrovat do vašeho CMS a je dostatečně flexibilní, aby vyhovovalo vašim konkrétním potřebám. Pomůže vám to získat konzistentní, vysoce relevantní štítky a zároveň vašim novinářům ušetří čas. Práci, kterou často považují za únavnou, odvede za ně a umožní jim se déle a hlouběji věnovat těm činnostem, které za ně stroje udělat nemohou.
Chtěli byste používat automatické štítkování? Navštivte geneea.com/media/tagger, kde najdete více informací, a prohlédněte si case study s jedním z našich hlavních zákazníků, českou mediální společností VLM. Získáte tak lepší představu o tom, jak vše funguje v praxi.