Open Refine je skvělý pomocník pro práci s daty

Open Refine: Jak učesat špatně strukturovaná data

Pracuji jako marketingový konzultant a tvořím webové stránky. Často proto stojím před úkolem zpracovat analýzu klíčových slov. Díky ní se otevře poměrně jasný přehled o tom, co lidé na internetu v konkrétním oboru hledají. Je to hodně důležité jak pro tvorbu informační architektury webu, tak pro psaní textů (copywriting) i optimalizaci pro vyhledávače (SEO). Právě nyní připravuji analýzu toho, jak lidé hledají seno a další krmiva pro koně. V minulosti to byla například hledání v odvětví kachlových kamen, oční optika nebo služby imigračního právníka. Počet slovních spojení se při takové analýze běžně pohybuje v řádech stovek až tisíců a data navíc pocházejí z různých zdrojů. V minulosti jsem pro provedení analýzy používal jen Microsoft Excel (a hrozně jsem se natrápil). Teď už mám ale k ruce užitečného pomocníka. Jmenuje se Open Refine (dřív Google Refine), který mi s organizací dat výrazně pomůže. Co dřív trvalo i dny, je teď hotové mnohem rychleji. Jak to funguje?


Sběr dat a jejich setřídění v Open Refine

Začátek je “normální”. S pomocí nástrojů jako je Google Ads Plánovač klíčových slov, Sklik Návrh klíčových slov, KeywordTool.io nebo Marketing Miner si vyhledám relevantní klíčová slova. Ta “sesypu” do jednoho excelového souboru. Důležité je, aby na sebe dobře navazovaly jednotlivé sloupečky a aby čísla dávala smysl. Pak tento soubor nahraji do programu Open Refine. A teď to pojede. Open Refine má totiž fantastickou funkci, která pozná, která spojení jsou obměnou jednoho a toho samého. Například takhle:

  • granulovane seno
  • granulované seno
  • granulovaná sena
  • seno granulát

V Excelu bych musel všechno ručně projít a přepsat. Open Refine mi sám (na základě různých algoritmů) nabídne konkrétní kandidáty na sloučení, a já je buď potvrdím, nepotvrdím nebo doplním vlastní spojení, jak je chci sloučit. Na obrázku níže vidíte ilustrační příklad (ale tady se už nic slučovat nebude, protože by to moc nedávalo smysl).

Takhle vypadá Open Refine v akci

Silná stránka Open Refine: Filtry a facety

Open Refine má výborné nástroje, pomocí kterých můžeme data pokročile filtrovat a dokonce filtrovat v rámci filtrovaných kategorií. To je velmi šikovné například tehdy, když si potřebujeme utřídit víc dimenzí: například základ slova (třeba seno), podkategorii (balíky) a s ní spojenou aktivitu (prodej) a lokalitu (České Budějovice).

Dokončení analýzy v Excelu

Když je všechno hotové, umí Open Refine exportovat výsledek do různých formátů. Já používám Excel (XLSX). Tam pak tvořím kontingenční tabulky a grafy.

Ukázka dat v kontingenční tabulce, která bude cenným vstupem při tvorbě informační architektury nového webu
Ukázka dat v kontingenční tabulce, která bude cenným vstupem při tvorbě informační architektury nového webu. Zrovna tady je vidět, že výživa kloubů pro koně a výživa na klouby pro koně by se daly sloučit do jednoho termínu.

 

Kde a jak získat Open Refine

Tento užitečný pomocník je k dispozici zdarma. Stačí si jen stáhnout soubor (viz odkaz níže), program nainstalovat a pak s ním začít pracovat. Rozhraní běží v internetovém prohlížeči a je poměrně přehledné. Pokud jste s Open Refine ještě nikdy nepracovali, doporučuji mrknout se na tutoriály na YouTube (odkaz opět dole), nebo si přečíst návody. S tímto nástrojem se dají dělat doslova divy. Jediné, co mě na tomto programu pro práci s daty mrzí, je, že jsem se s ním nenaučil pracovat mnohem dřív.


Další informace: