Data Enrichment – obohacení vašich dat

Dne
7
.
4
.
2021

Data Enrichment (tzv. obohacení dat) propojí vaše prostorová data s demografickými a socio-ekonomickými statistikami, které jsou dostupné ve 137 zemích světa. Můžete tak dostat odpovědi na otázky: Kolik lidí zde žije? Jak jsou staří? Jaký je jejich životní styl? Za co nejvíce utrácejí?

Lucie PatkováLucie Patková

Při použití této funkce se kolem vybraných prvků vytvoří nová polygonová vrstva obalových zón, do kterých služba ArcGIS GeoEnrichment zapíše atributy s demografickými a ekonomickými charakteristikami. Velikost této zóny je samozřejmě možné měnit.

Vedle toho ale můžeme obohatit jakýkoliv polygon, který máme v našich datech – např. dojezdovou vzdálenost kolem bodu (například obchodů), území administrativního členění jako jsou státy, kraje, okresy… zkrátka cokoliv.

Jak Data Enrichment funguje?

ArcGIS vybere nejpodrobnější polygony s demografickou informací, které má pro dané území k dispozici, a vytvoří síť bodů – tzv. settlement points. Hodnota těchto bodů reprezentuje informaci o lidech, kteří zde žijí. Síť bodů má velikost 75 metrů.

Pokud je nejmenší jednotka území, pro které chceme Data Enrichment získat, tak malá, že v sobě neobsahuje žádný settlement point, přidá nástroj do těchto polygonů ještě centroid. Na obrázku níže to jsou žluté polygony, do nichž proto ArcGIS vytvoří centroid.

Nástroje Enrich Layer v ArcGIS Online nebo služba GeoEnrichment v ArcGIS Pro používají k rozdělení demografických a socio-ekonomických proměnných do výstupních polygonových prvků algoritmus, který analyzuje každý polygon ve vztahu k bodové datové sadě a k nejmenším polygonům s demografickou a ekonomickou informací.

Odkud data pochází?

Zdroje dat jsou různé. Některé země mají detailní demografické charakteristiky o obyvatelstvu, jež vycházejí např. ze sčítání lidí a domů, některé země mají informace méně podrobné. Metadata o každé operaci typu Data Enrichment proto obsahují hodnotu Reliable statistics v rozmezí 1.0 – 5.0, kde 1.0 je nejlepší, tj. nejpodrobnější a nejpřesnější zdroj dat. Pro Českou republiku jsou data od společnosti Michael Bauer Research GmbH (MB Research), poskytující demografická a socioekonomická data a hranice územního členění již od roku 2004. Zpracovává data ze sčítání lidí, domů a bytů a data z národních statistických agentur – u nás Českého statistického úřadu a Eurostatu. V České republice máme detailní tabulky ze Sčítání lidí, domů a bytů, podobně jako např. ve Francii, Španělsku a Itálii. Další země využívají polygony PSČ (Postal Codes), např. Německo, Dánsko, Maďarsko nebo Polsko. Některé země jsou málo podrobné a nejmenší jednotky v nich mohou být i celá města.

Aktuální data za Českou republiku se vztahují k roku 2019, interval aktualizace je 2 roky.

Kvalitu Data Enrichment ovlivňuje:

  • Kvalita dat ze sčítání – tj. kdy naposledy sčítání proběhlo, jakého typu bylo sčítání, jaká je nejmenší velikost jednotek pro sčítání, hodnověrnost sčítání apod.
  • Kvalita tzv. Footprint for Settlement Score – např. jeden polygon může být velice malé území s jednotkami obyvatel, ale také polygon celé městské části, ve které žije třeba 1 mil. obyvatel – tyto analýzy pak nedávají velkou představu o chování lidí ve městě.

Hlavní statistiky, o které můžete obohatit svá data, jsou:

  • počet obyvatel,
  • počet domácností,
  • věkové složení obyvatel,
  • pohlaví,
  • příjem domácností,
  • domácnosti podle typu,
  • rodinný stav,
  • vzdělání,
  • nezaměstnanost,
  • příjem,
  • výdaje.

Pro Českou republiku jsou aktuálně k dispozici tyto kategorie:

Údaje o počtu obyvatel jsou uvedeny jako předpokládané průměry pro aktuální rok na základě oficiálních statistik. Pro účely spotřebitelských analýz specifických pro danou cílovou skupinu nebo pro potřeby profilování oblastí je dostupná celá řada proměnných: počet domácností, velikost domácností, domácnosti podle typu, pohlaví a věku, vzdělání, rodinný stav a nezaměstnanost.

Dalším ukazatelem jsou domácnosti podle příjmu – počet domácností je rozdělen do 5 tříd podle jejich příjmu. První kvantil představuje 20 % domácností s nejnižším příjmem (na národní úrovni), pátý kvantil představuje 20 % domácností s nejvyšším příjmem v každé oblasti.

Index kupní síly (Purchasing Power Indices) je indikátorem pro distribuci produktů a služeb, jejichž poptávka do značné míry závisí na příjmech spotřebitelů. Kupní síla ukazuje disponibilní příjem soukromých domácností po odečtení daní a povinných sociálních odvodů určité populace regionu. V důsledku toho se kupní síla skládá z čistých příjmů ze zaměstnání, důchodů, dávek v nezaměstnanosti apod. Kupní síla je vždy udávána v měně dané země – tj. za ČR v korunách.

Údaje o výdajích spotřebitelů jsou rozděleny do kategorií a monitorují výdaje spotřebitelů za různé produkty a služby:

  • jídlo a nealkoholické nápoje,
  • alkoholické nápoje,
  • tabákové výrobky,
  • oděvy,
  • obuv,
  • nábytek, koberce a zařízení domácnosti,
  • bytový textil,
  • domácí přístroje,
  • kuchyňské sklo, nádobí a potřeby,
  • dílna a zahrada,
  • úklidové prostředky,
  • zdravotní potřeby,
  • spotřební elektronika a počítače,
  • kultura a rekreace,
  • knihy a časopisy,
  • služby stravování,
  • osobní péče,
  • šperky a hodinky.

Služba Data Enrichment spotřebovává kredity – proto při výpočtu obohacení dat můžete před samotnou analýzou kliknout na Show credits a hned uvidíte, kolik daný výpočet spotřebovává kreditů. Pokud využijete službu Data Enrichment pro 100 prvků a každý prvek obohatíte o jednu proměnnou (např. počet obyvatel), spotřebujete 1 kredit. Při obohacení 50 prvků o 4 proměnné to jsou pak 2 kredity.

Obohacení dat je dostupné pomocí služby ArcGIS GeoEnrichment Service, kterou využívá ArcGIS Online, ArcGIS Pro, Insights for ArcGIS, ArcGIS Business Analyst a další aplikace Esri. Služba je dostupná také v ArcGIS REST API, takže je možné obohacení dat zahrnout také do programovaných aplikací. Z výsledků je možné vytvářet i reporty v XLS nebo PDF.

Mohlo by vás zajímat

Data

ArcGIS Living Atlas of the World

Veřejně dostupných dat je na ArcGIS Online ohromné množství. Jak nalézt ta, která jsou vhodná pro naši práci?
Data

Vychází nová verze ArcČR® 4.0

Co najdete v nejnovější verzi geodatabáze ArcČR a proč obsahuje to, co obsahuje?
Data

Databáze Data50 Zeměměřického úřadu

Databáze Data50 je digitální geografický model území České republiky (ČR) odpovídající přesností a stupněm generalizace měřítku 1 : 50 000, který je spravován Zeměměřickým úřadem v rámci Informačního systému státního mapového díla.

ARCDATA PRAHA

Víte, že většina dat má nějaký prostorový kontext?
Zboží i zákazníci se někde nacházejí a někam putují; všechny události se někde odehrávají.
V této složce dat je ukryt obrovský potenciál.
Pojďte ho objevit s námi a nechte se inspirovat, jak může GIS pomoci i vám.

Esri logo