Převodu analogového signálu na digitální — třeba u zvukové nahrávky - se říká vzorkování. Čím častěji odeberu vzorek a vyčíslím jeho hodnotu, tím věrněji změřím původní signál. Nebo ne?
Ano, ale jen v ideálním světě, jaký neexistuje. V realitě je každý signál doplněn šumem. Čím častěji vzorkuji, tím více šumu odebírám spolu se signálem. Správně zvolená frekvence vzorkování je ta, kterou by vybrala Popelka: ani moc, ani málo, ale tak akorát.
Odborněji se tomu říká Nyquistův vzorkovací teorém: volbou frekvence vzorkování lze stanovit, které frekvence signálu ještě přečteme a které ne. Ta nejvyšší, která se z analogových dat do digitálních dostane, je poloviční oproti vzorkovací frekvenci. Vysokofrekvenční šum se automaticky odfiltruje.
Když sledujete zprávy třikrát denně, konzumujete vysokofrekvenční šum. Máte pocit, že se svět zbláznil. Když se na ně podíváte jednou za týden, získáte dojem daleko větší stability - nic se vlastně neděje. Prkotiny se totiž mezitím vyřešily samy a zapomnělo se na ně.
Tohle je jedno z velkých rizik spojených s celým fenoménem Big Data. Mít hodně dat neznamená nutně být na tom lépe. Při naivním přístupu k věci je daleko snazší uškodit si všemi těmi údaji, než z nich jakkoli profitovat.
Zobrazují se příspěvky se štítkemBig Data. Zobrazit všechny příspěvky
Zobrazují se příspěvky se štítkemBig Data. Zobrazit všechny příspěvky
čtvrtek 24. ledna 2013
čtvrtek 20. prosince 2012
Smolanova kniha je i na iPadu
Fotograf Rick Smolan, známý svými tematicky zaměřenými obrazovými publikacemi, vydal novou knihu zaměřenou na digitální data, jejich význam v životě dnešní společnosti a jejich všudypřítomnost. Jmenuje se The Human Face of Big Data a je dostupná také v podobě aplikace pro iPad.
Fotky jsou mimořádné, velice sdělné. Zážitek.
Fotky jsou mimořádné, velice sdělné. Zážitek.
čtvrtek 22. listopadu 2012
Anonymizace versus průkaznost agregovaných dat
Některé problémy člověka prostě předem nenapadnou.
Finanční úřad o mně ví, kolik vydělávám, protože má moje daňová přiznání. Agregovaná data všech daňových přiznání (ve městě, kraji, státě...) prozrazují průměrný příjem (a spoustu dalších věcí). Ta agregovaná data z mnoha důvodů potřebujeme, ta individuálně by měla být nedostupná. No tak spočítáme průměry a výchozí data pak smažeme, ne? Ne.
Když nevratně znepřístupníte výchozí individuální data, ztrácejí ta agregovaná legitimitu: nedá se dokázat, zda jsou pravá a spolehlivá. Když neznepřístupníte, bude vždy možná reverzní operace vedoucí k individuálních datům.
Tohle ještě bude obrovský problém. Obě možnosti jsou totiž špatné a mezi nimi se nenachází žádné jednoduché řešení — možná dokonce vůbec žádné řešení. Prozatímní zárukou ochrany soukromí je (vlastně jen) nedostatečnost osobních dat co do kvantity, kvality a koncentrace, tedy klasická security by obscurity. To ale rychle přestává platit, data jsou digitální, dostupná, propojená a je jich hodně.
Jestli s tímhle háčkem někdo dokáže pohnout, budou to muset být matematici, ne zákonodárci.
David Meyer, GigaOM: Why big data could sink Europe's "right to be forgotten"
“A related question is how aggregated and derived forms of information (e.g. statistics) should be affected when some of the raw data from which statistics are derived are forgotten. Removing forgotten information from all aggregated or derived forms may present a significant technical challenge. On the other hand, not removing such information from aggregated forms is risky, because it may be possible to infer the forgotten raw information by correlating different aggregated forms.”Tohle je vážná věc. Citovaný článek reaguje na konflikt mezi zákonnými požadavky (v tomto případě EU, ale to není příliš podstatné) na anonymizaci dat na jedné straně a průkazností agregovaných dat na straně druhé.
Finanční úřad o mně ví, kolik vydělávám, protože má moje daňová přiznání. Agregovaná data všech daňových přiznání (ve městě, kraji, státě...) prozrazují průměrný příjem (a spoustu dalších věcí). Ta agregovaná data z mnoha důvodů potřebujeme, ta individuálně by měla být nedostupná. No tak spočítáme průměry a výchozí data pak smažeme, ne? Ne.
Když nevratně znepřístupníte výchozí individuální data, ztrácejí ta agregovaná legitimitu: nedá se dokázat, zda jsou pravá a spolehlivá. Když neznepřístupníte, bude vždy možná reverzní operace vedoucí k individuálních datům.
Tohle ještě bude obrovský problém. Obě možnosti jsou totiž špatné a mezi nimi se nenachází žádné jednoduché řešení — možná dokonce vůbec žádné řešení. Prozatímní zárukou ochrany soukromí je (vlastně jen) nedostatečnost osobních dat co do kvantity, kvality a koncentrace, tedy klasická security by obscurity. To ale rychle přestává platit, data jsou digitální, dostupná, propojená a je jich hodně.
Jestli s tímhle háčkem někdo dokáže pohnout, budou to muset být matematici, ne zákonodárci.
David Meyer, GigaOM: Why big data could sink Europe's "right to be forgotten"
úterý 6. listopadu 2012
Dvě důležité studie o Big Data
V uplynulých dnech byly zveřejněny dvě zajímavé a důležité studie týkající se problematiky Big Data. První z nich vytvořila konzultační firma McKinsey, jmenuje se Big data: The next frontier for innovation, competition, and productivity a popisuje návratnost této nové technologie na příkladech vybraných odvětví.
MGI [McKinsey Global Institute] studied big data in five domains—healthcare in the United States, the public sector in Europe, retail in the United States, and manufacturing and personal-location data globally. Big data can generate value in each. For example, a retailer using big data to the full could increase its operating margin by more than 60 percent.Druhou studii vydala OECD a zabývá se v ní datovým provozem na internetu. Analyzuje jeho ekonomický dopad a mj. si všímá toho, že celá tato oblast se dovede v podstatě řídit sama:
A survey of 4300 networks, representing 140,000 direct exchanges of traffic, so called peerings, on the Internet, found that 99.5% of “peering agreements” were on a handshake basis, with no written contract and the exchange of data happening with no money changing hands.Studie OECD Internet Traffic Exchange: Market Developments and Policy Challenges je stejně jako výše zmíněná studie McKinsey ke stažení zdarma a dobře poslouží jako informační zdroj všem vážným zájemcům o Big Data.
středa 31. října 2012
Potřebujeme větší jednotky, petabajty nestačí
Tohle nepotřebuje komentář.
Stacey Higginbotham, GigaOm: As data gets bigger, what comes after a yottabyte?
Takže si zapamatujme:
- On YouTube, 72 hours of video are uploaded per minute, translating to a terabyte every four minutes.
- 500 terabytes of new data per day are ingested in Facebook databases.
- The CERN Large Hadron Collider generates 1 petabyte per second.
- The proposed Square Kilometer Array telescope will generate an exabyte of data per day.
- Sensors from a Boeing jet engine create 20 terabytes of data every hour.
- 1 MB = buď 10^6 byte, nebo 2^20, používá se nejednoznačně (!). Deset na šestou je prostě milion, dvě na dvacátou je 1024 x 1024 = 1 048 576.
- 1 GB = 1000 MB (těch menších) = 10^9 byte, tedy rovná miliarda, tady už si na mocniny dvou nehrajeme. Kdyby někdo přece jen chtěl název pro 2^30 byte, tak to je — věřte, nevěřte, je to pravda — gibibyte!
- 1 TB (terabyte) = 1000 GB = 10^12 byte
- 1 PB (petabyte) = 1000 TB = 10^15 byte
- 1 EB (exabyte) = 1000 PB = 10^18 byte
- 1 ZB (zettabyte) = 1000 EB = 10^21 byte
- 1 YB (yottabyte) = 1000 ZB = 10^24 byte
- 1 brontobyte = 1000 YB = 10^27 byte
- 1 gegobyte = 1000 brontobyte = 10^30 byte.
Pro ty dvě poslední jednotky zatím není stanovena zkratka. Jisté je, že jednou se bude muset zavést.
pondělí 29. října 2012
Exploze nových technologií pro práci s daty
With Storm and Kafka, you can conduct stream processing at linear scale, assured that every message gets processed in real-time, reliably. In tandem, Storm and Kafka can handle data velocities of tens of thousands of messages every second.Extrémním tempem nepřibývá jen dat, ale také technologií, které je umožňují zpracovat. Těch několik, jež jmenuje citovaný článek, patří mezi klíčové a budeme se jimi zde postupně zabývat podrobněji.
Stream processing solutions like Storm and Kafka have caught the attention of many enterprises due to their superior approach to ETL (extract, transform, load) and data integration.
(...) Drill and Dremel compare favorably to Hadoop for anything ad-hoc. Hadoop is all about batch processing workflows, which creates certain disadvantages.
(...) R is an open source statistical programming language. It is incredibly powerful. Over two million (and counting) analysts use R. It’s been around since 1997 if you can believe it. It is a modern version of the S language for statistical computing that originally came out of the Bell Labs. Today, R is quickly becoming the new standard for statistics.
(...) Gremlin and Giraph help empower graph analysis, and are often used coupled with graph databases like Neo4j or InfiniteGraph, or in the case of Giraph, working with Hadoop. Golden Orb is another high-profile example of a graph-based project picking up steam. Graph databases are pretty cutting edge. They have interesting differences with relational databases, which mean that sometimes you might want to take a graph approach rather than a relational approach from the very beginning.
(...) SAP Hana is an in-memory analytics platform that includes an in-memory database and a suite of tools and software for creating analytical processes and moving data in and out, in the right formats.
Tim Gasper, TechCrunch: Big Data Right Now: Five Trendy Open Source Technologies
čtvrtek 27. září 2012
Big Data v podání Seznamu
Heatmapa plánování tras. Za jeden letní měsíc uživatelé naplánovali 685 milionů km tras autem a 9,5 milionů km pěšky. twitter.com/mapy_cz/status…
— mapy.cz (@mapy_cz) Září 21, 2012
čtvrtek 20. září 2012
EMC World 2012: pozor na exponenciály
Exponenciála je zamilovaná křivka IT byznysu.
Na počátku je Moorův zákon: výkon procesorů (a všech ostatních čipů) se při konstantní výrobní (ne nutně prodejní :) ceně zdvojnásobí jednou za půldruhého roku. Exponenciála jak vyšitá. Z toho plyne neutuchající důvěra obchodníků, že si koupíme Produkt 5.0, protože Produkt 4.0 je už dva roky starý. (Některým z nich to funguje.
Potíž s exponenciálou je v tom, že po většinu svého života vypadá jako přímka - ba dokonce jako vodorovná čára, konstanta, která zaostává i za lineárním růstem. Je tomu tak vždycky, když jsou počáteční hodnoty malé. Tedy u všech nových věcí.To nás vede k tomu, že přehlížíme exponenciální trendy a zveličujeme význam přímek. Je to nevyhnutelný a naprosto pochopitelný omyl.
V nelineárním světě se významný trend pozná vždy až zpětně. Když už není pochyb. Když už vás exponenciála praští do hlavy.
O tomhle jsme se s Pavlem Bartákem z EMC snažili mluvit v úvodní přednášce dnešní konference. Ty dnešní exponenciály se jmenují virtualizace; oddělení softwarové vrstvy datacentra od komoditizovaného hardwaru; a také, nu ano, Big Data a cloud.
Přestože vám to všichni říkají, je to pravda.
Na počátku je Moorův zákon: výkon procesorů (a všech ostatních čipů) se při konstantní výrobní (ne nutně prodejní :) ceně zdvojnásobí jednou za půldruhého roku. Exponenciála jak vyšitá. Z toho plyne neutuchající důvěra obchodníků, že si koupíme Produkt 5.0, protože Produkt 4.0 je už dva roky starý. (Některým z nich to funguje.
Potíž s exponenciálou je v tom, že po většinu svého života vypadá jako přímka - ba dokonce jako vodorovná čára, konstanta, která zaostává i za lineárním růstem. Je tomu tak vždycky, když jsou počáteční hodnoty malé. Tedy u všech nových věcí.To nás vede k tomu, že přehlížíme exponenciální trendy a zveličujeme význam přímek. Je to nevyhnutelný a naprosto pochopitelný omyl.
V nelineárním světě se významný trend pozná vždy až zpětně. Když už není pochyb. Když už vás exponenciála praští do hlavy.
O tomhle jsme se s Pavlem Bartákem z EMC snažili mluvit v úvodní přednášce dnešní konference. Ty dnešní exponenciály se jmenují virtualizace; oddělení softwarové vrstvy datacentra od komoditizovaného hardwaru; a také, nu ano, Big Data a cloud.
Přestože vám to všichni říkají, je to pravda.
středa 19. září 2012
Co o vás ví váš hypermarket
Tohle asi všichni znáte. Nebo ne? Nejlepší příběh na téma Big Data a data mining za letošní rok:
V datech je všechno. Jde jen o to najít je a interpretovat.
Charles Duhigg, The New York Times Magazine: How Companies Learn Your Secrets
About a year after Pole created his pregnancy-prediction model, a man walked into a Target outside Minneapolis and demanded to see the manager. He was clutching coupons that had been sent to his daughter, and he was angry, according to an employee who participated in the conversation.
“My daughter got this in the mail!” he said. “She’s still in high school, and you’re sending her coupons for baby clothes and cribs? Are you trying to encourage her to get pregnant?”
V datech je všechno. Jde jen o to najít je a interpretovat.
Charles Duhigg, The New York Times Magazine: How Companies Learn Your Secrets
Kupa sena
Začneme tam, kde jsme naposled skončili.
Problém přetrvává bez ohledu na název. Lidstvo produkuje data šíleným tempem, protože to je snadné. Je zapotřebí je nějak uložit, zpracovat a především z nich vytahat užitečné informace. To snadné není. Představte si jehlu v kupce sena.
A pak si představte hodně velkou kupu sena, dejme tomu jako kontinent. Máte to? A nezapomeňte, že je dynamická, zvětšuje se o čtyřicet procent za rok. Hledejte v tom něco!
Nemůžeme ten problém ignorovat. Na to jsou naše data už příliš cenná a my jsme na nich příliš závislí. Výzva, jak to zvládnout, patří k největším a nejzajímavějším úkolům dneška.
Bonus: když si s tím poradíme, budeme skvěle odměněni. Data představují hrozbu, ale zároveň je v nich zakopaný poklad netušených souvislostí a znalostí.
Napínavé vyhlídky! A skvělé.
Všichni víme, že došlo k datové explozi, že dat přibývá stále rychleji a že to asi přináší jakési potíže. Málokdo ale přemýšlí nad skutečnými rozměry problému, už jen proto, že není lehké si je představit.Můžeme tomu říkat Big Data. Můžeme tomu říkat jinak, jestli se vám ta marketingově-novinářská nálepka nelíbí.
Rozhlédněte se kolem sebe. Internet; prima. Mobilní data a smartphone; jasně. GPS a polohové služby; samosebou. Datové senzory v budovách, v autech, na ulicích. Bezpečnostní systémy. Nakupování, služby, bankovnictví - online i offline, protože z hlediska vytváření digitální stopy je to dnes už skoro jedno, poskytovatelé si zaznamenávají všechno v obou případech. Fotky a videa. Sociální sítě jako malá třešnička na dortu. Wi-fi všude, například už i v letadlech. To vše po čtyřiadvacet hodin denně a pro několik miliard lidí.
Tak se neustále generují data. Hodně hodně moc dat. Za rok 2011 jich přibylo 1,8 zettabajtu. Zettabajt je miliarda terabajtů. Meziroční tempo nárůstu je něco přes čtyřicet procent. Ze stovky máte sto čtyřicet za rok a sto devadesát šest za dva roky a 275 za tři, k tisícinásobku se takhle dostanete za sedm let... ve skutečnosti ještě dříve, protože ten meziroční nárůst se taky pomalu zvětšuje.
Aby to bylo zábavnější, 95 % těch dat je v nestrukturované podobě, tedy nikoli v přehledných databázových tabulkách, s nimiž se počítačům dobře pracuje.
Problém přetrvává bez ohledu na název. Lidstvo produkuje data šíleným tempem, protože to je snadné. Je zapotřebí je nějak uložit, zpracovat a především z nich vytahat užitečné informace. To snadné není. Představte si jehlu v kupce sena.
A pak si představte hodně velkou kupu sena, dejme tomu jako kontinent. Máte to? A nezapomeňte, že je dynamická, zvětšuje se o čtyřicet procent za rok. Hledejte v tom něco!
Nemůžeme ten problém ignorovat. Na to jsou naše data už příliš cenná a my jsme na nich příliš závislí. Výzva, jak to zvládnout, patří k největším a nejzajímavějším úkolům dneška.
Bonus: když si s tím poradíme, budeme skvěle odměněni. Data představují hrozbu, ale zároveň je v nich zakopaný poklad netušených souvislostí a znalostí.
Napínavé vyhlídky! A skvělé.
Přihlásit se k odběru:
Příspěvky (Atom)