úterý 6. listopadu 2012

Dvě důležité studie o Big Data

V uplynulých dnech byly zveřejněny dvě zajímavé a důležité studie týkající se problematiky Big Data. První z nich vytvořila konzultační firma McKinsey, jmenuje se Big data: The next frontier for innovation, competition, and productivity a popisuje návratnost této nové technologie na příkladech vybraných odvětví.
MGI [McKinsey Global Institute] studied big data in five domains—healthcare in the United States, the public sector in Europe, retail in the United States, and manufacturing and personal-location data globally. Big data can generate value in each. For example, a retailer using big data to the full could increase its operating margin by more than 60 percent.
Druhou studii vydala OECD a zabývá se v ní datovým provozem na internetu. Analyzuje jeho ekonomický dopad a mj. si všímá toho, že celá tato oblast se dovede v podstatě řídit sama:
A survey of 4300 networks, representing 140,000 direct exchanges of traffic, so called peerings, on the Internet, found that 99.5% of “peering agreements” were on a handshake basis, with no written contract and the exchange of data happening with no money changing hands.
Studie OECD Internet Traffic Exchange: Market Developments and Policy Challenges je stejně jako výše zmíněná studie McKinsey ke stažení zdarma a dobře poslouží jako informační zdroj všem vážným zájemcům o Big Data.

středa 31. října 2012

Je kniha víc než jen data?

In 2002, on a Friday, Larry Page began to end the book as we know it. Using the 20 percent of his time that Google then allotted to its engineers for personal projects, Page and Vice-President Marissa Mayer developed a machine for turning books into data. The original was a crude plywood affair with simple clamps, a metronome, a scanner, and a blade for cutting the books into sheets. The process took 40 minutes. The first refinement Page developed was a means of digitizing books without cutting off their spines — a gesture of tender-hearted sentimentality towards print.
Velice zajímavá úvaha. Marný pokus o obranu starých dobrých časů, prosté nedorozumění, anebo hluboké varování? Jsem pro interpretaci číslo dvě, ale až budete mít čtvrthodinku volnou, stejně si to přečtěte. Je to chytré, ale z jiného světa.
Algorithms are inherently fascistic, because they give the comforting illusion of an alterity to human affairs.

Stephen Marche, Los Angeles Review of Books: Literature is not Data: Against Digital Humanities

Potřebujeme větší jednotky, petabajty nestačí

Tohle nepotřebuje komentář.
  • On YouTube, 72 hours of video are uploaded per minute, translating to a terabyte every four minutes.
  • 500 terabytes of new data per day are ingested in Facebook databases.
  • The CERN Large Hadron Collider generates 1 petabyte per second.
  • The proposed Square Kilometer Array telescope will generate an exabyte of data per day.
  • Sensors from a Boeing jet engine create 20 terabytes of data every hour.
Takže si zapamatujme:
  • 1 MB = buď 10^6 byte, nebo 2^20, používá se nejednoznačně (!). Deset na šestou je prostě milion, dvě na dvacátou je 1024 x 1024 = 1 048 576.
  • 1 GB = 1000 MB (těch menších) = 10^9 byte, tedy rovná miliarda, tady už si na mocniny dvou nehrajeme. Kdyby někdo přece jen chtěl název pro 2^30 byte, tak to je — věřte, nevěřte, je to pravda — gibibyte!
  • 1 TB (terabyte) = 1000 GB = 10^12 byte
  • 1 PB (petabyte) = 1000 TB = 10^15 byte
  • 1 EB (exabyte) = 1000 PB = 10^18 byte
  • 1 ZB (zettabyte) = 1000 EB = 10^21 byte
  • 1 YB (yottabyte) = 1000 ZB = 10^24 byte
  • 1 brontobyte = 1000 YB = 10^27 byte
  • 1 gegobyte = 1000 brontobyte = 10^30 byte.
Pro ty dvě poslední jednotky zatím není stanovena zkratka. Jisté je, že jednou se bude muset zavést.

Stacey Higginbotham, GigaOm: As data gets bigger, what comes after a yottabyte?

pondělí 29. října 2012

Půvab transakčních dat

Wikipedii ubývají editoři, článků přibývá pomaleji. Proč? Richard Jensen se domnívá, že odpověď mohou poskytnout metadata z Wikipedie — data o datech. Počet přibývajících článků má podobu klasické nasycovací S-křivky a totéž platí o počtu oprav.


Transakční data pomáhají odhalovat to, co se v systémech děje doopravdy, ne to, čím se projevují navenek. Analytika kterékoli webové stránky je patrně zajímavější než ta stránka sama.

Rebecca J. Rosen, The Atlantic: Surmounting the Insurmountable: Wikipedia Is Nearing Completion, in a Sense


Exploze nových technologií pro práci s daty

With Storm and Kafka, you can conduct stream processing at linear scale, assured that every message gets processed in real-time, reliably. In tandem, Storm and Kafka can handle data velocities of tens of thousands of messages every second.

Stream processing solutions like Storm and Kafka have caught the attention of many enterprises due to their superior approach to ETL (extract, transform, load) and data integration.

(...) Drill and Dremel compare favorably to Hadoop for anything ad-hoc. Hadoop is all about batch processing workflows, which creates certain disadvantages.

(...) R is an open source statistical programming language. It is incredibly powerful. Over two million (and counting) analysts use R. It’s been around since 1997 if you can believe it. It is a modern version of the S language for statistical computing that originally came out of the Bell Labs. Today, R is quickly becoming the new standard for statistics.

(...) Gremlin and Giraph help empower graph analysis, and are often used coupled with graph databases like Neo4j or InfiniteGraph, or in the case of Giraph, working with Hadoop. Golden Orb is another high-profile example of a graph-based project picking up steam. Graph databases are pretty cutting edge. They have interesting differences with relational databases, which mean that sometimes you might want to take a graph approach rather than a relational approach from the very beginning.

(...) SAP Hana is an in-memory analytics platform that includes an in-memory database and a suite of tools and software for creating analytical processes and moving data in and out, in the right formats.
Extrémním tempem nepřibývá jen dat, ale také technologií, které je umožňují zpracovat. Těch několik, jež jmenuje citovaný článek, patří mezi klíčové a budeme se jimi zde postupně zabývat podrobněji.

Tim Gasper, TechCrunch: Big Data Right Now: Five Trendy Open Source Technologies

čtvrtek 27. září 2012

Big Data v podání Seznamu

čtvrtek 20. září 2012

EMC World 2012: pozor na exponenciály

Exponenciála je zamilovaná křivka IT byznysu.

Na počátku je Moorův zákon: výkon procesorů (a všech ostatních čipů) se při konstantní výrobní (ne nutně prodejní :) ceně zdvojnásobí jednou za půldruhého roku. Exponenciála jak vyšitá. Z toho plyne neutuchající důvěra obchodníků, že si koupíme Produkt 5.0, protože Produkt 4.0 je už dva roky starý. (Některým z nich to funguje.

Potíž s exponenciálou je v tom, že po většinu svého života vypadá jako přímka - ba dokonce jako vodorovná čára, konstanta, která zaostává i za lineárním růstem. Je tomu tak vždycky, když jsou počáteční hodnoty malé. Tedy u všech nových věcí.To nás vede k tomu, že přehlížíme exponenciální trendy a zveličujeme význam přímek. Je to nevyhnutelný a naprosto pochopitelný omyl.

V nelineárním světě se významný trend pozná vždy až zpětně. Když už není pochyb. Když už vás exponenciála praští do hlavy.

O tomhle jsme se s Pavlem Bartákem z EMC snažili mluvit v úvodní přednášce dnešní konference. Ty dnešní exponenciály se jmenují virtualizace; oddělení softwarové vrstvy datacentra od komoditizovaného hardwaru; a také, nu ano, Big Data a cloud.

Přestože vám to všichni říkají, je to pravda.