Zobrazují se příspěvky se štítkemexponenciala. Zobrazit všechny příspěvky
Zobrazují se příspěvky se štítkemexponenciala. Zobrazit všechny příspěvky

středa 31. října 2012

Potřebujeme větší jednotky, petabajty nestačí

Tohle nepotřebuje komentář.
  • On YouTube, 72 hours of video are uploaded per minute, translating to a terabyte every four minutes.
  • 500 terabytes of new data per day are ingested in Facebook databases.
  • The CERN Large Hadron Collider generates 1 petabyte per second.
  • The proposed Square Kilometer Array telescope will generate an exabyte of data per day.
  • Sensors from a Boeing jet engine create 20 terabytes of data every hour.
Takže si zapamatujme:
  • 1 MB = buď 10^6 byte, nebo 2^20, používá se nejednoznačně (!). Deset na šestou je prostě milion, dvě na dvacátou je 1024 x 1024 = 1 048 576.
  • 1 GB = 1000 MB (těch menších) = 10^9 byte, tedy rovná miliarda, tady už si na mocniny dvou nehrajeme. Kdyby někdo přece jen chtěl název pro 2^30 byte, tak to je — věřte, nevěřte, je to pravda — gibibyte!
  • 1 TB (terabyte) = 1000 GB = 10^12 byte
  • 1 PB (petabyte) = 1000 TB = 10^15 byte
  • 1 EB (exabyte) = 1000 PB = 10^18 byte
  • 1 ZB (zettabyte) = 1000 EB = 10^21 byte
  • 1 YB (yottabyte) = 1000 ZB = 10^24 byte
  • 1 brontobyte = 1000 YB = 10^27 byte
  • 1 gegobyte = 1000 brontobyte = 10^30 byte.
Pro ty dvě poslední jednotky zatím není stanovena zkratka. Jisté je, že jednou se bude muset zavést.

Stacey Higginbotham, GigaOm: As data gets bigger, what comes after a yottabyte?

čtvrtek 20. září 2012

EMC World 2012: pozor na exponenciály

Exponenciála je zamilovaná křivka IT byznysu.

Na počátku je Moorův zákon: výkon procesorů (a všech ostatních čipů) se při konstantní výrobní (ne nutně prodejní :) ceně zdvojnásobí jednou za půldruhého roku. Exponenciála jak vyšitá. Z toho plyne neutuchající důvěra obchodníků, že si koupíme Produkt 5.0, protože Produkt 4.0 je už dva roky starý. (Některým z nich to funguje.

Potíž s exponenciálou je v tom, že po většinu svého života vypadá jako přímka - ba dokonce jako vodorovná čára, konstanta, která zaostává i za lineárním růstem. Je tomu tak vždycky, když jsou počáteční hodnoty malé. Tedy u všech nových věcí.To nás vede k tomu, že přehlížíme exponenciální trendy a zveličujeme význam přímek. Je to nevyhnutelný a naprosto pochopitelný omyl.

V nelineárním světě se významný trend pozná vždy až zpětně. Když už není pochyb. Když už vás exponenciála praští do hlavy.

O tomhle jsme se s Pavlem Bartákem z EMC snažili mluvit v úvodní přednášce dnešní konference. Ty dnešní exponenciály se jmenují virtualizace; oddělení softwarové vrstvy datacentra od komoditizovaného hardwaru; a také, nu ano, Big Data a cloud.

Přestože vám to všichni říkají, je to pravda.

středa 19. září 2012

Kupa sena

Začneme tam, kde jsme naposled skončili.
Všichni víme, že došlo k datové explozi, že dat přibývá stále rychleji a že to asi přináší jakési potíže. Málokdo ale přemýšlí nad skutečnými rozměry problému, už jen proto, že není lehké si je představit.

Rozhlédněte se kolem sebe. Internet; prima. Mobilní data a smartphone; jasně. GPS a polohové služby; samosebou. Datové senzory v budovách, v autech, na ulicích. Bezpečnostní systémy. Nakupování, služby, bankovnictví - online i offline, protože z hlediska vytváření digitální stopy je to dnes už skoro jedno, poskytovatelé si zaznamenávají všechno v obou případech. Fotky a videa. Sociální sítě jako malá třešnička na dortu. Wi-fi všude, například už i v letadlech. To vše po čtyřiadvacet hodin denně a pro několik miliard lidí.

Tak se neustále generují data. Hodně hodně moc dat. Za rok 2011 jich přibylo 1,8 zettabajtu. Zettabajt je miliarda terabajtů. Meziroční tempo nárůstu je něco přes čtyřicet procent. Ze stovky máte sto čtyřicet za rok a sto devadesát šest za dva roky a 275 za tři, k tisícinásobku se takhle dostanete za sedm let... ve skutečnosti ještě dříve, protože ten meziroční nárůst se taky pomalu zvětšuje.

Aby to bylo zábavnější, 95 % těch dat je v nestrukturované podobě, tedy nikoli v přehledných databázových tabulkách, s nimiž se počítačům dobře pracuje.
Můžeme tomu říkat Big Data. Můžeme tomu říkat jinak, jestli se vám ta marketingově-novinářská nálepka nelíbí.

Problém přetrvává bez ohledu na název. Lidstvo produkuje data šíleným tempem, protože to je snadné. Je zapotřebí je nějak uložit, zpracovat a především z nich vytahat užitečné informace. To snadné není. Představte si jehlu v kupce sena.

A pak si představte hodně velkou kupu sena, dejme tomu jako kontinent. Máte to? A nezapomeňte, že je dynamická, zvětšuje se o čtyřicet procent za rok. Hledejte v tom něco!

Nemůžeme ten problém ignorovat. Na to jsou naše data už příliš cenná a my jsme na nich příliš závislí. Výzva, jak to zvládnout, patří k největším a nejzajímavějším úkolům dneška.

Bonus: když si s tím poradíme, budeme skvěle odměněni. Data představují hrozbu, ale zároveň je v nich zakopaný poklad netušených souvislostí a znalostí.

Napínavé vyhlídky! A skvělé.