Hadoop教程

数据!数据!

我们生活在数据时代!很难估计全球以电子方式存储的数据总量有多少,但IDC 的一项预测曾指出,“数字宇宙”(digital universe)项目统计得出,2006年的数据 总量为0.18 ZB,并预测在2011年,数据量将达到1.8 ZB。® 1 ZB等于1021字 节,或等于1000EB, 1 000 000 PB,或是大家更熟悉的10亿TB的数据!这相当于世界上每人一个磁盘驱动器所能容纳数据的数量级。

数据“洪流”有很多来源。以下面列出的部分为例。

  • 纽约证券交易所每天产生1 TB的交易数据。
  • Facebook存储着约100亿张照片,约1PB存储容量。
  • Ancestry.com, 一个家谱网站,存储着2.5PB数据。
  • The Internet Archive(互联网档案馆)存储着约2PB的数据,并以每月至少 20TB的速度增长。
  • 瑞士日内瓦附近的大型强子对撞机每年产生约15 PB的数据。
  • 此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据严密保存 (locked up)在一些大型互联网公司(如搜索引擎公司),或科学机构,或金融机构, 难道不是吗?难道所谓的“大数据”的出现会影响到较小的组织或个人?

    我认为是这样的。以照片为例,我妻子的祖父是一个狂热的摄影爱好者。成年之 后,他经常拍照片。整个照片集,包括普通胶片、幻灯片、35 mm胶片,在扫描 成高解析度图片之后,大约有10 GB。相比之下,2008年我家用数码相机拍摄的 照片就有5 GB。我家照片数据的生成速度是我妻子祖父的35倍!并且,这个速 度还在不断增加,因为拍摄照片变得越来越容易了。

    更一般的情况是,个人数据的产生量正在快速地增长。微软研究院的MyLifeBits 项目(httpj/research.microsoft.com/en-m/prvjects/mylifebits/default.aspx)显示,在不 久的将来,将普及个人信息档案。MyLifeBits是这样的一个实验:获取并存储个人 与外界的联系情况(电话、邮件和文件),以供后期访问。收集的数据中包括每分钟 拍摄的照片等,其数据量达到每月1GB左右。当存储成本下降得足够多,以至于 可以存储连续音频和视频时,未来MyLifeBits项目所存储的数据量将是现在的许 多倍。

    目前的趋势是保存每个人成长过程中产生的所有数据,但更重要的是,计算机产生 的数据可能比个人产生的更多。机器日志、RFID检测器、传感器网络、车载GPS 和零售交易数据等——所有这些都将使数据量显著增加。

    公开发布的数据量也在逐年增加。组织或企业,不仅需要管理好自己的数据,更需 要从其他组织或企业的数据中获取有价值的信息,以便在未来获得更大的成功。

    这方面的先锋,如 Public Data Sets on Amazon Web Services、Infochimps.org 和 theinfo.org,正在培育“信息共享系统”(information commons),任何人都可以在 此自由下载和分析这些数据(例如通过AWS平台实现共享,并以合理的价格收费)。不同来源的信息混合处理后,将带来意外的效果和今天难以想象的应用。

    以Astrometry.net项目为例,这是一个观察和分析Flickr网站上天文小组所拍星空 照片的项目。该项目分析每一张照片,并辨别出该图片是天空或其他天体(例如恒 星和银河系等)的哪一部分。该项目表明,如果可用的数据足够多(在本例中,为加 有标签的图片数据),这些数据可用于数据创建者也想象不到的一些应用(例如,图片分析)。

    曾有这么一句话:“大量的数据胜于好的算法。”意思是说对于某些应用(譬如 基于先前偏好进行电影和音乐推荐),不论你的算法有多好,大量可用的数据总能 带来更好的推荐效果。®

    现在,我们已经有了大量的数据,这对我们来说是个好消息。不幸的是,我们当下正纠结于存储和分析这些数据。


    关注微信获取最新动态