2014年11月15日

[知乎]如何准确又通俗易懂地解释大数据及其应用价值?

作者 zhuangbiaowei

本次样本主要涉及39位知友,共计36442条答案。
如果这就算是大数据,我只能呵呵了。我所理解的大数据,首先在数量级上,就要远远超出我们原本学校里《概率统计》课本上那些常见案例。所以,必须明确反对排名第一的@天光 的回答。

其次,大数据仅仅有数据量,也是不够的。@子柳 的答案,数据太简单,结论也太容易了。

再者,@gilot 的回答,点出了一个要点,是相关性。我认为很有价值。

下面说说我的理解:

  • 世界是复杂的,数据肯定也是复杂的。但是,哪些采样点我们可以去采,而哪些不必去采。是一件非常困难的事情。以一个视频网站为例,视频播放器在播放过程中,应该上传多少种不同的数据,这是一个大问题中的,非常小的一个部分,但是已经足够复杂,值得反复深入的研究与分析。
  • 从 建立探测点,到收集、上报数据,最终汇总数据,我们会发现各种奇怪的数据,大大超出我们原来的预期。哪些是无效数据,哪些是我们预料之外的有效数据,必须 仔细分辨。比如:视频播放器上报的数据,有看到30秒时上报的一次数据,也有看到120秒时上报的一次数据,却没有看到60秒时上报的数据,这种情况是否 正常?
  • 数据量太大,种类太多,如果愿意,我们可以得出无数的结论,如何取舍,如何才能不迷失在海量的数据中,这也是一大难题。如果我们不能根据数据,建立想要分析的对象的数学模型,各种数据放在面前,根本无从下手。
  • 最后,有一个猜测、验证、归纳、修正的大循环。这在大数据分析过程中,是一个必备的流程。

再说几句题外话:

  • 如果所有的数据,都是自己所有,那么难度总不会太高。随着开放平台的逐渐发展,大数据分析的来源数据,可能有很多并非自己所有,而是要借助开放平台的API,来实时获取。
  • 如果所有的计算,都在自己的计算机上完成,那么难度也会大大降低。但是,随着数据量的增长,云计算的各种基础服务,天然可以用于大数据计算,这也是二者之间的结合点。

最后,举一个例子:
基于twitter上人们的即时信息,预测股票市场的走势。这是一种大数据应用。参见:
Twitter预测股票趋势变为现实

当然,如果数据来源不仅仅是twitter,而是所有可能的社交网络、BBS、新闻组,那么这个分析的结果,可能更加准确。