bandicam 2018-04-10 09-03-55-909-大数据_hadoop(五天)-爱哔哩(B站视频、音频mp3解析下载站)

AID:

CID:

视频图片:

作者头像:

弹幕地址:

视频描述:

热门回复：

絮絮念秋风:14:30秒的讲解好像有问题啊，他说单机的时候，是每天把所有数据计算一遍，所以每天用时+1小时。但是说集群的时候，是把新增的1T传输给2000台电脑，传输时间每天都是固定3小时，难道历史数据不用给其他电脑了么？如果历史数据假设保存到其他电脑上了，那历史数据的500M也要和新增的500M进行计算，就变成1G了，然后2000台电脑数据合并就变成1G数据的传输了，不是500M的秒级了。这块感觉他没解释清楚。
絮絮念秋风:可见，大数据的主要应用场景应该是下面两种情况：1）历史数据需要和新增数据进行混合计算；2）历史数据结果需要和新增数据计算结果进行合并。如果历史数据结果不需要再次计算或者和新增数据结果合并，那就不需要大数据。还有单机最大存储容量也需要考虑。
絮絮念秋风:他的意思应该是，历史数据参与计算，但是通过分布式存储，把每天的数据用3小时保存到了2000台电脑上，然后每台电脑每天计算本机存储的所有数据，365天后，每个节点存储了180G数据需要计算。但是对于单机，历史数据已经计算完了，保存结果了，每天只需要对新增的1T数据进行计算，然后和老数据进行合并，第365天，进行的是1T的计算，和364T的合并。