bandicam 2018-04-10 09-03-55-909-大数据_hadoop(五天)

AID:
CID:
视频图片:
作者头像:
弹幕地址:
视频描述:

热门回复:

  • 絮絮念秋风:14:30秒的讲解好像有问题啊,他说单机的时候,是每天把所有数据计算一遍,所以每天用时+1小时。但是说集群的时候,是把新增的1T传输给2000台电脑,传输时间每天都是固定3小时,难道历史数据不用给其他电脑了么?如果历史数据假设保存到其他电脑上了,那历史数据的500M也要和新增的500M进行计算,就变成1G了,然后2000台电脑数据合并就变成1G数据的传输了,不是500M的秒级了。这块感觉他没解释清楚。
  • 絮絮念秋风:可见,大数据的主要应用场景应该是下面两种情况:1)历史数据需要和新增数据进行混合计算;2)历史数据结果需要和新增数据计算结果进行合并。 如果历史数据结果不需要再次计算或者和新增数据结果合并,那就不需要大数据。 还有单机最大存储容量也需要考虑。
  • 絮絮念秋风:他的意思应该是,历史数据参与计算,但是通过分布式存储,把每天的数据用3小时保存到了2000台电脑上,然后每台电脑每天计算本机存储的所有数据,365天后,每个节点存储了180G数据需要计算。但是对于单机,历史数据已经计算完了,保存结果了,每天只需要对新增的1T数据进行计算,然后和老数据进行合并,第365天,进行的是1T的计算,和364T的合并。