hwyzw 发表于 2024-11-28 22:14:48

大数据技术基础概念解析:分布式计算与服务器集群的应用

    本节将简要介绍大数据技术的基本概念,包括分布式计算、服务器集群以及三大数据技术。

    分布式计算

    关于如何处理大数据,计算机科学界有两个主要方向。

    第一个方向是集中计算,即通过不断增加处理器的数量来增强单台计算机的计算能力,从而提高数据处理的速度。

    第二个方向是分布式计算,就是将一组计算机通过网络相互连接起来,形成一个分布式系统,然后将需要处理的大量数据分散成多个部分,交给分布式系统中的计算机组进行同时计算,最后将这些计算结果组合起来得到最终结果。

    虽然去中心化系统中单台计算机的计算能力不强,但由于每台计算机只计算一部分数据,而多台计算机同时计算,所以去中心化系统中数据处理的速度会比是一台计算机的。

    过去,分布式计算理论相对复杂,技术实现难度较大。因此,集中式计算一直是处理大数据的主流方案。

    IBM的大型机是典型的集中式计算硬件,被许多银行和政府机构用来处理大数据。然而,IBM的大型机对于当时的互联网公司来说太贵了。因此,互联网公司将研究重点放在了可以在廉价计算机上使用的分布式计算。

    服务器集群

    服务器集群是提高服务器整体计算能力的解决方案。它是由相互连接的服务器组组成的并行或分布式系统。

    由于服务器集群中的服务器运行相同的计算任务,因此从外部看,这组服务器表现为虚拟服务器,向外界提供统一的服务。

    虽然单台服务器的计算能力有限,但当成百上千台服务器组成服务器集群时,整个系统就具有强大的计算能力,可以支撑大数据分析的计算负载。

    阿里巴巴计算中心的服务器集群已经达到5000台服务器的规模。
页: [1]
查看完整版本: 大数据技术基础概念解析:分布式计算与服务器集群的应用