大数据与云计算考试资料:提升计算速度与并行计算系统类型详解
第一章:大数据处理技术简介 前言:这些关于大数据和云计算的文章是我一天根据课本整理出来的考试材料。另外还附上我个人的理解(我有一定的理解)。非常重要),记下来方便我以后看。1、提高单处理器计算机系统运算速度常用的技术手段包括:
(1).增加计算机处理器的字长————>CPU寻址位数越多,计算能力越强
(2)。提高处理器芯片集成度—>增加芯片中晶体管的数量
(3)。提高处理器主频————>主频越高,每秒运算次数越多
(4).改进处理器微架构————>改进处理器策略
2、根据并行计算系统的类型,并行计算可分为以下几种类型:
(1).多核并行计算系统————>这是多核CPU并行计算
(2)。对称多处理系统——————>这里是多个CPU的并行计算
(3)。大规模并行处理系统————>由一组处理器通过专用内网连接而成的并行计算系统
(4).集群——>由一组普通商用计算机通过网络连接组成的并行计算系统
(5)。网格——>由一组通过网络连接、远距离分布的异构计算机组成的并行计算系统。
(PS:这里不知道该说啥了……我在博客里看了分布式计算、并行计算与集群、网格、云计算的区别,想了想就记住了现在)
3、根据应用的计算特点,并行计算可分为以下几种类型:
(1).数据密集型并行计算:即数据量巨大但计算量相对简单的并行计算。
(2)计算密集型并行计算:即数据量相对较少但计算量相对复杂的并行计算。
(3)。数据密集型和计算密集型混合并行计算:具有数据密集型和计算密集型双重特征的并行计算,例如3D电影渲染等。
4、并行计算的主要技术问题:
(1).多处理器/多节点网络互连技术
(2).存储访问架构
(3).分布式数据及文件管理
(4)。并行计算的任务划分与算法设计
https://img1.baidu.com/it/u=3629543786,3113240155&fm=253&fmt=JPEG&app=138&f=JPEG?w=889&h=500
(5).并行编程模型和语言
(6)。并行计算软件框架的设计与实现
(7).数据存取与通讯控制
(8).可靠性与容错技术
(9).并行计算性能分析与评估
(PS:说实话,我不知道做这题的意义,是并行计算实现中的一个关键点,但是完全记住这一点就成了记忆负担)
5、关于单位换算:
1KB=1024B 1MB= 1GB= 1TB=
1PB= 1EB= 1ZB= 1YB=
(即B、KB、MB、GB、TB、PB、EB、ZB、YB)
6、大数据有五个主要技术特征(5V特征):
(1).(Large ):数据量极大
(2).(多样性):数据格式形式极其丰富。
(3).(时效性):数据需要实时处理
(4).(精度):处理结果保证一定的精度
(5).Value(大价值):数据蕴藏着巨大的深层价值
7.(1).从数据结构特征来看,大数据分为:结构化/非结构化/半结构化数据
(2)。从数据处理方式来看,大数据分为:批处理/流计算
(3)。从数据处理类型来看,大数据分为:传统查询分析计算/复杂数据挖掘计算
(4)。从数据响应性能角度,大数据分为:实时/准实时/非实时计算
(5)。从数据关系角度,大数据分为:简单关系数据/复杂关系数据
https://img0.baidu.com/it/u=3515346582,3948162254&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=707
(6)。从迭代计算的角度来看:数据处理中的很多问题都需要大量的迭代计算,比如机器学习
(7)。从并行计算架构特点来看:由于需要支持大规模数据的存储和计算,目前大数据处理大多采用基于集群的分布式存储和并行计算架构。
8. 大数据研究的基本方法:
(1).寻找新的算法来降低计算复杂度(因为计算量很大)
(2)。寻找并采用算法来减少数据规模(简化数据规模)
(3)。分而治之并行处理(分布式存储和并行计算处理大数据)
9、关于第19页的表格,记不住也没关系。只要记住下面这段话就可以了。
10.起源
11、对于大规模数据处理,有以下三个基本设计思想:
(1).处理大数据的并行处理:分而治之
(2)。上升到抽象模型:地图和
(3)。直至架构:使用统一的架构,为程序员隐藏系统层细节
12.需要了解生产历史
13、下图是重点:
14.这张图也很重要(可以背下来掌握,有一定的意义)
15、第二章是系统的安装和运行管理。您只需要知道三种安装方法即可:
单机模式、单机伪分布式、集群分布式模式。
页:
[1]