官方服务微信:dat818 购买与出租对接

楼顶偶遇邻居提及5楼家庭变故,回忆与华工大宣传部老师及其京巴犬的温馨往事

3万

主题

2

回帖

10万

积分

管理员

积分
109696
发表于 2025-3-4 06:17:42 | 显示全部楼层 |阅读模式
    大数据(一)定义、特性

    本文目录:

    一、写在前面的话

    一个星期前,我去楼顶浇花。在那里,我偶然遇到了本楼的邻居。闲聊中,她提到 5 楼的某家今年有 2 位离世了。听到这个消息,我的心里感到很难受,眼泪忍不住就掉了下来。

    我和五楼的那家人不熟。仅有的几次交流发生在十几年前。那时我在上班,回家途中在家附近经常能见到那家的女主人在遛狗。她是我们华工大宣传部的一位老师,留着短发,性格很爽朗。狗狗是白色且长毛的京巴,它年纪已有些大了。跑上两步,它就会呼哧呼哧地直喘气,有时还会趴在地上休息一会儿。每当此时,女主人总是耐心地站在路边等待着它,她的眼神十分温柔宠溺,就好像在看着自家的孩子一样。我很喜欢逗狗狗,会摸摸它的脑袋,问它今天是否乖,有没有好好吃饭。

    男主人是华工大的老师。我未曾有机会结识他,但知晓他义务为这栋楼做了诸多事情。比如,他处理了很多电梯相关的事务。直至现在,电梯的持有人依然写着这位王老师的名字。

    后来我遭遇变故,便不再上班,而是留在家里做家务,基本上都不出门,所以也没有什么机会碰到五楼的那两位邻居。我记得王老师曾经使用的签名是:只要给点阳光,他就会灿烂;只要给个箩筐,他就会下蛋。他是一个很幽默乐观的人。疫情开始之后,王老师还在楼群里发过疫情相关的搞笑图片,以此来逗大家开心。

    一切仿佛就在昨天,没想到两位长辈走得那么突然。。。

    好人会得到好的回报,今生所经历的苦难和修炼,将会换来来世的一切都平平安安。以此文来纪念曾经的那位老邻居。

    逆境清醒

    2023.8.24

    二、大数据定义

    大数据定义

    大数据指的是数据集合,这种数据集合在一定时间范围内无法用常规软件工具进行捕捉、管理和处理。它是海量的、具有高增长率和多样化的信息资产,同时具备更强的决策力、洞察发现力和流程优化能力。

    大数据指的是数据规模极为巨大,类型十分多样,传统的数据处理工具难以高效进行处理的数据集合。它能够通过多种途径生成,其中包含互联网、社交媒体、传感器以及金融交易等。

    大数据通常具备以下三个特点:其一,数据规模较为庞大;其二,数据类型呈现出多样的态势;其三,数据处理速度较为迅速。

    利用大数据技术可借助数据开展市场营销等方面的工作。

    大公司对“大数据”的定义: (1)、的定义

    的大数据定义:

    大数据指的是非常庞大且复杂的数据集,尤其是来自新数据源的那些数据集。这些数据集的规模极其庞大,以至于传统数据处理软件都对其束手无策。然而,就是这样庞大复杂的数据集,却能够帮助我们解决以往那些非常棘手的业务难题。

    (2)、研究机构:

    “大数据”(Big data)的定义是由研究机构给出的,具体如下:

    “大数据”需要新的处理模式,这样才能具备更强的决策力、洞察发现力和流程优化能力,以适应海量、高增长率和多样化的信息资产。

    (3)、麦肯锡全球研究所给出的定义是:

    麦肯锡全球研究所的大数据定义:

    数据集合规模大,在获取、存储、管理、分析等方面,远远超出了传统数据库软件工具的能力范围。它具有海量的数据规模,数据流转速度很快,数据类型多样,且价值密度低这四大特征。

    三、大数据特性

    大数据特性:

    大量数据:数据的大小会对所考虑的数据的价值以及潜在的信息产生影响;数据的大小能够决定所考虑的数据的价值以及潜在的信息;数据的大小与所考虑的数据的价值和潜在的信息相关;所考虑的数据的价值和潜在的信息由数据的大小所决定;数据的大小是决定所考虑的数据的价值和潜在的信息的因素之一;数据的大小在一定程度上决定着所考虑的数据的价值和潜在的信息;所考虑的数据的价值和潜在的信息取决于数据的大小;数据的大小对所考虑的数据的价值和潜在的信息有着重要的作用。

    高速 () :指获得数据的速度;

    多样化 () :数据类型的多样性,数据类型众多;

    价值在于合理运用大数据,能够以低成本创造出高价值。

    真实性 () :数据的质量。

    3.1、大数据的大量 () 特性

    大数据的大量特性意味着数据量十分巨大。这些数据一般是由传感器、移动设备、社交媒体、金融数据以及医疗记录等数据来源所生成的。

    大数据的大量特性包括以下几个方面:

    数据量有几个 GB 那么小的,也有数百 PB 那么大的,规模极为巨大。

    数据增长迅速,呈现指数级态势。要处理大规模数据,就必须运用不断升级的技术和架构。

    数据有多种来源。其中包括传感器方面的来源,还有移动设备的来源,以及社交媒体的来源,同时涵盖金融数据的来源和医疗记录的来源等多个不同的领域。

    数据的类型是多样的。数据包含结构化数据,同时也包含非结构化数据和半结构化数据。像文本、图像、音频以及视频等都属于多种类型的数据。

    数据往往具有高度复杂性,其中包含着大量的关联、交互以及变化,所以需要高效的处理和分析技术。

    数据量很大,这给数据处理和分析带来了诸多挑战。需要运用高级的技术以及工具,以便对这些数据进行处理和分析。

    3.2、大数据的高速()特性

    大数据的高速特性表现为在产生、传输、存储和处理等环节速度极快,其数据量极为庞大,通常是以毫秒或微秒这样极短的时间级别来进行计算的。

    大数据的高速特性主要体现在以下几个方面:

    大数据通常是实时生成的,像社交媒体上用户的行为数据以及物联网设备所产生的传感器数据等。这些数据需要被实时获取并且进行处理。

    网络带宽和数据传输技术不断提升,使得大量数据能在短时间内快速传输到目标系统,像云端存储和数据处理平台。

    数据存储速度较快,能够将大型客户端的数据迅速写入数据库,还能对数据进行实时处理。

    大数据处理运用分布式计算和并行计算技术,可快速处理大量数据,像能实时进行数据挖掘、实时分析以及生成报告等。

    大数据处理需要很高的数据更新速度,这样才能保证数据的实时性和准确性。

    大数据的高速特性体现在数据产生速度快,能快速传输、存储和处理,可快速响应用户需求,进而实现实时的数据分析和决策。

    3.3、大数据的多样化 () 特性

    大数据的多样化主要体现在以下几个方面:

    大数据的来源具有多样化。它可以源自多种不同的途径,像传感器能提供数据,社交媒体也可以贡献数据,日志可以记录数据,传统数据库同样能提供数据。

    数据类型呈现多样化的特点。大数据类型包含结构化数据,像关系型数据库里的表格数据;还有半结构化数据,例如 XML 文件;以及非结构化数据,像图片、视频和声音等。

    大数据能够以多种不同的标准和格式来进行存储与传输,其中包括 CSV、JSON、XML、Avro、ORC 等,体现出数据格式的多样化。

    大数据能够包含多种类型的信息,有文本,有数字,有图像,有音频等,它甚至还能包含无形的事物,像声音、情感、意见等。

    大数据的数据规模呈现多样化,它可以是海量的数据,也可以是超大量的数据,甚至还可以是呈指数级别的数据,而这给数据分析和处理带来了很大的挑战。

    3.4、大数据的价值 (value) 特性

    大数据的价值特性包括以下几个方面:

    大数据的体量庞大,这让人们能够更全面且更准确地去了解和预测事物的变化趋势,进而更好地做出决策。

    大数据能够从多种来源获取,像传感器、社交媒体以及移动设备等等。它能够包含不同种类的数据,像文本、图像以及视频等。这种多样性促使了数据的整合与分析,进而能够得出更精确的结论。大数据包含结构化数据,像数据库里的数据;也包含非结构化数据,像社交媒体、日志以及图片等。这些数据的来源不一样,类型各异,格式也不同,从而为决策提供了更全面的信息基础。

    大数据的速度特征体现为数据的处理速度与更新速度极快,甚至能达到实时的程度。它具备高速处理数据的能力,能够在短暂时间内处理海量数据,借此快速获取信息,此类数据有助于企业迅速作出决策,抢先占领市场并获取市场竞争优势。

    大数据的规模极大,包含着数十亿乃至数百亿的数据点。这种规模使得企业能够从更庞大的数据集中获取更优的信息,进而更好地对市场和客户需求进行预测。

    大数据的真正价值在于能够从数据里提取出有用信息,并且对这些信息进行分析和应用。这一点对企业而言极为重要,因为它能够助力企业做出更为优良的商业决策,能够促使企业对产品和服务进行改进,还能够让企业对市场营销进行优化等。

    大数据的精确性意味着数据具有准确性和可信度。确保数据质量,能够帮助企业做出更优决策,提升效率与效益。

    数据可视化能够让人们更好地去理解数据,进而能够发现数据之中的模式和趋势。

    大数据需要以开放的方式来共享和访问,这样更多的人就能够使用和分析数据。

    大数据价值特性的综合作用总体而言是帮助企业更好地理解自身的业务、客户以及市场。同时,企业能够依据数据分析的结果来制定和执行相应的策略,以此获得更为巨大的商业价值。

    3.5、大数据的真实性 () 特性

    大数据的真实性这一特性意味着数据具有精确性和可靠性。因为大数据往往源自各种不同的来源与格式,所以它们有可能存在质量方面的问题,像错误、缺失、重复、歧义等情况。故而,对于大数据系统而言,确保数据的真实性至关重要,这样才能保证系统的准确性与可靠性。

    为了保证数据的真实性,可以采取以下措施:

    数据清洗就是进行清洗数据的操作,目的是把错误的、重复的以及不必要的信息去除掉,这样就能提升数据的质量和准确性。

    数据需要进行验证,目的是要保证数据符合业务规则和标准,从而确保数据的正确性与可靠性。

    对数据源进行监控,能够及时发现数据质量问题并予以纠正,这样就能保证数据的真实性。

    管理数据库,其中包含备份、恢复以及维护等工作,目的是保障数据的安全与一致性。

    对外共享数据时,要保证数据的真实性,同时也要保证数据的安全性,以防止数据被篡改或者被滥用。

    总之,大数据的真实性这一特性对于确保数据的质量和可靠性,以及保证大数据系统的正确性和可靠性而言,是关键的要素。

    四、大数据的单位

    最小的基本单位为 bit 。这些单位按顺序依次为:bit ;Byte ;KB ;MB ;GB ;TB ;PB ;EB ;ZB ;YB ;BB ;NB ;DB 。

    它们按照进率1024(2的十次方)来计算:

    1 Byte =8 bit

    1 KB = 1,024 Bytes = 8192 bit

    1MB 等于 ,1MB 也等于 。

    1GB 等于 ,1GB 也等于 。

    1TB 等于 ,1TB 也等于 。

    1PB 等于 ,1PB 也等于

    EB 等于 , 又等于

    ZB 等于 1024 EB,1024 EB 又等于  PB

    YB 等于 1024 ZB,YB 等于  EB

    BB 等于 1024 YB,1024 YB 又等于  ZB

    NB 等于 ,同时 NB 等于

    DB 等于 1024,NB 等于 ,BB

    五、大数据涉及的数据类型

    大数据涉及的数据类型

    数据类型

    概念

    表现形式

    典型场景

    结构化数据

    它也被称作行数据,这种数据具备统一的结构,能够以行列二维的形式来进行表达和管理,就像关系型数据库数据那样。

    数据库表等

    企业ERP、财务、HR数据库等

    半结构化数据

    它是一种适用于数据库集成的数据模型,同时也可以作为标记服务的基础模型,用来在 Web 上共享信息。

    邮件、HTML、报表等

    邮件系统、网页信息、报表系统等

    非结构化数据

    数据结构不规则,难以用行列二维形式来表达。例如图片、文本以及音视频等这类数据。

    视频、音频等

    在线视频内容、音频内容、图形图像等

    六、大数据五大核心领域

    数据存储与计算、

    数据管理、

    数据流通、

    数据应用、

    数据安全。

    七、大数据趋势

    云计算:云计算已成为企业存储和处理大量数据的首选方式。

    机器学习技术正在越来越多地应用于大数据预测。

    区块链:区块链技术可以用于数据安全和隐私保护。

    数据科学领域的专业人士在与大数据分析师一同工作,目的是更好地理解和运用大数据。

    数据质量管理成为大数据管理中的重要领域,目的是确保数据的准确性与一致性。

    数据可视化:许多数据需要借助数据可视化工具来进行展示,这样能更好地去理解和运用数据。

    边缘计算技术能够在现场对大量数据进行处理,这样就能减少数据的传输时间以及处理时间。

    大数据文章:
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-5-25 18:28 , Processed in 0.096646 second(s), 17 queries .