官方服务微信:dat818 购买与出租对接

大数据处理流程详解:从采集到挖掘的四步方法与实践指南

3万

主题

2

回帖

10万

积分

管理员

积分
109690
发表于 2025-3-4 07:14:12 | 显示全部楼层 |阅读模式
    具体的大数据处理方法有很多。不过,通过长时间的实践,笔者总结出了一个基本的大数据处理流程。这个流程能够帮助大家理顺大数据的处理。整个处理流程可概括为四步,第一步是采集,第二步是导入和预处理,第三步是统计和分析,第四步是挖掘。

    采集

    大数据的采集是指通过多个数据库来接收来自客户端(包括 Web、App 或者传感器形式等)的数据。用户能够利用这些数据库进行简单的查询和处理工作。例如,电商会运用传统的关系型数据库 MySQL 等,以存储每一笔事务数据。此外,Redis 等这样的 NoSQL 数据库也常被用于数据的采集。

    在大数据采集过程中,其主要特点和挑战在于并发数高。因为在同一时间,可能会有成千上万的用户来进行访问和操作,像火车票售票网站以及淘宝这类平台,它们在峰值时的并发访问量能达到上百万。所以,需要在采集端部署大量的数据库来提供支撑。同时,如何在这些数据库之间进行负载均衡以及分片,这确实是需要深入思考和精心设计的。

    导入/预处理

   


    采集端本身拥有很多数据库。若要对这些海量数据进行有效分析,应当将前端的数据导入到集中的大型分布式数据库或分布式存储集群中,还可以在导入的基础上进行一些简单的清洗和预处理工作。部分用户在导入时会使用 Storm 对数据进行流式计算,以满足部分业务的实时计算需求。

    导入过程的特点是数据量大,每秒钟的导入量经常能达到百兆乃至千兆级别。预处理过程也有类似特点,数据量较大,每秒钟的导入量也常达百兆甚至千兆级别。这就是导入与预处理过程的特点和挑战。

    统计/分析

    统计与分析主要借助分布式数据库或者分布式计算集群,对存储其中的海量数据进行普通的分析以及分类汇总等操作,以此来满足大多数常见的分析需求。在这方面,一些实时性需求会用到 EMC 的相关技术,以及基于 MySQL 的列式存储等;而一些批处理需求,或者基于半结构化数据的需求则可以使用其他方式。

   


    统计与分析这部分的主要特点是分析涉及的数据量大。它的主要挑战在于,对系统资源会有极大的占用,特别是对 I/O 方面。

    挖掘

    数据挖掘与前面的统计和分析过程有所不同。它一般没有预先设定好的主题,主要是在现有的数据上进行基于各种算法的计算,以此来达到预测的效果,进而满足一些高级别数据分析的需求。比较典型的算法有用于聚类的 K-Means、用于统计学习的 SVM 和用于分类的 Naive Bayes,主要使用的工具也有一些等。

    该过程的特点在于挖掘算法复杂,计算涉及的数据量和计算量都较大。同时,常用的数据挖掘算法大多以单线程为主。
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-5-25 17:55 , Processed in 0.105279 second(s), 18 queries .