上海容大教育

400-688-0112

机器学习在大数据平台中的综合应用

上课地点：普陀分校

成交/评价：

联系电话： 400-688-0112

分布式计算框架作为现代机器学习的基础支撑，本阶段重点攻克Hadoop生态与Spark技术栈的协同工作机制。从HDFS分布式存储到YARN资源调度，系统建立大数据处理的核心认知体系。

技术组件	应用场景	版本要求
Spark SQL	结构化数据处理	3.0+
PySpark	机器学习流水线	3.7+

基于NASA肯尼迪航天中心真实日志数据，构建访问模式分析系统。涉及用户地理分布解析、异常访问检测、API调用频次监控等核心功能模块开发。

整合Hive数据仓库与Spark Streaming，实现淘宝用户画像构建。包含商品点击热力图生成、购物车转化分析、实时推荐算法等关键功能实现。

课程采用云端实验平台进行教学，学员可直接在浏览器中完成Spark集群的配置与调试。重点技术模块配备3D可视化演示，帮助学员理解分布式计算任务的执行过程。

大数据同类型课程

推荐课程更多 >