分布式计算框架作为现代机器学习的基础支撑,本阶段重点攻克Hadoop生态与Spark技术栈的协同工作机制。从HDFS分布式存储到YARN资源调度,系统建立大数据处理的核心认知体系。
技术组件 | 应用场景 | 版本要求 |
---|---|---|
Spark SQL | 结构化数据处理 | 3.0+ |
PySpark | 机器学习流水线 | 3.7+ |
基于NASA肯尼迪航天中心真实日志数据,构建访问模式分析系统。涉及用户地理分布解析、异常访问检测、API调用频次监控等核心功能模块开发。
整合Hive数据仓库与Spark Streaming,实现淘宝用户画像构建。包含商品点击热力图生成、购物车转化分析、实时推荐算法等关键功能实现。
课程采用云端实验平台进行教学,学员可直接在浏览器中完成Spark集群的配置与调试。重点技术模块配备3D可视化演示,帮助学员理解分布式计算任务的执行过程。