本课程专为具有Hadoop开发经验的技术人员设计,重点培养以下核心能力:
模块编号 | 教学内容 | 课时安排 |
---|---|---|
模块1-4 | 数据科学基础与项目周期管理 | 16课时 |
模块5-8 | 数据转换与统计分析实战 | 24课时 |
模块9-12 | Spark MLlib应用开发 | 32课时 |
掌握Hadoop Streaming数据处理技术,熟练运用Python进行ETL流程开发,实现TB级数据的高效处理。
通过电商推荐系统真实案例,学习协同过滤算法在Spark环境下的工程化实现。
模拟企业生产环境,进行集群资源优化配置,解决实际部署中的性能瓶颈问题。