2022年10月29日上午,雷火UX用户体验中心数据挖掘部的之月,为华中科技大学计算机学院课程《大数据与推荐算法通识》做主题为“离线与实时计算技术”的讲授。当天的课程分几部分进行:日志ETL技术、离线计算、实时计算和任务调度。公众号为大家进行整理分享。
1
日志ETL技术
之月以ETL技术为锚点,开启了本周的课程。ETL是将业务系统的分布式数据经过抽取、清洗、转换操作,再加载到数据仓库的过程,它可以将分散、零乱、标准不统一的数据整合起来,为企业的BI决策提供分析依据。本节对ETL的步骤、离线和实时ETL过程、数据采集Flume和数据存储Kafka等方面进行了介绍,帮助同学们了解数据仓库的构建过程,为分布式计算提供数据基础。
2
离线计算
3
实时计算
4
任务调度
之月老师在本小节中讲解了基础的Linux任务调度工具Crontab。由于生产具有更复杂的任务调度要求,她又引出工作流引擎Airflow调度器并进行了详细介绍,包括DAG任务关系图,如何开发DAG,以及Airflow管理前端界面等。
5
小 结
本次课程详细讲述了大数据领域用于ETL、实时计算和离线计算等方面的主流架构和原理,结合实际的业务实践,帮助同学们更好地理解大数据业务的技术内容和应用价值,开阔了计算机技术领域的视野。上课过程同学们积极参与互动,发言踊跃,很好地掌握了基础知识点,课堂效果也得到了同学们的肯定。
【雷火UX × 华中科技大学】
雷火UX与华中科技大学计算机学院《大数据与推荐算法》课程安排:
第1课(10月15日)大数据概述与推荐算法通识
第2课(10月22日)分布式运算与数据集群
第3课(10月29日)离线与实时计算技术
第4课(11月05日)大数据下构建游戏玩家画像
第5课(11月12日)传统机器学习模型游戏实践
第6课(11月19日)深度学习模型游戏实践
第7课(11月26日)策略与算法服务
第8课(12月03日)大数据与推荐算法大作业
本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。