/【雷火UX×华科】《大数据与推荐算法》第3课:离线与实时计算技术

【雷火UX×华科】《大数据与推荐算法》第3课:离线与实时计算技术

2022年10月29日上午,雷火UX用户体验中心数据挖掘部的之月,为华中科技大学计算机学院课程《大数据与推荐算法通识》做主题为“离线与实时计算技术”的讲授。当天的课程分几部分进行:日志ETL技术、离线计算、实时计算和任务调度。公众号为大家进行整理分享。


1

日志ETL技术

之月以ETL技术为锚点,开启了本周的课程。ETL是将业务系统的分布式数据经过抽取、清洗、转换操作,再加载到数据仓库的过程,它可以将分散、零乱、标准不统一的数据整合起来,为企业的BI决策提供分析依据。本节对ETL的步骤、离线和实时ETL过程、数据采集Flume和数据存储Kafka等方面进行了介绍,帮助同学们了解数据仓库的构建过程,为分布式计算提供数据基础。


   

2

离线计算

接着,在离线计算这一小节中,之月围绕Spark如何进行离线计算来展开,介绍了Spark的架构和工作原理,对Spark核心数据模型RDD、Spark SQL等基本概念和使用方法进行了详细阐述。
     

3

实时计算

实时计算是一种持续、低时延、事件触发的计算作业,应用于对时效性要求较高的应用场景,例如实时大数据分析等。本节讲解Spark Streaming是如何进行实时计算的,重点讲解Flink流计算引擎的架构、操作算子、并行度、作业运行过程以及Flink应用场景等方面,最后总结了Flink和Spark两者之间的区别。
     

     

4

任务调度

之月老师在本小节中讲解了基础的Linux任务调度工具Crontab。由于生产具有更复杂的任务调度要求,她又引出工作流引擎Airflow调度器并进行了详细介绍,包括DAG任务关系图,如何开发DAG,以及Airflow管理前端界面等。

5

小 结

本次课程详细讲述了大数据领域用于ETL、实时计算和离线计算等方面的主流架构和原理,结合实际的业务实践,帮助同学们更好地理解大数据业务的技术内容和应用价值,开阔了计算机技术领域的视野。上课过程同学们积极参与互动,发言踊跃,很好地掌握了基础知识点,课堂效果也得到了同学们的肯定。

【雷火UX × 华中科技大学】

雷火UX与华中科技大学计算机学院《大数据与推荐算法》课程安排:


     

第1课(10月15日)大数据概述与推荐算法通识

第2课(10月22日)分布式运算与数据集群

第3课(10月29日)离线与实时计算技术

第4课(11月05日)大数据下构建游戏玩家画像

第5课(11月12日)传统机器学习模型游戏实践

第6课(11月19日)深度学习模型游戏实践

第7课(11月26日)策略与算法服务

第8课(12月03日)大数据与推荐算法大作业

雷火UX与华中科技大学合作课程——《大数据与推荐算法》于2022年10月15日正式开课。该系列课程专为华中科技大学计算机学院设立,由网易雷火UX数据挖掘部优秀讲师团队进行讲授,共分为8次进行,旨在帮助激发同学们对大数据及推荐算法的探索和学习兴趣。课程信息发布后,华科计算机学院学生报名十分热情,最终共有120名研究生和本科生报名了本次课程。
   
通过该系列课程,网易雷火UX的讲师团队将带领同学们体验和学习企业大数据及算法应用开发场景,并结合雷火UX的实际业务案例让同学们更深入地理解大数据生态以及个性化推荐算法的价值,进而帮助同学们提升大数据及算法方面的专业能力,实现职业能力的早期拓展和准备。
   

   

本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。