/一文读懂算法产业化建设突破点 | BPAA圆桌

一文读懂算法产业化建设突破点 | BPAA圆桌

 WAIC 2022 

赛事评奖是世界人工智能大会(WAIC)“会、展、赛、用、才”五大板块之一,由世界人工智能大会组委会主办,上海市人工智能行业协会作为唯一组织,服务、支撑和管理单位。
WAIC 2022现有品牌赛事包括:BPAA应用算法实践典范、AIWIN世界人工智能创新大赛、黑客马拉松和团市委青少年人工智能创新大赛。根据世界人工智能大会SAIL奖的推荐规则和资格要求,品牌赛事承办方将有机会推荐本赛事中的优秀项目参与SAIL奖评选。

日前,由世界人工智能大会组委会办公室主办、上海市普陀区人民政府支持、上海市人工智能行业协会和零点有数承办的BPAA第二届应用算法实践典范总决赛暨算法峰会圆满结束。随着数字化时代的到来,各行业启动数字化转型,越来越关注如何将大数据+人工智能技术落地应用到实际场景。面对市场新的挑战,共同打造智慧时代的核心竞争力和百花齐放的人工智能生态是必然的趋势。
圆桌论坛围绕主题“算智赋能,生态共赢”,由零点有数副总裁许正军博士担任主持,邀请华为上海战略MKT部生态发展总监、上海昇腾生态创新中心COO张中阳,洞见科技数据科学家王湾湾,上海人工智能研究院首席技术官王资凯,以及上海互联网大数据工程技术研究中心副主任丁富强共同探讨交流,聚焦细分场景下的算法产业化建设,从生态构建、产业链延伸、产业生态搭建、人才培育以及数据安全和算法责任等角度分享各自观点。
附图 圆桌论坛现场图

如何加强算法产业化建设?上海昇腾生态创新中心COO张中阳认为,企业责任主体的人工智能决策过程需要透明化,保障客户的数据隐私安全;在人才培养方面,进行交叉学科教育和人才培养,构建大模型和行业结合的算法产业联盟生态。
洞见科技数据科学家王湾湾补充,算法偏差的避免可从技术和执行两个层面展开,在模型训练时剔除或调整相关因素,并对算法使用进行制度约束和规范;在人才培养方面,联合高校成立实验室,研究创新成果并运用到产品研发中,同时将用户反馈迭代到算法体系中,形成闭环迭代;在生态构建方面,联合标准化机构,将行业场景算法形成应用规范后进行规模化落地。
上海人工智能研究院首席技术官王资凯则认为,一个健康的算法生态发展应该以市场为导向,满足三方面要求:第一,政府需要完善数据交易机制;第二,人工智能的输出要以人为本;第三,人工智能所实现功能的目标应以人的需求为基础。

对此,上海互联网大数据工程技术研究中心副主任丁富强提出,消费互联网领域通常通过数据沙箱解决内部问题,而在产业互联网领域则主要通过相应企业或第三方机构数据空间的构建来提供数据安全保障,并表示期待学校中的算法学习在产业中得到实际的场景应用。

演讲实录:

主持人:这届BPAA大赛有两个特点:一是报名数量多,相比去年增加了40%以上;二是数据场景越来越细分,今年报名的参赛队伍场景重叠度低于5%。数据和特征决定机器学习的上限,随着算法场景越来越细分,数据驱动会不会成为瓶颈?

张中阳:从数据和场景来看,数据驱动都不会是瓶颈。人工智能行业发展已经到了AI+阶段,行业场景和人工智能能力有更好的发展。人工智能计算和通用计算的本质区别在于处理数据的变化,通用计算用的大多是结构化数据,但是人工智能面临的场景如机器视觉、自然语义处理等等,大多用的是非结构化数据,所以对前端数据的感知能力非常重要。
其次,人工智能计算和传统计算的结果输出不同。传统计算大多通过屏幕输出结果,而人工智能的很多领域需要运用实际场景操作包括汽车智能终端、超级终端来做关键结果的输出和应用。
主持人好的,我想请问一下王湾湾老师,你们在数据驱动方面的细分场景的数据产品和数据量是否会借助产业数据、设备数据、互联网数据来丰富模型?
王湾湾:会,并且较为普遍。根据产品细分,公司利用模型做各个产品的细化,数据量会有所下降,表现为两个方面:一是样本量不足,可以通过引入历史相似场景或利用弱标记样本来丰富模型构建;二是特征模型不足,可以通过产品数据的引入提高模型效果。总的来说,在技术上,样本量不足时可以通过横向研发学习的技术应用去应对,维度特征不足时通过纵向研发学习的技术应用去应对。
主持人在数据总量不足的情况下,面对细分场景,可以通过样本的迁移、特征的迁移、机器学习的采用解决场景问题,请王资凯老师指点一下。
王资凯:首先,任何一个人工智能团队刚开始接触全新垂直领域时,都要面临样本不足或数据不足的问题,但通过和实际用户的打磨、仿真数据的利用,都能丰富数据量。在细分领域,国内团队都有机会捕捉和采集丰富的环境数据,接触丰富的终端用户群,这是中国人工智能界的优势,也是中国人工智能开发者的优势。
主持人谢谢,请丁博士从大数据层面讲讲。
丁富强:在商业或政府领域,不是所有数据都能共享。实际应用过程中,尤其是金融领域的风险防控方面的数据,我们会和相关的实际适用方共享,但是对于场景碎片化的工业领域,我们采取有关工业可信数据空间的方式进行数据共享。
主持人接下来我想谈谈数据安全,请各位专家给我们普及一下什么是算法责任?怎样才能规避隐私泄露、算法偏差等问题?
张中阳:作为企业责任主体,在提供大量的数据传输、储存计算服务时需要保障客户的数据隐私安全,建立可审计、可追溯的机制,让人工智能决策变成透明可视的过程,但最终还是要从事件的关键责任、结构过程分析,落实到相应的责任主体上。
王湾湾:在引入外部数据时,国家政策有很多约束,但并没有从具体执行层面给出具体落地的技术手段,存在数据泄露的风险,后又通过可信沙箱或堡垒机建立了可信环境,开展算法模型的训练工作,依赖于软件工程安全来保障数据安全,但仍存在第三方风险,最后引入隐私计算技术,在数据可用不可见的条件下完成算法模型训练并应用到业务中,解决数据安全上的问题。
算法偏差的避免可从两方面展开:一是技术层面,在模型训练时剔除或调整性别、年龄、偏好等因素,避免群体的公平性影响;二是执行层面,对企业、个人的算法使用层面进行制度约束和规范。
王资凯:第一,政府需要完善数据交易机制;第二,人工智能的输出要以人为本;第三,人工智能所实现功能的目标应以人的需求为基础。
丁富强:在消费互联网领域,数据隐私更为重要,通常通过数据沙箱解决内部问题;而在产业互联网领域则更为关注企业内部的核心技术及核心数据资产,通过相应企业或第三方机构数据空间的构建来提供数据安全保障。
持人:也就是说,除了教育和责任以外,还要从法律层面加强监管。最后请四位专家从人才、政策、生态、产业角度,讲讲如何从内生角度完成算法产业化落地。
张中阳:算法产业化的核心是人才的汇聚。一方面,要把人工智能的教材放在高校中去,把AI课程加入到大学专业中,进行交叉学科教育和人才培养;另一方面,加快推动大模型的建设,构建大模型和行业结合的算法产业联盟生态。
王湾湾:在人才培养方面,洞见科技将人工智能算法和密码学算法结合,通过与高校成立联合实验室的模式,研究创新成果并运用到产品研发中,再把用户的反馈迭代到算法体系中,形成闭环迭代;在生态构建方面,洞见科技联合标准化机构,将行业内的场景算法形成应用规范后进行规模化落地。
王资凯:一个健康的算法生态发展应该以市场为导向、以市场为驱动。
丁富强:期待学校里的算法能在产业中得到实际的场景应用。

最后,在预期算法产业发展的时候,借用一下我们零点有数的口号来呈现——算法绽放,相信数据智能的力量!谢谢大家。




第二届BPAA赛程一览

👇👇👇

点击图片查看原文







本文来自微信公众号“上海市人工智能行业协会”(ID:saia2021)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。