由北京智源人工智能研究院主办的2021北京智源大会于6月1日-6月3日召开,大会邀请了各领域领军学者围绕当前AI学术领域迫切需要解决的问题,以及产业落地过程中存在的挑战,分享重要成果与真知灼见。旷视研究院基础模型组负责人张祥雨出席大会圆桌论坛,同与会嘉宾一道畅谈“视觉大模型研究现状与挑战”议题,分享了企业在探索视觉大模型方面的实践经验。
图:旷视研究院基础模型组负责人张祥雨(中)受邀出席北京智源大会大会圆桌论坛
近年来,人工智能的发展从“大炼模型”逐步迈向“炼大模型”,在视觉领域,学术界和工业界也在探索更具通用性的基础视觉模型,及依托这类模型实现便捷任务扩展的方法。然而,视觉毕竟不是自然语言,作为基本视觉单元的像素距离高层语义更远,找不到像“单词”这样离散化、符号化的基本语义单元,因此简单地借鉴预训练语言模型的实现方法恐怕难以奏效。为此,在本次会议视觉大模型专题论坛上,视觉智能及相关领域的多名专家在“视觉大模型研究现状与挑战”的圆桌论坛上就相关议题展开了深入讨论,共同寻找视觉大模型研究的破局之道,加快推动视觉大模型的研究与应用。
在谈及视觉大模型为什么重要,预期视觉大模型可以学习到什么的问题时,旷视研究院基础模型组负责人张祥雨表示,目前视觉大模型的研究中,一个非常重要的问题是如何学习高质量的表征。根据信息瓶颈假设,一个“好”的表征应该对输入数据进行充分的压缩,同时包含足够的信息以适应下游任务的需求;然而如何实现以上两点依然没有确定的答案。目前诸如对比学习(contrastive learning)等基于变换一致性的特征学习框架在一些实践中是比较有效的,但同样在另外一些场景中也有很多失败的案例。是否存在更好的方案,仍然是一个亟待研究的问题。
图:张祥雨在会上分享旷视在视觉大模型方面的探索
视觉大模型一般包括视频模型和图像模型。关于视频模型和图像模型两者之间的关系,张祥雨提出了一个新颖的观点,即视觉大模型可能只需要视频模型就可以了,不需要静态图像模型。其实在客观世界中,即使是静态图片,从人认知和识别的角度来说它也是一个视频,因为人类会从不同距离、不同视角观察这张图片。因此从原理上说,完全可以训练一个统一的通用视频模型,既可以用它处理图片数据,也可以处理视频数据。张祥雨及其团队在尝试过程中也发现,这样做出来的模型即使是在静态图像上测试,性能通常也会更好。另外,由于视频是一个非常完整的流的序列,生搬硬套图像的模型并不可取,需要设计一个专门为视频设计的特殊模型,而不是先有图像大模型再迁移到视觉大模型。
两年前张祥雨及其团队曾经做过一个轻量级模型的架构搜索算法:基于单路径超网络的神经网络架构搜索(Single Path One-Shot Neural Architecture Search,SPOS)。在这个过程中,张祥雨得到了许多启发。首先他表示,不能因为追赶潮流就投入研究,一定要多想为什么;早期大家做模型架构搜索的时候就曾出现过很多人抢发论文的现象,做出来的不少方法现在看来局限性都很大,白白投入了很多时间和精力,我们需要从中吸取经验和教训。其次谈及模型搜索在视频大模型中的应用,他认为模型训练早期的一些状态很大程度上可以预示后期的收敛特性,所以沿着这个思路或许可以高效解决超大模型的搜索问题;团队的最新成果如AngleNAS、RLNAS等在这方面进行了一些初步的探索。最后张祥雨还指出,不论是神经网络架构搜索还是视觉大模型的训练,对显存的要求都非常高;而旷视开源的深度学习框架“旷视天元”(MegEngine)在最近推出的V1.4版本中,通过引入 DTR 技术,实现了动态图显存优化功能。开发者在使用MegEngine时,只需要加两行代码,就可以使用这项新功能显著降低显存占用。经旷视天元MegEngine团队测试,开启DTR功能后,在2080Ti上,ResNet-50、ShuffleNet等网络的最大 batch size 可以达到原来的3倍以上。
北京智源大会是“AI内行顶级盛会”,现已连续成功举办三届。本届大会旨在促进国际交流与合作,打造世界人工智能学术高地,加强产学研协同,塑造连接世界人工智能产业与学术资源的中心枢纽。科技部战略规划司司长许倞、2018年图灵奖得主Yoshua Bengio(约书亚·本吉奥)、2017年图灵奖得主David Patterson(大卫·帕特森)、2017年欧洲大脑奖得主Peter Dayan(彼得·达扬)、微软亚洲研究院副院长刘铁岩、清华智能产业研究院首席科学家马维英等受邀出席会议。
图片由旷视科技提供,授权中国网财经使用