近日,《张江科技评论》杂志刊发了中科智云科技有限公司首席执行官、中科智云科学技术委员会主席魏宏峰与马尔奖获得者、英国皇家工程院院士、英国牛津大学教授、中科智云科学技术委员会计算机视觉主任委员菲利普·托尔(2022年世界人工智能大会开场演讲嘉宾之一)的联合署名文章《人工智能赋能凯发国际娱乐官发展》,该文章为《张江科技评论》杂志“ai驱动无界未来“专栏的封面文章。
全文转载如下:
近来兴起的“元宇宙”概念,其实质是人工智能产业化过程中出现的新模式、新生态。元宇宙以虚实融合、时空延展的场景构建与体验更迭,加速人工智能与虚拟现实(vr)、增强现实(ar)、数字孪生、物联网、区块链等多重技术的融合应用,拓展产研想象。目前,人们对元宇宙未来愿景的描绘不一而足,无论是“与物理世界无缝叠加的虚拟空间”,还是“虚实融合的世界”,亦或“虚实共生的互联网应用和社会形态”,本质上都在强调人的主体性在虚实融合时空的进一步延伸,解决这一诉求正是元宇宙的核心价值所在。
人工智能在元宇宙发展过程中扮演着重要角色。人工智能技术是当今时代的共性技术,即与大部分新技术相关,且有潜力在不同程度上赋能各类技术的技术。人工智能在产业化过程中,能够与各层级、各领域技术互动融合,通过一系列互补性创新互相促进,为个体生活、经济生产、社会治理等复杂现实问题的解决带来以元宇宙为代表的新的可能。在人、机、物、系统互联基础上,人工智能通过高速计算、感知识别、认知推理等能力,在元宇宙三大关键环节(构建元宇宙场景、发展元宇宙技术、共创元宇宙体验)中以更人性化的协作和更高效的互动,充分发挥并增强人认识和改造现实世界的能力。简言之,人工智能可以使人们在元宇宙中实现更大可能。
01元宇宙的关键技术需求
元宇宙不等同于技术的简单叠加,而是多重技术进行有机结合以满足应用需求。要探究元宇宙的关键技术需求,首先需要理解元宇宙的三大关键环节——场景构建、技术发展、体验共创(见图1),同时关注人工智能作为一种与元宇宙各层级、各领域技术相生的共性技术,满足这些关键技术需求的可能性。
智能互联的元宇宙生态,建立于场景构建的基础能力之上。元宇宙的场景构建是对现实世界虚拟化、数字化的过程。现实场景中的实体在元宇宙空间中的化身对应着一个个在形态、质地、行为等方面都与现实极为相似的数字化模型。数字化模型主要就是将物体的几何信息以三维坐标的形式在数字世界中呈现出来。然而,传统的手工三维建模技术往往面临创作成本高、制作周期长、内容复用率低、实时性差、质量参差不齐的问题,制约了元宇宙的发展应用。使智能体基于空间相关性来自主判断整个环境中的物体之间的空间位置构成,是元宇宙面临的关键技术需求之一。三维场景重建的人工智能技术的突破发展,可以为现实世界到元宇宙虚拟世界的映射提供强大的环境感知、图像处理以及计算能力。
时空延展的元宇宙世界依赖于高效的智能技术发展。元宇宙打破了空间的有限性,使得物体、环境信息可以在无限、多重的虚拟空间相互作用、影响。同时,元宇宙也打破时间的指向性,使跳转、追溯或预测在过去、现在、未来任一时间点的事件、行为信息成为可能。时间和空间维度的延展也增大了人们在元宇宙世界中认知和改造环境的复杂性。快速感知、分析、判断复杂场景中目标对象的行为模式并提供应对策略,是元宇宙面临的关键技术需求之二。近年来,人工智能深度学习领域的重要突破带动了计算机视觉等一系列技术的发展,可以为元宇宙世界中人、机、物、系统运行的态势提供准确感知、预测、预警,并实现主动决策反应。
具有沉浸感的元宇宙体验,衍生自多重技术的有机共生与共创。无限逼近现实、全方位沉浸的感官体验是元宇宙最重要也最富想象力的表征。元宇宙通过更人性化的互动,为小到个人、大到产业和全社会面临的形形色色的实际问题提供新的解决方式,塑造虚实共生的全新世界。然而,只有当不同层级、领域的技术有机结合、深度融合,才能激发虚实互动的体验创新,跨越式迈向虚实共生的元宇宙未来。提升虚拟智能对象行为的社会性、多样性和交互拟真性,实现虚拟现实、增强现实等技术与人工智能的有机结合和高效互动,是元宇宙面临的关键技术需求之三。自最近一轮人工智能产业化建设高潮涌现以来,适用于元宇宙场景的智能交互设备和应用日渐成熟,并将在生产生活等领域实现对人机协作模式的变革。
人工智能赋能元宇宙
02人工智能赋能元宇宙发展
构建元宇宙场景的人工智能
将现实场景映射到虚拟空间的人工智能技术,其应用水平直接决定了所构建元宇宙场景的拟真程度和扩展可能。同步定位和映射(slam)和三维重建是最具代表性的技术。
slam被认为是智能体自主定位的核心智能技术,支撑着将现实世界各种物体的位置、3d地图、导航信息映射到虚拟世界这一元宇宙关键环节。将一个智能体放入未知环境中的未知位置,是否有办法在该智能体移动的过程中实时描绘出不受障碍、可达环境各个角落的地图?这就是slam着力解决的问题。特别是在如隧道和室内等缺乏全球位置信息的场景中,slam可以在极大程度上提高现实到虚拟的映射效率。
slam技术支撑多个图像之间建立的对应关系,并使用多视图几何学来生成一个随时间变化的三维地图。语义场景理解可以丰富三维环境的表示,并提供可生成更好的三维模型的信息。当智能体探索环境时,智能算法可以同时估计与障碍物(如墙壁)的相对位置,以便在每一帧的第一人称视图中建立周围的三维环境地图。
按传感模式区分,slam 可分为vslam 和激光slam 两大类。其中,vslam基于视觉传感器,主要有两种实现路径,一种是基于rgbd 深度摄像机,另一种是基于单目、双目或者鱼眼摄像头。vslam 目前尚处于进一步技术理论研发、应用场景拓展、产品逐渐落地的阶段。激光slam 比vslam 起步早,在理论、技术和产品落地上都相对更成熟。激光slam 脱胎于早期的基于超声和红外单点测距的定位方法。随后,光学测距的出现和普及使得测量更快、更准,信息更丰富。光学测距采集到的物体信息呈现一系列分散的、具有准确角度和距离信息的点,被称为点云(point cloud)。通常,激光slam 系统通过对不同时刻两片点云进行比对与匹配,凭借计算光学测距相对运动的距离和姿态的改变,完成对智能体自身的定位。光学测距较为准确,误差模型简单,在强光直射以外的环境中运行稳定,点云的处理也比较容易。同时,点云信息本身包含直接的几何关系,使得智能体的路径规划和导航变得直观。激光slam 理论研究也相对成熟,落地产品更丰富,是目前元宇宙场景构建的主流方法技术。譬如,中科智云将激光slam 用于作业环境复杂的塔吊施工、港口堆取料场景,为作业人员构建数字孪生平台并提供超视距虚实交互,提高人机协作的作业效率(图2)。
中科智云参与建设的天津港元宇宙码头
重建大型三维场景的密集点云模型(即三维重建),在诸如电影和游戏内容创作、增强现实、文化遗产保护、建筑和城市信息建模等众多元宇宙场景构建任务中发挥着重要作用。通过利用位姿估计与跟踪的在线rgb-d(rgb depth map),一个尖端的三维重建系统允许多个用户在半小时内使用消费级硬件协作重建整个建筑的密集点云模型,为现有基于全景扫描仪的整个建筑重建方法提供了一个低成本、高效率互动的替代方案,使用户比以往更容易捕捉到详细的三维场景模型。
引领元宇宙技术的人工智能
人工智能技术中的目标分割、目标追踪、姿势估计等是元宇宙场景中感知现实的关键工具,这类技术以虚拟世界为载体,通过捕捉现实世界的瞬息万变,为人们提供现在、过去、未来有关所处元宇宙场景的超维感知力。
目标分割能准确捕捉场景中出现的物体(如汽车、行人、骑车人等)特征信息,包括位置、速度、类型、形状、姿势、大小等。普遍流行的算法是利用语义分割网络在线进行一个二分类的训练,然后再对后续帧进行预测。目前,目标分割已经扩展到视频领域。计算机视觉领域正在寻找能够处理视频中一组物体类别所有实例的定位、分割、分类的算法,并且正在着力解决处理速度慢、对图形处理器(gpu)要求高、分割精度低等瓶颈问题。
目标追踪是指在视频序列第一帧指定目标后,以尽可能高的精度在后续帧持续跟踪目标,实现目标的定位与尺度估计。目标追踪在视频帧之间建立物体的对应关系。被用于多种场景,如公共安防、自动驾驶、智能机器人、人机智能交互和活动识别等。目标跟踪的主流方法包括基于相关滤波的目标跟踪算法和基于深度学习中的孪生网络的目标跟踪算法。前者通过计算目标区域与待检测区域之间的相关性,得到相关性最大的区域就是目标区域,即跟踪区域;后者将目标跟踪问题转化为图像块的匹配问题,通过训练一个相似性函数来计算模板图像与搜索区域的相似度,并由此判断目标所在的位置,这种端到端的离线训练方式使得跟踪问题被大大简化。当跟踪目标为人形时,还需要用到姿势估计技术。姿态估计解决的是各种元宇宙场景中虚与实、人与机交互的核心问题——用于确定某一三维目标物体(如人体)的方位指向。基于此,我们可以将目标跟踪看作一个二元分类问题,在单个监控画面中给定初始帧,选定跟踪目标后,对视频每一帧进行人体姿态估计,通过分析前后若干帧之间的人体姿态关系来跟踪移动人形的运动轨迹,实现目标行为的智能推理。欧洲计算机视觉国际会议(eccv 2022)公布了长视频目标分割算法的最新进展xmem,该方法基于底层内存的创新,不仅能对长视频快速进行对象分割,达到20fps的画面帧数,同时所需显存资源也大大减少,可在普通gpu上就能完成。
将视觉目标跟踪和视频目标分割纳入统一框架的融合方法提供了新的技术路径。代表性的方法如siammask,该方法通过在用于目标跟踪的孪生网络上增加mask分支网络来实现目标的分割,即可实现超实时的视频目标跟踪性能,超高速的视频目标分割,并简化交互难度(见图3)。
应用siammask对视频序列进行目标跟踪和目标分割的结果
共创元宇宙体验的人工智能
在ar、vr以及其他以人的体验作为中心的数字场景中,人工智能技术承担着举足轻重的角色。ar、vr系统尝试使用计算机生成的虚拟环境来增强和扩展人类的能力和体验。人工智能试图模仿人类理解和处理信息的方式,并结合计算机的能力,无缺陷地处理大量数据。可以想见,人工智能与ar、vr系统的融合,能够共同创造出全新的虚实交互体验。
以ar系统为例,现有的ar系统普遍存在无法更有效地识别并处理出现在其增强虚拟内容中的人类元素的问题。当前的解决路径中,一种是将前述人工智能技术叠加在所有被系统追踪的表面,为ar系统的互动提供一个自然用户界面(nui),以提高ar体验。这种虚实之间的互动是元宇宙以虚促实的关键。例如,微软的kinect控制台以其无控制器的游戏体验,已经彻底改变互动视频游戏的范式和市场。高效的手势识别工具为残疾人或老年人提供了很大帮助,有希望进一步提高他们在数字时代的生活质量。
在最新的研究实践中,通过理解和利用计算机视觉背后的复杂数学理论,创建一个强大的人类手部追踪器和分割器,以感知玩家手的位置,并在实时视频中进行分割,最终让这一自然的虚实交融体验以一个更自然的新方式戏剧性地“活”在屏幕上。这其中需要克服的主要技术挑战包括在多种现实光线条件下对多种肤色的玩家手部进行检测和跟踪,以及实时对计算机游戏应用效率和速度的限制。这一研究成果被用于娱乐和教育场景的元宇宙体验上,如索尼公司的ar图书wonderbook。在wonderbook中,玩家通过使用eyetoy相机追踪的实体书与游戏进行互动。利用书和书页的跟踪位置,虚拟游戏图形被增强到屏幕上,创造出一本虚拟的弹出式图书,玩家可以看到实体书与神奇的弹出式图书的融合。
此外,体验的概念还能够进一步深化。例如,针对视障群体开发的智能ar眼镜可借助人工智能技术捕捉人们视力的弱点,并为其增强相关视觉细节,使有视觉障碍的个人能够独立导航,避免碰撞,并在黑暗或低光条件下看得更清楚(见图4)。用于视障群体的智能ar眼镜使用智能计算机视觉算法和摄像头的组合来记录个人面前的场景,然后根据用户的要求夸大其中的某些特定部分细节,如增加图像对比度、突出特定特征或创造出“现实的卡通表现”。在正在探索的工作中,该眼镜可以为因青光眼而视力模糊的人增强视觉图像中某些重要部分。
测试者穿戴针对视障群体的智能ar眼镜行走
03结论
人工智能产业化过程中出现的“元宇宙”概念,正在成为解决现实超复杂问题的新的突破点,不断推动构建现实与虚拟融合共生的新生态。当前,元宇宙正在促进人工智能与虚拟现实、增强现实、数字孪生、物联网、区块链等技术的有机结合和高效互动,实现人、机、物、系统间的无缝连接。对元宇宙领域发展机遇的探索,不仅有望满足个人在工作、学习、生活、娱乐等不同场景下感知、分析、判断与决策等实时信息需求,更有望为各类工业场景提供物理环境态势全方位感知、人机跨地域虚实交互协作、复杂生产作业自动化安全管理等关键能力,实现包括设计、工艺、制造、交付、维护保障服务等全生命周期管理过程的数字化以及智能化,为人工智能技术实现更大赋能价值创造新的平台。