怎样让大模子完成通用人工智能?商汤董事长和
如何让大模型实现通用人工智能?商汤董事长和MOSS负责人指出路径
商汤科技最近发布的“日日新SenseNova”大模型体系引发业内和公众关注。作为一个多模态大模型体系,它具备自然语言处理、数字人视频生成、大规模三维场景和精细化三维物件生成等能力,给用户带来了更多的应用场景。
不少业内专家认为,多模态大模型是实现通用人工智能的必由之路。所谓通用人工智能,就是机器像人一样,可以干很多事,不再局限于某些特定任务。“我们可以把语言、视觉等各个模态的信息连接成一个整体,形成对世界更深的认知,结合决策智能大模型,构建起有效的AGI(通用人工智能)实现路径。”商汤科技董事长兼首席执行官徐立说。
复旦大学教授、MOSS大模型研发负责人邱锡鹏认为,通用人工智能研究的一条重要途径,是将视觉、语音等多模态感知能力接入大语言模型,增强大模型与现实世界的交互能力。
开发出全球最大的视觉模型
商汤科技联合创始人、首席科学家王晓刚介绍,非通用人工智能系统的输入可以是多模态数据,包括文字、图片和语音,输出的任务也可以是多种,这些任务都是预先设计好的。如果让机器执行一种新的任务,就要重新设计人工智能系统,包括采集样本、对模型进行新的训练。
与之相比,通用人工智能模型聪明得多。用户只要输入合适的提示词,或用自然语言描述一个任务,它就可以生成多模态数据。“我们无须为新的任务改变模型本身,通过设计合适的提示词,就能覆盖海量、复杂的开放式任务,包括各种长尾任务和那些主观描述性的任务。”王晓刚说,“这对于人工智能的大范围推广有非常重要的意义。”
“日日新”的“秒画”平台根据文字生成的图片
微软公司近日发表的测评论文说,GPT-4能力的广度和深度显示,它可以被视为通用人工智能系统的雏形——不仅有很强的自然语言处理能力,而且能识别各种图片,从烹饪食材到网页草图,它都能看懂并执行相关任务。
谈及视觉智能和语言智能,徐立说,目前已知最大语言模型消耗的语言数据量是2万亿个token(标记),而据统计,人类文明产生的高质量语料数据总量是9万亿左右token,所以在发展迅猛的大语言模型训练领域,很快会出现高质量语料被机器“消化”完的局面。“那么更多的世界信息,我们是怎么获得的?人类是视觉动物,80%的信息通过眼睛来获取,人脑神经元处理视觉和语言的连接数比例是10 1。自然语言是人类对世界的高度压缩表达,我们通过语言可以很快地了解世界,一定会有更多的信息从视觉中获得。”
基于这一理念,商汤开发出有320亿参数的视觉大模型,这是目前全球最大的视觉模型。“未来,通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四个方面,像人一样接收各类信息,执行各种任务。”王晓刚说。
国内大模型欠缺“读图”能力
邱锡鹏也认为,通用人工智能大模型不会像ChatGPT那样局限于自然语言处理,而是会处理图片、视频、语音等其他模态的数据,并能通过联网搜索获取新的知识。
在通往AGI的道路上,GPT-4如今处于全球领先地位。用户除了输入文字,还可以输入图片,让它“读图”并输出文字或代码。OpenAI的产品发布会上,公司员工输入一张有4种食材的照片,并问GPT-4“我们能用这些食材做什么?”它马上会罗列多种菜肴和点心。研发人员还演示了GPT-4能识别他手绘的一张网页草图,并根据草图写出网页的前端代码。虽然这个网页很简单,但它的“读图编程”还是令人惊艳,显示出较高的图片理解和编程能力。
GPT-4 根据网页草图给出了前端代码。
“目前,像GPT-4那样可以理解各种图片的大模型还很少。一些模型可以根据用户输入的文字生成各种风格的图片,但不具备根据用户输入的图片生成文字的能力。”邱锡鹏说。在他看来,“读图”是通用人工智能大模型的基本能力之一。阿里等国内企业已在这方面有所布局,希望早日达到GPT-4的智能水平。
语言和视觉大模型有望融合
除了语言大模型,视觉大模型也有很大的应用价值。业界将百亿级参数的自然语言处理模型称为大语言模型,ChatGPT的参数量达到千亿级。与语言大模型相比,视觉大模型的参数量普遍较少,商汤开发的320亿参数视觉大模型排名全球第一。
视觉大模型可以完成什么任务?发布会上,商汤展示了“如影SenseAvatar”数字人视频生成平台。用户只要输入一段5分钟真人视频素材,这个平台就能生成声音和动作自然、口型准确、会说多种语言的数字人分身。
“如影”平台根据真人视频生成的数字人视频(截屏画面)
“我是一个数字人,我的动作、表情以及我说的话,都是由AI生成的。我可以在数字世界里一直活下去,你也可以哦。”视频里,一个看上去是真人形象的姑娘介绍了“如影”平台。用手机录制一段5分钟人物视频后,上传平台,视觉大模型就能生成他的数字人分身。随后,用户可以为数字人“换装”,再让他成为各类视频的主角,如直播带货、线上教学、主题宣传。这些视频产品都能一键生成,节省大量摄制成本。
一些专家预测,语言大模型和视觉大模型未来会混合,打造出混合式大模型,使语言智能和视觉智能更紧密地融合在一起,加快实现通用人工智能的进程。
栏目主编黄海华
来源作者俞陶然