怎样让大模子完成通用人工智能？商汤董事长和

奇闻趣事 2023-05-04 12:32www.bnfh.cn奇闻趣事

如何让大模型实现通用人工智能？商汤董事长和MOSS负责人指出路径

商汤科技最近发布的“日日新SenseNova”大模型体系引发业内和公众关注。作为一个多模态大模型体系，它具备自然语言处理、数字人视频生成、大规模三维场景和精细化三维物件生成等能力，给用户带来了更多的应用场景。

不少业内专家认为，多模态大模型是实现通用人工智能的必由之路。所谓通用人工智能，就是机器像人一样，可以干很多事，不再局限于某些特定任务。“我们可以把语言、视觉等各个模态的信息连接成一个整体，形成对世界更深的认知，结合决策智能大模型，构建起有效的AGI（通用人工智能）实现路径。”商汤科技董事长兼首席执行官徐立说。

复旦大学教授、MOSS大模型研发负责人邱锡鹏认为，通用人工智能研究的一条重要途径，是将视觉、语音等多模态感知能力接入大语言模型，增强大模型与现实世界的交互能力。

开发出全球最大的视觉模型

商汤科技联合创始人、首席科学家王晓刚介绍，非通用人工智能系统的输入可以是多模态数据，包括文字、图片和语音，输出的任务也可以是多种，这些任务都是预先设计好的。如果让机器执行一种新的任务，就要重新设计人工智能系统，包括采集样本、对模型进行新的训练。

与之相比，通用人工智能模型聪明得多。用户只要输入合适的提示词，或用自然语言描述一个任务，它就可以生成多模态数据。“我们无须为新的任务改变模型本身，通过设计合适的提示词，就能覆盖海量、复杂的开放式任务，包括各种长尾任务和那些主观描述性的任务。”王晓刚说，“这对于人工智能的大范围推广有非常重要的意义。”

“日日新”的“秒画”平台根据文字生成的图片

微软公司近日发表的测评论文说，GPT-4能力的广度和深度显示，它可以被视为通用人工智能系统的雏形——不仅有很强的自然语言处理能力，而且能识别各种图片，从烹饪食材到网页草图，它都能看懂并执行相关任务。

谈及视觉智能和语言智能，徐立说，目前已知最大语言模型消耗的语言数据量是2万亿个token（标记），而据统计，人类文明产生的高质量语料数据总量是9万亿左右token，所以在发展迅猛的大语言模型训练领域，很快会出现高质量语料被机器“消化”完的局面。“那么更多的世界信息，我们是怎么获得的？人类是视觉动物，80%的信息通过眼睛来获取，人脑神经元处理视觉和语言的连接数比例是10 1。自然语言是人类对世界的高度压缩表达，我们通过语言可以很快地了解世界，一定会有更多的信息从视觉中获得。”

基于这一理念，商汤开发出有320亿参数的视觉大模型，这是目前全球最大的视觉模型。“未来，通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四个方面，像人一样接收各类信息，执行各种任务。”王晓刚说。

国内大模型欠缺“读图”能力

邱锡鹏也认为，通用人工智能大模型不会像ChatGPT那样局限于自然语言处理，而是会处理图片、视频、语音等其他模态的数据，并能通过联网搜索获取新的知识。

在通往AGI的道路上，GPT-4如今处于全球领先地位。用户除了输入文字，还可以输入图片，让它“读图”并输出文字或代码。OpenAI的产品发布会上，公司员工输入一张有4种食材的照片，并问GPT-4“我们能用这些食材做什么？”它马上会罗列多种菜肴和点心。研发人员还演示了GPT-4能识别他手绘的一张网页草图，并根据草图写出网页的前端代码。虽然这个网页很简单，但它的“读图编程”还是令人惊艳，显示出较高的图片理解和编程能力。

GPT-4 根据网页草图给出了前端代码。

“目前，像GPT-4那样可以理解各种图片的大模型还很少。一些模型可以根据用户输入的文字生成各种风格的图片，但不具备根据用户输入的图片生成文字的能力。”邱锡鹏说。在他看来，“读图”是通用人工智能大模型的基本能力之一。阿里等国内企业已在这方面有所布局，希望早日达到GPT-4的智能水平。

语言和视觉大模型有望融合

除了语言大模型，视觉大模型也有很大的应用价值。业界将百亿级参数的自然语言处理模型称为大语言模型，ChatGPT的参数量达到千亿级。与语言大模型相比，视觉大模型的参数量普遍较少，商汤开发的320亿参数视觉大模型排名全球第一。

视觉大模型可以完成什么任务？发布会上，商汤展示了“如影SenseAvatar”数字人视频生成平台。用户只要输入一段5分钟真人视频素材，这个平台就能生成声音和动作自然、口型准确、会说多种语言的数字人分身。

“如影”平台根据真人视频生成的数字人视频（截屏画面）

“我是一个数字人，我的动作、表情以及我说的话，都是由AI生成的。我可以在数字世界里一直活下去，你也可以哦。”视频里，一个看上去是真人形象的姑娘介绍了“如影”平台。用手机录制一段5分钟人物视频后，上传平台，视觉大模型就能生成他的数字人分身。随后，用户可以为数字人“换装”，再让他成为各类视频的主角，如直播带货、线上教学、主题宣传。这些视频产品都能一键生成，节省大量摄制成本。

一些专家预测，语言大模型和视觉大模型未来会混合，打造出混合式大模型，使语言智能和视觉智能更紧密地融合在一起，加快实现通用人工智能的进程。

栏目主编黄海华

来源作者俞陶然

上一篇：怎样对待坚果三色激光云台投影N1系列？有啥亮点下一篇：孙割下降香港！遭逢人身赏格，越发思量怎样把

怎样让大模子完成通用人工智能？商汤董事长和

如何让大模型实现通用人工智能？商汤董事长和MOSS负责人指出路径

怪异网

怪异导航

奇闻怪事

灵异事件

世界之最

怎样让大模子完成通用人工智能？商汤董事长和

如何让大模型实现通用人工智能？商汤董事长和MOSS负责人指出路径

天下奇闻趣事

怪异网

怪异导航

奇闻怪事

灵异事件

世界之最