张向征:AIGC技术重塑数字人,释放新需求|2023 ChinaJoy AIGC大会

7月28日至7月31日第20届中国国际数码互动娱乐展览会(ChinaJoy)在上海举行。7月28日,由汉威信恒主办,钛媒体集团协办的2023 ChinaJoy AIGC大会正式召开。大会聚焦时下热议的AIGC行业,邀请国内外AIGC领域的行业代表专家、学者、企业大咖重磅参会,从技术层面、应用层面、价值投资层面,全生态视角探讨AIGC技术下的内容产业新业态。

360智脑总裁张向征发表了题为《从数字人到数智人:360智脑的解决方案》的演讲。

张向征指出,AIGC技术可以重塑数字人,释放新需求。大模型本身有强大的内容理解能力和用户需求理解能力、文本生成的能力,让传统的数字人可以和人进行实时智能的对话,满足人的各类需求,解决人的各种工具性问题。同时,在数字人生产和制作方面,文生图工具,包括图像生成、视频生成、跨模态语义理解和可控图像编辑工具,可以让数字人的创作更加高效。

新一代数字人不仅只有形象,有语音,而且可以学会人说话的方式,以及人的背景信息。张向征介绍,通过大模型的学习训练,数字人可以代替我们完成智能客服、进行直播、进行销售及进行培训,帮助我们提高各类工作的效率,经过训练的数字人甚至可以实现数字分身,在不方便出席或者没有时间出席的场合完成讲话。

以下是张向征在2023 ChinaJoy AIGC大会上的演讲全文(略经钛媒体App整理):

尊敬的各位来宾,大家上午好!

我是360的张向征,今天我跟大家分享360智脑在数字人领域的探索和应用。

AIGC技术的发展,尤其是大模型技术的出现,让娱乐行业拥有了大脑和灵魂,而且带来了需求和供给的双增量。在需求方面带来了新的应用场景,比如说数字人、数字永生。在解放生产力方面带来了新技术、新的AI工具,帮助内容创作者降低生产成本,提高生产效率。

AIGC技术可以重塑数字人,释放新需求。比如说因为大模型的出现,大模型本身有强大的内容理解能力和用户需求理解能力、文本生成的能力,可以让传统的数字人不再是工具人,而是可以和人进行实时智能的对话,满足人的各类需求,解决人的各种工具性问题。

在数字人生产和制作方面,文生图工具,包括图像生成、视频生成、跨模态语义理解和可控图像编辑工具,可以让数字人的创作更加高效。

AIGC技术无论在文字、图像、音频、视频多个领域,都可以全链条降本增效,帮助企业快速应用到自己的业务场景上。

在今年上半年,依托360过去多年在算法、数据、工程、架构各方面的积累,发布了360智脑的认知型通用大模型。模型集成了多个工具,包括360 GPT大模型,对标ChatGPT类似的做文本的理解和生成。同样有图像生成大模型、图像处理工具,也有360鸿图做复杂的文本图像治理,以及能够根据用户指令结合用户提交的图片、细节修改,定制化地对图像进行复杂处理。

360智脑具备十大核心能力,可以覆盖大模型应用的各种场景。比如说生成与创作能力,360智脑的生成与创作能力可以更好地理解用户角色的诉求,比如说制造了孙悟空的数字人,孙悟空说话需要有自己的特色和用语;制造了诸葛亮的数字人,需要用文言文的方式更好地回答各种用户的问答。

同样的道理,在更复杂的场景,需要多轮对话的能力,需要理解用户的前文上下文。阅读理解的能力,更好地理解用户的意图,知识问答的能力,更好地解决用户的需求,应用在广泛的应用场景上。

360大模型的开发,依托了以往多年在各个领域的积累,比如说在搜索原来,我原来是做搜索方向的,在搜索领域积累了海量中文网页及对中文网页进行内容抽取、数据清晰的能力。同样,在RP领域,已有的搜索技术需要跟踪各类大模型的新进展,以前Bard、GPT的出现我们也会在内部进行各种尝试和应用。

搜索服务本身也可以作为360智脑大模型的增强工具,作为一种外挂知识库,解决大模型的连接问题,提高大模型的内容实效性和实时性。

360智脑最大的问题是安全,有在模型基础框架和安全的积累,也有在内容安全下的积累,让输出的内容更加安全可控。

大模型驱动的数字人能够带来生产效率的提升,以及颠覆生产关系,新一代数字人不仅只有形象,有语音,而且可以学会人说话的方式,以及人的背景信息。通过大模型的学习训练数字人可以代替我们完成智能客服、进行直播、进行销售及进行培训,帮助我们提高各类工作的效率,经过训练的数字人可以实现数字分身,在不方便出席或者没有时间出席的场合完成讲话。

与传统的数字人相比,已有的影视级数字人成本极高,需要3A建模,需要专业的演员,需要专业的拍摄设备,投入动辄百万起,而已有的虚拟人在后续运维上也需要投入较大的成本。

已有的形象克隆数字人可以进行直播,也可以按照人提供的内容进行内容输出,比较直观和形象。但存在两个缺点:一是内容需要有人来写,而2个小时的直播需要提供海量的文本内容,需要经常性进行变化。二是念稿的机器人只是单向的,没有办法及时响应用户的需求和提问,导致用户有时候会觉得有点虚假和不真实。

360智脑机器人的核心优势是具备“最强外表+最强大脑”,有三个特点:

一是以人为本,多模态交互。360智脑大模型应用耗用、易用是关键,大模型技术很强,但很多人在用ChatGPT时并没有办法把ChatGPT最强的能力发挥出来。有些专业的问题有些人可以问出来很好的答案,但有有些人问出来的答案效果不够好。数字人背后已经有专业的人员定制了各种不同的角色,这些角色可以更好地让用户使用时就知道我们面对的是专业的律师、专业的医生、专业的营销顾问,在已有数据调研里,使用数字人的场景、数字通用大模型的场景,用户问答满意度提升超过10个百分点。数字人形象相比传统文本界面的交互,更直观,更形象,这种多模态交互更符合人更自然的交互,所以用户体验更好。

二是有灵魂有记忆,需要利用已有的通用引擎的技术,把数字名人、古圣先贤,他们有一系列的背景知识、著作、才华、发表过的文章,只靠简单的提示语没有办法很好地解决,需要有外挂的知识库进行个性化的定制,才能提供更好的符合人设定义的服务。

三是能联网、能学习。有很强的搜索及对话知识库存的定制服务,用户在使用的时候,可以及时联网解决有效性和测试性的问题。

数字人前期治理的步骤,首先依托于搜索本身文本处理的能力,及时把网络文本、文档文本抽取出来,结合语义积累进行分段处理、执行、摘要,提前生成Q&A的问题。存储阶段,有赖于已有的通用引擎,这是360的引擎的基础服务。

同时支持了基于关键词的传统搜索,以及基于向量的语义搜索,可以结合用户的使用场景平衡用户对精确性的要求、语义泛化性的要求。比如说在政府办事的智能客服里任何一点差错都不能犯,要给用户的信息要足够精准,只靠语义相关没有办法解决,需要用到传统搜索技术。

人机交互层面可以依赖于360智脑大模型语义理解能力,很好地对用户从知识库里检索出来的信息进行统一的汇总和输出,更符合与人对话的自然语言理解。

针对垂直的行业和数字人特定地收集语料加入到预训练和微调中,这样才能具有专业性,提供比通用大模型更优的结果。

在游戏领域简单的展示,只需要提供简单的角色资料,以及采集一部分人物照片信息,加上360智脑大模型的能力,就可以生成能看见、能听见、开放式问答的对话式数字人。

生成数字人之后还有提问,如果只靠大模型本身输出的结果很难给出人具体的观点,往往是大模型每次基于模型本深生成的结果有很大的随机性。但是当有了个性化、定制化的知识库之后,数字信息就会更多代表更符合人设,更符合他已有的观点,而不是用大模型本身去“胡说八道”。

在现场问答的场景,具体使用时,一种是直播场景,可以单向对外输出,另外一种是直观和用户进行问答(在线问答、实时问答),工具后台可以统一提供,可以用于直播场景,也可以用于实时问答场景。

360智脑数字人不止在平台上可以用,而且做了整体的服务包装,通过API和SDK很方便地挂载到第三方网站、第三方APP中,在用户使用其他工具的场景下,很方便地进入数字人的场景,提供智能客服或者一系列的咨询服务。

在其他应用场景也会有更复杂的场景,比如说大屏场景,需要的不止是简单的对话,而需要和其他系统做复杂交互。

这是和城市文旅场景结合的数字人,不止需要问答,也需要把原有系统中的数据结合用户问的问题,通过解析层具体的指令,获取对应的结果化数据,再通过大模型的加工处理,用更自然的形式反馈给用户。

除了大屏场景,还有数字分身,可以代表主人出席大会,如果有些人时间来不及的话,可以解决这一问题。另外可以用于直播间场景。

有人设,有记忆,有灵魂的数字人,最终的应用场景很多样。

1.数字伴侣。这种场景下人是需要有情感需求的,而里面不止是现在用大模型时的专业化回答,需要有闲聊的模式,能更反映角色对应的特点。比如说可以作为情感陪伴。

2.数字名人。我们自己做的“数字老周”也是类似的场景,需要和人对应的背景信息建设成个性化的知识库,很好地融入到大模型的使用场景,解决大模型的幻觉,反馈出人本身的背景知识,自己对问题的理解、个性的特点

3.数字专家。作为数字员工,比如说营销专家、法律专家,作为数字员工给企业提供服务,提供的方式比泛泛地问大模型得到的效果好很多,因为他们的partment都是经过精心设计的。

4.数字助手。大屏场景需要解决复杂的场景,需要和复杂的场景进行交互。

360智脑目前已经有了多层布局,可以批量化规模生产数字人,成本很低。另外提供了对外的API平台,很方便地对外提供服务。未来可能的应用方向可以做更多的探索,比如说用于AR、VR领域,希望有更多合作伙伴将来能一起探索更智能的未来。

谢谢大家!