清华“清醒杯”AIGC大赛冠军「进化智能」,推出AI设计多模态模型「DesignGPT」,开启商业化探索|项目报道

文|沈筱

编辑|王与桐

从《太空歌剧院》,到“特朗普被捕”图和AI版《流浪地球3》“预告片”,AI图像生成堪比人类作品的细腻程度和真实感,一次次刷新了人们对AI创造力的认知。

在一片“AI正威胁人类艺术家和设计师饭碗”的感叹声中,上述作品背后的Midjourney也顺理成章地坐上了生成式AI图像领域的第一把交椅。

然而,在进化智能创始人李嘉翔看来,细腻度和真实感代表的AI图像生成效果,仅是AI变革人类创意、设计领域的必要条件之一。他认为,AI生成图像领域要真正产生颠覆性影响,就需要将专业设计师的能力封装为稳定、可靠的标准产品,并达到可规模化商用的水准。

这也正是进化智能旨在达成的目标。

进化智能创立于2022年,是2023年清华“清醒杯”大模型应用创业挑战赛冠军、互联网+清华校赛的冠军项目。公司创始团队由来自清华大学、中山大学、字节跳动等国内外顶尖高校以及科技企业的成员组成,具备技术研发和设计认知跨学科背景。

进化智能创始人兼CEO李嘉翔,硕士就读于清华大学工业设计系,是清华特等奖学金得主,曾获红点、iF等顶尖设计奖;CTO stelleris博士就读于中山大学,熟悉计算机视觉,图像-语言多模态模型等AI领域主流理论和技术,在计算机视觉方向国际顶尖会议ECCV发表高水平论文,获得oral评分(全世界前2.7%)。其主导的多个开源项目在Github上已累计获得1万5千+star。

目前,进化智能已推出设计领域的多模态模型「DesignGPT」,主要面向企业客户提供可调用的标准化模型API接口,同时支持包括行业、企业、产品级别的模型定制、创意和营销方案生成等在内的AIGC整体解决方案交付。另外,公司将3D技术和AI结合,支持客户上传3D模型进行全视角产品渲染。

据介绍,「DesignGPT」接入了大语言模型,支持用户通过自然语言对话实现设计。技术层面,DesignGPT采用基于LLM的级联模型架构,基于Diffusion理论构建,配合底层视觉大模型强化视觉效果。模型依托于自主研发的HCP-Diffusion框架,可控可编辑性高,支持DreamArtist++、大语言模型、超分阶段模型等多种先进优化算法。

和“拿着锤子找钉子”不同,进化智能成立之初即聚焦打造专业级设计AI大模型,为垂直行业提供系统解决方案。在产研阶段,团队就对目标客户和应用场景等有了较清晰的构思:

一是,瞄准对设计有高频需求、高质量要求的行业,以及存在大量中小企业、生产制造产业链完备的行业,例如汽车、快消品、箱包、3C家电等;

二是,同时关注企业的营销和产品设计侧需求,通过与目标行业的头部客户合作,快速跑通业务闭环。

上述战略方向和策略的制定,主要源于团队成员长期以来对设计领域的洞察和探索。

李嘉翔介绍,其早在一年前就基于Disco Difussion模型生成了2000多双不同款式风格的球鞋设计,并带着作品参展了2022年8月的U设计周。彼时AIGC概念还未诞生,正是从过往的经历中,李嘉翔积累了关于当前工业设计领域面临的痛点的认知,并洞察到了通过AI进行设计创新的巨大潜力。

“设计效率低、周期长、成本高是设计领域长期以来面临的问题。”李嘉翔告诉36氪,“目前中国制造业在生产、制造环节的自动化和智能化水平已较高,但两端的设计、营销环节仍较多依赖脑力劳动,制约了产业链整体效率和竞争力。”

过细的领域分类也使设计师难以跨品类拓展能力边界。李嘉翔表示,企业通常希望设计师能解决多个模块的问题,然而,尽管设计师的核心能力是审美和市场嗅觉,其对不同品类设计美的理解是互通的,个人精力却是有限的。

而要解决上述场景中的痛点,在进化智能看来,生成式AI技术正是合适的“锤子”,可以将设计师能力工程化、通用化,进而推动设计业务规模化,同时打通设计和营销环节。

DesignGPT产品设计生成示例

基于现有研发成果,进化智能针对其瞄准的具体应用场景和旨在解决的需求痛点,构建了从数据收集、分析、筛选,到数据标注、模型设计和训练等整个流程的算法和技术框架,包括图像智能筛选、图像自动标注、特征分解、出图编译器,以及底层文生图模型等。

李嘉翔告诉36氪:“要保证图像生成可控性和出图效果,例如图像的精准性、细节丰富度、光影的合理性等,达到可商用标准,准确抽象设计师能力和通过文生图模型稳定转译、高质量表达,缺一不可。”因此,在这个过程中,设计和技术团队的协作,以及公司与产业端的合作至关重要。

DesignGPT效果图对比

一方面,需要将设计师的审美、设计理解和设计推理抽象到数理逻辑层面,用可量化的标准定义人的能力,并将其固化在自动化流程和底层模型中;另一方面,需要在真实场景中与产业客户共同优化上述抽象过程和定义标准,同时校验模型效果,对模型进行迭代。

从目前的模型表现来看,李嘉翔表示,从语义理解、元素融合、材质表现、造型能力、创意表达等多个维度,DesignGPT都不逊色于市面主流厂商的生成效果;同时其在易用性、输出结果稳定性、精准性等方面都有一定优势。

DesignGPT产品场景图生成示例

通过进化智能的演示,36氪发现,在易用性方面,仅需要输入关键词而无需其他赘述,其模型就能得到较为理想的产品设计图。具体到营销侧的应用场景中,客户只需上传十数张不同角度的产品图,进化智能就能对新产品进行精准的模型训练,并基于此,根据提示词生成特定产品的宣传图,而并非采用抠图、垫背景的形式。

通过DesignGPT文生图实现的汽车生成

通过DesignGPT模型训练实现的产品宣传图生成

在图像生成的精确性方面,进化智能的特色是能满足客户对于细节修改的需求。具体到设计场景中,比如运动鞋需要拓展新的配色方案,用户可以选择只更换鞋带等具体部位的颜色生成效果。

但同时,李嘉翔也坦言,目前DesignGPT在一些细节处理方面还有待加强,比如图像中的文字生成和修改,同时在光影等效果方面还有提升空间。据透露,团队会持续投入研发,目前正在训练新版本模型,目的就是更好地解决上述问题。

“训练设计领域的AI模型就像培养设计师一样,目标是让AI有能力解决设计领域的复杂问题,”李嘉翔告诉36氪,“要让AI学会设计,需要教会AI理解设计的核心。设计不仅是创造需求和满足需求的学科,更多的是从解决问题到重新定义问题的转变。这意味着,AI不仅要具备解决问题的能力,还要能够挖掘背后更深层次的需求,以及对问题进行重新定义。”

市场方面,据介绍,公司目前已累计服务数十家企业,并在近两个月陆续开始与多个行业的头部客户正式签单;在设计侧,应用DesignGPT设计的消费品即将投产,首批AI设计的产品将很快在市场上接受检验;营销侧,进化智能在早期与行业头部客户合作共创的案例之一是,为「玛莎拉蒂」的新车型定制了专属模型,用于生成营销图,辅助其推广宣传。

关于中小企业是否可负担的问题,李嘉翔表示,以营销场景为例,相较于高端视觉摄影工作室5万到50万不等的价格和对应的交付周期、沟通成本,AI出图的性价比够高,同时随着客户数增加,模型研发成本也呈边际递减。

谈及AI是否会取代设计师,李嘉翔给出了否定的回答:“尽管AI具有强大的计算和分析能力,但真正的创新设计还需要人类的直觉和情感。”他认为,未来的设计是人机协同,AI不仅可以参与到设计中,更可能成为创新设计的重要推动力。