王小川，用大模型再造下一个搜狗 | 焦点分析_生活

王小川，用大模型再造下一个搜狗 | 焦点分析

2023.08.09 17:14
0.04k

作者 | 邓咏仪

编辑 | 苏建勋

“去美国之前，我是希望能在（技术）理想上比OpenAI慢半步，落地快半步，但交流完回来，我们改成要比OpenAI的理想慢一步，落地快三步。”

6月刚从硅谷转悠一圈回来，王小川设定了百川的最新目标。

8月8日，王小川的新AI创业公司“百川智能”发布首款闭源大模型Baichuan-53B，参数量为530亿。新模型已经开放内测，下个月将会开放API及系列组件，以供开发者进行对齐、强化。

在一众国内大模型公司中，百川在模型发布节奏上，显得尤其激进。此前，百川分别在7月和6月分别发布了两款开源大模型，参数量为70亿和130亿——直到发布新模型的此刻，百川也不过成立4个月。

新模型Baichuan-53B参数更大，达到530亿。据百川智能，Baichuan-53B融合了意图理解、信息检索以及强化学习技术，结合有监督微调与人类意图对齐，在知识问答、文本创作上能力更加完善。

功能、效果的完善只是第一步，如今百川在应用一侧的决心更甚：要优先在B端落地，还要一手抓模型，一手抓应用——下半年，百川将推出千亿级的大模型，也会有C端的超级应用部署。搜索，将成为成为其中的重要部分。

而为了能迅速商业化落地，王小川在4月拉来原搜狗原CMO洪涛，负责百川的商业化。加上此前入职的COO茹立云，搜狗“三剑客”如今再度在百川聚首。

“现在我们已经有103个人，基本上是一天招一个人的速度，往后速度可能会更快，”王小川对36氪表示，“To B也好，To C也好，市场哪个地方的组织先ready，哪个地方就能跑得快一些。

开源闭源不是核心问题，To B/To C才是

王小川形容新模型53B为“文科专业选手”。他表示，在不同测试集上，之前百川发的两个开源模型“英文部分和LLaMA 1持平，中文部分领先”。而新模型的效果，比这两个还要更好。

但与之前发布模型时的不同，此次王小川并没有对模型的参数、技术细节侃侃而谈。在对模型进行解释、生成能力的演示时，更多像是走个过场。“这些能力也都不新鲜了，主要看做得怎么样。”王小川笑言。

以53B模型开发的“百川大模型”对话机器人来源：百川智能

发布会的重点，很大一部分是在解释开源/闭源路线的考量，以及具体的应用落地情况。

这和当下国内大模型的发展现状同频共振。国内大模型厂商尚在追赶GPT-3.5到GPT-4的过程中，无论是开发者还是用户，如今都已经脱离盲目追求模型参数的阶段。

全球大模型已经分为开源和闭源两股力量。OpenAI一开始走开源路线，在推出ChatGPT后转向闭源，试图保持竞争优势；另一边则是Meta——作为后发者，Meta显然希望依靠旗下的Llama拉拢更多开发者，弥补技术层面差距。

国外的开源生态，是国内市场的一个重要变数，不少国内大模型厂商正是在开源大模型上进行微调，同质化现象已然显著。Meta开源了Llama 2商用版后，有市场评论辛辣讽刺：“国内的大模型厂商又有新模型可用了。”

在这样的背景下，国内大模型厂商得解释清楚“为什么我们的模型更好”，是道更重要的证明题。

7月，王小川就曾回应过baichuan-7B套壳Llama争议，认为团队拥有取得高质量语料的渠道，模型迭代速度很快，开源能力已经比肩Llama。

而到了发布闭源模型的现在，王小川说，开源还是闭源并非问题核心，也不构成当下的共识难题。相比起来，选择To B还是To C才是关键。

“大模型不是To C生态，用户不需要像在安卓、iOS之间’二选一‘，而是开源、闭源都需要，”他直言：“未来，我们认为80%的企业都会用到一些开源模型，因为闭源没法对场景做特别好的适配。”

但多说也无用，有模型之后，能拿出实际的落地成果，对此刻的的百川而言更重要。

百川做“超级应用”的底气，主要来自王小川团队在搜狗时期积累的经验。搜狗做过两个超级应用，一是搜索，另一个是输入法。

尽管要到年底才能知道具体进展，但可以从一些细节看出“超级应用”的端倪。本次的53B模型就已经做了搜索增强，大模型能够参照搜索结果，针对用户请求生成高价值且具有实时性的回答。

搜索出身的王小川，未来也会将很大一部分筹码押注在老本行上。他认为，大模型不会取代搜索，而是会以另一种形式融合在一起。

比如，如今ChatGPT是以插件形式引入搜索引擎Bing的能力，但百川会希望让搜索和大模型两个产品，在技术底层就进行融合。对中国市场而言，这会是触及C端更好的方式。

”比OpenAI技术上慢一步，落地快三步”

做了半年大模型，百川现在已经建立起两个开源模型+一个闭源模型的“模型矩阵”，按王小川的话来说：“第一场入门之仗算是立住了。”

发布更大参数的闭源模型，其实是面向To B市场的一次“秀肌肉”。

此前百川的开源模型分别为70亿和130亿，而这次发布的新模型参数量达到530亿——这已经是一个足够让“智能”涌现、相当大的模型量级。“这次的53B只是用来反映我们的大模型能力，本质是为To B服务的，之前的7B、13B，也都一样。”王小川表示。

做大模型是一项综合工程，从早期的数据获取、数据选择、数据配比、标注到后期的训练框架，一个环节发生变化，都会对效果产生很大影响。简言之，模型参数越大，也更考验大模型团队的“硬功夫”。

大模型没有办法做完服务用户的最后一步，某种程度上，这给了中国厂商机会。王小川以13B和7B模型举例，在这两款模型推出并落地后，已经有超过150家企业注册使用。在一些行业中，用户反馈甚至已经比闭源的GPT模型更好用。

下半年，百川还将计划发布千亿级的大模型。未来，开源和闭源模型会以互补的形式为客户提供服务。

来源：百川智能

和年初宣布入场相比，如今王小川在应用一侧落地的信心更足了。他认为，应用层依旧有中国厂商的大机会。

6月发布百川的第二款模型之后，王小川随即奔赴硅谷拜访。和技术人员交流后，王小川发现，他们技术确实做得不错，但美国以工程师主导的文化浓厚，很多工程师并没有应用的经验，做应用能力“实在不咋样”。

“他们（硅谷）现在在研究怎么把1000万颗GPU联在一块做模型架构，英伟达一年才生产100万颗GPU。拼理想实在拼不过，但落地我们能跑得快。”

既做模型也做应用，百川“左右开弓”的路线，是如今国内大模型厂商的缩影。

在美国，OpenAI、Google、Meta打得火热，模型层格局已定，几乎没有创业公司会选择“再造一个OpenAI”。转而兴起的，是如火如荼的中间层和应用层创业，几层生态之间泾渭分明。

但在国内，通用模型层还没能分出胜负——无论是大厂派、互联网创业派还是学院派的模型团队，大家都在往GPT-3.5到GPT-4之间的目标前进。在效果上，大家没有办法拉开决定性差距。

局势不明朗时，一个更为牢靠的抓手是必要的，这是以后差异化的关键。比如，国内最早做大模型的的智谱，如今也在探索To C的应用形式；像讯飞这类垂类厂商造了通用大模型后，也上线了讯飞星火app，切入到学习和办公场景。

从造大模型到造应用，短短半年过去了，国内“百模大战”的第一阶段追逐战也告一段落。“现在还是群模乱舞的状态，未来慢慢会有更多的分层。“王小川说。而接下来的应用层之争，才是资源、技术、产品、商业化的全方位“持久战”。

标签: 模型百川落地 Meta 小川国内搜狗开源 53B GPT Llama Baichuan 厂商 7B 闭源 OpenAI

免责声明:凡本网站发布的文章、图片、音频、视频等内容所表述的观点和立场不代表本网站的观点和立场，若对该观点或立场有疑义或异议，请及时用电子邮件或电话通知我们，以迅速采取适当措施，避免给双方造成不必要的经济损失。凡本网站发布的所有文章、图片、音频、视频文件等资料的版权归版权所有人所有，本站采用的非本站原创文章及图片等内容无法一一和版权者联系，如果本网所选内容的文章作者及编辑认为其作品不宜上网供大家浏览，或不应无偿使用，请及时用电子邮件或电话通知我们，以迅速采取适当措施，避免给双方造成不必要的经济损失。