主流大语言模型的技术原理细节

主流大语言模型的技术原理细节

作者:spring1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged At

Transformer彻底改变了人工智能,那什么将取代transformer?

Transformer彻底改变了人工智能,那什么将取代transformer?

Transformer彻底改变了人工智能,那什么将取代transformer?文/Rob Toews如果说现代人工智能有一份创始文件或者一篇圣典,那一定就是谷歌2017年发布的研究论文《你需要的只是Attention》(Attention Is All You Need)。这篇论文介绍了一种被称为“transformer"的新型深度学习架构,并在过去五年里彻底改变了人工智能领域。Transform

听我说,Transformer它就是个支持向量机

听我说,Transformer它就是个支持向量机

机器之心报道编辑:蛋酱、小舟SVM is all you need,支持向量机永不过时。Transformer 是一个支持向量机(SVM)一种新型理论在学界引发了人们的讨论。上周末,一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理,其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。

前谷歌研究人员创立Sakana AI,专注于为基础模型创建新架构

前谷歌研究人员创立Sakana AI,专注于为基础模型创建新架构

IT之家 8 月 20 日消息,据路透社报道,两位著名的前谷歌研究人员 David Ha 和 Llion Jones 启动一项研究总部位于东京的新人工智能公司,创立了 Sakana AI。IT之家从报道中获悉,Jones 是 Google 2017 年研究论文《Attention Is All You Need》的第五位作者,该论文介绍了“transformer”深度学习架构,该架构后来成为聊天机

前谷歌研究人员创立 Sakana AI,专注于为基础模型创建新架构

前谷歌研究人员创立 Sakana AI,专注于为基础模型创建新架构

IT之家 8 月 20 日消息,据路透社报道,两位著名的前谷歌研究人员 David Ha 和 Llion Jones 启动一项研究总部位于东京的新人工智能公司,创立了 Sakana AI。IT之家从报道中获悉,Jones 是 Google 2017 年研究论文《Attention Is All You Need》的第五位作者,该论文介绍了“transformer”深度学习架构,该架构后来成为聊天机

Stability AI 推出 StableCode,一款用于写代码的大型语言模型

Stability AI 推出 StableCode,一款用于写代码的大型语言模型

品玩8月9日讯,Stability AI 以其 Stable Diffusion 文本生成图像模型而闻名,但这并不是其感兴趣的唯一领域,该公司现在也开始涉足代码生成领域。今天,Stability AI 发布了其新的开放大型语言模型(LLM)StableCode ,该模型旨在帮助用户生成编程语言代码,基于 transformer 神经网络打造 。StableCode 将提供三个不同级别:一