Attention_标签_第一娱乐网

生活

主流大语言模型的技术原理细节

2023.09.13

作者：spring1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged At

生活

Transformer彻底改变了人工智能，那什么将取代transformer？

2023.09.08

Transformer彻底改变了人工智能，那什么将取代transformer？文/Rob Toews如果说现代人工智能有一份创始文件或者一篇圣典，那一定就是谷歌2017年发布的研究论文《你需要的只是Attention》（Attention Is All You Need）。这篇论文介绍了一种被称为“transformer"的新型深度学习架构，并在过去五年里彻底改变了人工智能领域。Transform

生活

前谷歌研究人员创立Sakana AI，专注于为基础模型创建新架构

2023.08.21

IT之家 8 月 20 日消息，据路透社报道，两位著名的前谷歌研究人员 David Ha 和 Llion Jones 启动一项研究总部位于东京的新人工智能公司，创立了 Sakana AI。IT之家从报道中获悉，Jones 是 Google 2017 年研究论文《Attention Is All You Need》的第五位作者，该论文介绍了“transformer”深度学习架构，该架构后来成为聊天机

生活