主流大语言模型的技术原理细节

主流大语言模型的技术原理细节

作者:spring1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged At

一个草根团队驱动的国产编程语言,开源1年后,如今活的怎么样?

一个草根团队驱动的国产编程语言,开源1年后,如今活的怎么样?

这是关于一个国产编程语言的故事,在研发 5 年、开源一年的过程中,他们有过迷茫和挑战,更有豁然开朗的心得与体会。在本篇文章中,他们围绕研发初衷、开源成果、最新进展、趟过的那些“坑”和学会的那些道理做一次深度的分享,也借此希望能够给为国产基础软件路上的同行者带来一些参考。作者 | 柴树杉,丁尔男,扈梦明,赵普明       责编 | 梦依丹出品 | CSDN(

当见未萌|AI发展的终极意义是倒逼人类重新认识自己

当见未萌|AI发展的终极意义是倒逼人类重新认识自己

【编者按】“我们从来没有像今天一样,可以在镜子里看到一个跟我们长得一模一样的智能体,那就是新的人工智能。所以重新认识我们自己,在人工智能时代是尤为迫切的。”9月7日,复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华在外滩大会见解论坛上发表主旨演讲,就“大语言模型消除人机鸿沟:人类主体性是强化还是弱化”这一主题做出深刻阐释。在题目为“大模型时代的新型人机关系”的演讲中,肖仰华指出,

为什么说我们对AI大模型的工作原理知之甚少?

为什么说我们对AI大模型的工作原理知之甚少?

人工智能语言模型不是人类,但我们使用律师资格考试或美国医学执照考试之类的测试来评估它们,就好像它们是人类一样。模型在这些考试中往往表现得很好,可能是因为模型的训练数据中有大量此类考试的例子。正如我的同事威尔·道格拉斯·海文(Will Douglas Heaven)在他最近的一篇文章中所写的那样,“有些人被它们展现出的‘人类’智慧所迷惑,另一些人则一点也不相信。”(来源:AI 生成)越来越多的专家呼

2023谷歌开发者大会(上海)两大关键词:AI和出海

2023谷歌开发者大会(上海)两大关键词:AI和出海

作者:郝俊慧 来源:IT时报从今年5月10日(北京时间5月11日)美国加利福尼亚州山景城第一站开始,近4个月里,2023 Google I/O Connect(2023 Google开发者大会)走过了迈阿密、阿姆斯特丹、班加罗尔,最后将收官之站放到了上海。120天,AI轻舟已过万重山。5月份在山景城官宣的大语言模型PaLM 2(Pathways Language Model 2)到上海时,已经有超

MOSS大模型负责人邱锡鹏:大模型不仅仅是工程问题

MOSS大模型负责人邱锡鹏:大模型不仅仅是工程问题

·“很多人认为大模型是工程问题,但事实上并不是。大模型里存在很多科学问题,比如智能涌现、复杂推理、知识融合以及学习策略等等。”·“大模型的平民化”,即最终要让应用大模型的每个人都觉得成本可以接受,包括微调、预训练、推理部署。复旦大学计算机科学技术学院教授、MOSS大模型负责人邱锡鹏在外滩大会见解论坛。“现在的大模型比较耗资源,但总体而言它的资源消耗都集中在预训练阶段。除了算力需求大之外,很多人认为

三星电子正与微软合作开发一款聊天机器人

三星电子正与微软合作开发一款聊天机器人

9月12日消息,据外媒报道,三星电子正与微软合作开发一款聊天机器人,这款机器人将使用OpenAI的大型语言模型(LLM)来帮助完成文档总结和翻译等任务。据报道,微软向Open AI投资了12万亿韩元,并签署了独家许可协议。根据协议,Open AI必须在微软Azure云上运行,该公司向企业提供服务时,必须只在微软Azure云上提供。此前,三星曾尝试使用包括OpenAI旗下聊天机器人ChatGPT和谷

华晨宇演唱会播放网络恶评 呼吁爱与能量引热议

华晨宇演唱会播放网络恶评 呼吁爱与能量引热议

9月10日,华晨宇演唱会在鸟巢举办,演唱会上的大屏幕播放着网络恶评弹幕,引发热议。华晨宇表示希望用自身的爱与能量,鼓励和温暖每一位歌迷,也呼吁大家重视语言的力量。