清华大学联合字节跳动,开源听觉大语言模型 SALMONN

清华大学联合字节跳动,开源听觉大语言模型 SALMONN

IT之家 8 月 22 日消息,清华大学电子工程系日前与字节跳动的火山语音团队携手合作,推出一款开源大语言模型 SALMONN。▲ 图源 SALMONN 的 GitHub 页面IT之家经过查询得知,SALMONN 模型支持语音、音频以及音乐输入,它可以感知和理解不同类型的音频内容输入,并具备多语言语音识别和翻译以及语音推理等功能。▲ 官方发布的模型解析图官方表示,SALMONN 支持语音

解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型

解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型

新智元报道  编辑:好困【新智元导读】清华大学联合字节火山语音团队提出了一种全新的「听觉」大语言模型——SALMONN。不仅能够感知和理解各种类型的音频输入,而且还涌现出了多语言和跨模态推理等高级能力。日前,清华大学电子工程系与火山语音团队携手合作,推出认知导向的开源听觉大语言模型SALMONN (Speech Audio Language Music Open Neural