(相关资料图)
近日,谷歌方面宣布推出能够处理和生成文本及语音的大型语言模型(LLMs)AudioPaLM。据了解,AudioPaLM 将两个现有的大模型、即文本大模型 PaLM-2 和语音大模型 AudioLM,融合到一个统一的多模态架构中,并利用该架构处理和生成文本和语音。
据谷歌方面透露,AudioPaLM" 继承 " 了 PaLM-2 模型的语言知识,以及 AudioLM 模型保留副语言信息(例如说话者身份和语调)的能力,从而能够更全面地理解和生成文本和音频,使得其能够适用于语音识别、语音翻译、语音转文字的多种应用场景。据了解,AudioPaLM 使用了一个联合词汇表,可使用有限数量的离散标记表示语音和文本。并将这个联合词汇表与标记化的任务描述相结合,此外 AudioPaLM 还可以在各种声音和基于文本的任务上训练单个解码器模型,这也意味着传统需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务,可统一到一个架构和训练过程中。
谷歌方面透露,经试验表明,AudioPaLM 在语音翻译方面的表现明显优于现有模型。同时 AudioPaLM 还展现了对语言组合执行零样本语音到文本翻译的能力,也就是说这款大模型可以准确地将陌生语言的语音翻译成文本。
此外,AudioPaLM 还可基于简短的口语提示在语言之间进行声音转换,并捕捉和重现不同语言中的独特声音,以实现语音转换和适应。
对此谷歌方面表示," 我们证明,用纯文本大语言模型的权重初始化 AudioPaLM 可改善语音处理,也成功地利用了预训练中使用的大量文本训练数据来帮助语音任务。所得模型在语音翻译任务方面明显优于现有系统,并且能够对训练中未发现输入 / 目标语言组合的许多语言,执行零样本语音到文本的翻译。AudioPaLM 还演示了音频语言模型的功能,例如基于简短的语音提示跨语言传输语音。"
【本文图片来自网络】