(资料图)
人工智能世界日新月异地不断发展。尽管有人认为人工智能会削减许多人的工资,使他们失业,但人工智能已经证明,在学校或大学作业方面,甚至通过对无数研究页面的分析,人工智能本身是一个巨大的帮助。在这一点上,谷歌带来了最新的开发成果,称为 AudiopaLM。这种新的语言模型具有高精度的听、说和翻译能力。
AudiopaLM 是一个用于语音生成和理解的大型语言模型。基于文本和基于语音的语言模型(PaLM-2、AudioLM 和 AudioPaLM)分别组合成一个多模式架构,可以处理和生成文本和语音,用于语音识别和语音到语音翻译应用。仅在 PaLM-2 和 AudioLM 等大型语言模型中找到的语言信息将被传递到 AudioPaLM,并具有保留说话者识别和语气等副语言信息的能力。
通过 AudioPaLM,Google 展示了通过使用纯文本大型语言模型的权重初始化 AudioPaLM 来改进语音处理,成功地利用预训练中使用的大量文本训练数据来帮助完成语音任务。由此产生的模型比最先进的系统执行语音翻译任务要好得多,并且它可以对训练期间未遇到输入或目标语言组合的多种语言执行零样本语音到文本翻译。此外,AudioPaLM 还展示了音频语言模型如何通过在语言之间传输语音来响应简短的口头提示来工作。
语音到语音翻译和自动语音识别是 AudioPaLM 模型的示例。为了对新的音频标记集合进行建模,该平台增加了预训练的纯文本模型(虚线)的嵌入矩阵。模型架构在其他方面保持不变;它从由文本和音频标记的混合序列组成的输入中解码文本或音频标记。随后的 AudioLM 阶段将音频令牌传输回原始音频。
此前,谷歌推出了AudioLM。它是一个用于长时间生成高质量音频的框架。在这个表示空间中,AudioLM 通过将输入音频映射到一系列离散标记,将音频生成构建为语言建模任务。该平台展示了当前可用的音频分词器在重建质量和长期结构之间进行的许多权衡,并且该平台建议采用混合分词策略来实现这两个目标。
标签: