火豹浏览器资讯:亚马逊大规模人工智能语音模型

时间:2024-02-29 18:18 点击: 139 次

  2月18日,亚马逊人工智能研究团队宣布研发出一款堪称史上规模最大的文本转语音模型。这款模型不仅参数数量最多,还利用了前所未有的大规模训练数据集。相关研究成果已在arXiv预印本服务器上公布,论文详细阐述了模型的研发与训练过程。

  近年来,以ChatGPT为代表的大型语言模型因其在智能问答和高级文本生成方面的卓越表现而备受瞩目。然而,人工智能的应用领域正日益广泛,不仅局限于语言处理。此次,研究人员致力于通过扩充参数数量和训练数据集,进一步提升文本转语音技术的性能。

  据悉,这款名为“可扩展流式文本转语音模型”(BASE TTS)的新模型,拥有高达9.8亿个参数,并通过10万小时的录音数据进行训练。这些录音主要来源于公共网站,以英语语音为主。此外,研究人员还为模型提供了多种语言的单词和短语示例,使其能够准确发音一些常见的短语,如“au contraire”和“adios, amigo”。

亚马逊人工智能

  为了探究人工智能领域的“涌现能力”,亚马逊团队还测试了使用较小数据集的模型。所谓“涌现能力”,是指大型语言模型或文本转语音模型在达到一定参数规模后,突然实现更高智能水平的现象。他们发现,在文本转语音应用中,这种能力在参数量达到1.5亿的中型数据集时显现。

  研究人员指出,这种涌现能力涉及一系列语言特性,如复合名词的使用、情感表达、外语词汇的应用、语音学原理以及标点符号的正确使用等。此外,模型还能够准确强调句子中的关键词,从而提升语音合成的自然度和流畅度。

  亚马逊研究团队表示,出于对潜在滥用风险的担忧,BASE TTS将不会直接面向公众开放。他们计划将其作为学习工具,以便从中汲取经验并优化现有文本转语音应用的音质。这一创新研究有望为人工智能在语音合成领域的未来发展奠定坚实基础。