网易有道上线“易魔声” 开源语音合成引擎 用户可免费下载使用

刚刚,我们上线了「易魔声」开源语音合成(TTS)引擎!

「易魔声」,是一款有道自研TTS引擎,目前支持中英文双语,包含2000多种不同的音色,更有特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

「易魔声」中文 网易有道 17秒

(我们用「易魔声」将以上这段话进行了技术合成,点击试听 )

用户可免费在开源社区GitHub进行下载使用
地址:https://github.com/netease-youdao/EmotiVoice

通过我们提供的web界面、及批量生成结果的脚本接口,轻松实现音色的情感合成与应用。

640
GitHub开源界面,点击红色字可跳转)

在你过往的回忆里,是不是也有一些特别的声音,比如:偶像的声音激励人心、妈妈的声音让我们一秒回忆起小时候……声音,作为语言维度的一种,总是蕴含着人类充沛的情感表达。而富有情感的合成语音,是能够为应用和内容增色的AI功能。

现在通过「易魔声」,简单通过在文本中加入情感的描述提示,开发者或者内容创作者就可以自由合成符合自己需求的带有情感的语音,比传统TTS更加自然逼真!

「易魔声」,是有道AI团队今年开发的一个项目。随着基于GAN等现代AI技术的语音能力越来越成熟,实现一个质量较高的TTS系统的门槛越来越低。但即使如此,中英双语的高质量、现代TTS模块还是不容易找到,要在自己的应用与内容中加入高逼真度且高度可控的语音,特别是中英双语的语音,依然比较麻烦。

这也是我们将这个项目开源的初衷,希望能帮助有需求的开发者与内容创作者,并不断扩大高质量TTS的应用范围。目前该项目还处于初期阶段,期待大家在开源网站给予我们更多反馈,我们非常希望听到大家的使用体验与建议,欢迎各位进群交流~

微信图片_20231110171247

如果若二维码失效,可添加我们工作人员的企业微信申请进群~
微信图片_20231110190256

借此机会,我们也邀请您了解和探索有道的更多酷炫AI技术

  • 您可以尝试我们的声音定制和声音复刻功能(点击红字即可试用)。从用户录制到试听整个过程只需5分钟,即可完成个性化的声音定制。

  • 您也可以和Hi Echo虚拟人口语私教(点击红字即可跳转)聊一聊。通过有道的「子曰」教育大模型、语音和虚拟人技术,Echo可以陪你轻松练习地道的英语口语。每天练习10分钟,口语水平快速提高哦。

  • 您还可以微信搜索“有道智云体验中心”小程序。在这里,可以访问我们已经对开发者通过API等形式开放的文本和图像翻译、文字和各类图片识别、作文批改等各类AI技术。

关于有道智云

有道智云AI开放平台,是网易有道旗下一站式人工智能服务提供商,为开发者、企业和政府机构等提供自然语言翻译、文字识别、OCR、语音识别等服务以及行业解决方案,致力于提供安全、可靠和高效的云服务。

联系电话:010-8255-8901;商务合作:AIcloud_Business@corp.youdao.com.

想了解更多关于有道人工智能的内容,可访问“有道智云”官网https://ai.youdao.com.

阅读全文
周枫:当我们谈论大模型时,应该关注哪些新能力?

基于大语言模型技术的ChatGPT推出已经有4个月了,更多同类产品还在快速出现。比如,前天谷歌更新了Bard,将辅助编程能力支持的语言数量扩展到20种。

然而,对大模型技术的重要性也出现了质疑,前段时间,吴军老师就评价ChatGPT不算新技术革命,带不来什么新的机会,他认为大模型仍然存在很多限制,不像大家追捧的那样有吸引力。这篇文章发布后,网上也出现了多篇反驳文章。我不太关注这些争论,但我认为有一个问题没有被充分讨论,那就是大模型带来的新能力中,哪些是最为关键的,最有可能带来长期影响的

我认为,与之前众多的自然语言处理技术相比,大语言模型至少具有三项根本性新能力,这些新能力在学术界已经被广泛讨论,甚至被视为常识,但是在产业界和产品团队中却缺乏足够的关注。实际上,这些大模型技术的特点已经改变了我们对业务和产品规划的思考方式,也会改变很多产品的经济模型。因此,产品经理和业务负责人需要更多地关注和深入思考这些新能力的应用场景。

能力一:涌现能力(emergent abilities)

涌现能力指的是在小型模型中并不存在,但在大模型中“突然出现”的能力,其中包括常识推理、问答、翻译、数学、摘要等(详见下图)。如果仅依靠小型模型的能力做线性外推,往往无法预测出涌现能力的出现和其强度。OpenAI的首席技术官Ilya Sutskever在接受采访时反复强调,尽管表面上看来,语言模型只是在预测下一个词元(token),但当模型足够大,transformer技术的建模能力足够强时,基于内部表示的推理能力就会出现。因此,模型会呈现出与规模较小时完全不同的行为,涌现全新的能力。

涌现能力之所以重要,不仅因为它们是大模型出现后才有的新能力,而且由大模型涌现出来的多数是非常重要的能力。例如,常识推理能力一直是AI领域的重大难题,而大模型的出现使得常识推理取得了重大进展。此外,大模型还有机会进一步获得更多能力。例如,一旦“推理”能力涌现,“思维链提示”(Chain of Thought Prompting)策略就可以用来解决多步推理的难题。因此,涌现能力的出现,是大模型带来的一项根本性变化。

能力二:作为基座模型支持多元应用的能力
在2021年,斯坦福大学等多所高校的研究人员提出了基座模型(foundation model)的概念,这更清晰地描述了之前学界所称的预训练模型的作用。这是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。这样,多个应用可以只依赖于一个或少数几个大模型进行统一建设。

640
上图展示了基座模型的结构,基座模型集中化了多模态数据,并且可以适配多元化的下游任务。

大语言模型是这个新模式的典型例子,使用统一的大模型可以极大地提高研发效率,相比于分散的模型开发方式,这是一项本质上的进步。大型模型不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。因此,大模型可以成为AI应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。

能力三:支持对话作为统一入口的能力

让大语言模型真正火爆的契机,是基于对话聊天的ChatGPT。事实上,业界很早就发现了用户对于对话交互的特殊偏好,陆奇在微软期间2016年就推进“对话即平台(conversation as a platform)”的战略。此外,苹果Siri、亚马逊Echo等基于语音对话的产品也非常受欢迎,反映出互联网用户对于聊天和对话这种交互模式的偏好。虽然之前的聊天机器人存在各种问题,但大型语言模型的出现再次让聊天机器人这种交互模式可以重新想像。用户愈发期待像钢铁侠中“贾维斯”一样的人工智能,无所不能、无所不知。这引发我们对于智能体(Agent)类型应用前景的思考,Auto-GPT、微软Jarvis等项目已经出现并受到关注,相信未来会涌现出很多类似的以对话形态让助手完成各种具体工作的项目。
640 (1)
图为微软最新项目Jarvis的工作流程,Jarvis将通过任务规划、模型选择、任务执行、生成响应四个步骤,结合HuggingFace上的众多模型,完成多模态的复杂AI任务。

随着大型语言模型技术越来越受欢迎,我们可以期待它带来更多的惊喜,特别是考虑到上面讨论的这些大型模型带来的关键新能力,周明等人所预测的语言智能黄金十年(2020-2030)很可能会成为现实,这正是一个令人兴奋的时代。

阅读全文
测试在项目流程中的那些事儿

前言

测试作为整个项目中的一环,在项目流程中起着不可或缺的作用。部分团队是缺少项目管理角色的,这个时候,测试对项目流程的推进、项目质量的保证显得尤为重要。好的测试,能在整个项目流程中以QA角度做好项目管理和及时的风险预警,让项目如期上线且保障质量。业界一直强调测试前置,那么测试在项目中,如何根据项目情况做前置工作推进项目流程,让大家都开心工作呢?本文以自己所在的项目组为例讲述项目流程中的一些事,希望可以与大家一同探讨~

阅读全文
程序设计优化之管道数据流

摘要

计算机基础的同学估计对管道这个词都不陌生了,尤其是在Linux系统当中,管道操作符已经被广泛的使用,并给我们的变成带来了极大的便利。前端领域比较注明的脚手架“gulp”也是以其管道操作著称。
今天我们就来一步步抽丝剥茧,看看在前端领域的“管道数据流”要如何设计。

阅读全文
js几种网络请求方式梳理——摆脱回调地狱

摘要
本文介绍了基于 XMLHttpRequest、Promise、async/await 等三种异步网络请求的写法,其中async/await 写法允许我们以类似于同步的方式编写异步程序,摆脱繁琐的回调函数。

阅读全文
剖析react核心设计原理–异步执行调度

JS的执行通常在单线程的环境中,遇到比较耗时的代码时,我们首先想到的是将任务分割,让它能够被中断,同时在其他任务到来的时候让出执行权,当其他任务执行后,再从之前中断的部分开始异步执行剩下的计算。所以关键是实现一套异步可中断的方案。那么我们将如何实现一种具备任务分割、异步执行、而且还能让出执行权的解决方案呢。React给出了相应的解决方案。

阅读全文