|
李佳琦全新上线,贴身服务“老司机”……时间:2020-09-22 去年年底,李佳琦版本的导航语音包首次上线高德时,网友称:一秒醒脑,太魔性了。 时隔不到一年,升级版的李佳琦完整版语音包再次登录高德地图,有网友表示:终于完整了,不愧人间唢呐!精神十足,用得不亦乐乎! 在新的语音包中,李佳琦的声音将更仿真,不仅保留了原声中的更多特色,并且更有表现力,“就像李佳琦在车上”。 这背后,是阿里语音技术的一次重要突破。 9月18日,云栖大会,达摩院语音实验室负责人鄢志杰宣布,阿里语音AI技术完成了全面升级。阿里发布了业界前沿的E2E-ASR端到端语音识别技术及新一代端上KAN-TTS语音合成技术,端上语音识别和合成能力首次达到媲美云端的水平,这意味着,即便不联网,个人用户也能在手机等设备上体验逼近真人的语音技术。 不仅是李佳琦语音包,近期高德地图还上线了利用达摩院全新语音技术合成的林志玲、小团团等明星语音包。升级后的版本,效果远较之前自然 。 阿里语音AI技术正在点燃阿里经济体内外诸多业务场景,服务数以亿计的消费者。目前,它不仅应用于淘宝直播、钉钉会议、高德导航等场景中,而且已全面对外开放,其客户包括中移动、招商银行、字节跳动、浙江电力等。 更仿真的声音效果,更低的数据成本 先来看一个导航包使用场景—— 有一天导航结束超累超暴躁,这时结束语里李佳琦说:佳琦的女孩一定要一直开心哦。那一刻我真的超感动,顿时开心了起来。 对一个在城市孤独漂泊的人来说,语音导航包的作用不止是导航。 很多人不知道的是,在整个导航过程中,大部分语音都是实时在手机上合成的。传统的机器语音在传达讯息,新的机器语音可以开始传达感情——犹如真人一样在身边鼓励和安慰你。 这个转变并不是一件容易的事。情感是一件多么复杂的事情,且并没有明确的指标。 为什么现在的机器语音开始有了“感情”? 传统语音合成技术,可以理解为一种机械转化的过程,包含前端与后端两部分,前端做文本分析,将文本转化为确定的发音信息,后端通过复杂的建模,将发音信息转化为包含时长模型和音色模型的声音。而阿里新一代语音技术,通过一个“黑盒子”般的强大深度学习模型,直接将发音信息转为声音,这个过程在大大减少语音构建复杂度的基础上,提高了还原度。 达摩院语音实验室资深算法专家雷鸣解释:用一个模型搞定,有个好处——和人说话时一样,大脑不会细想每个字念多少秒,而是自然而然地脱口而出,经过深度学习模型训练之后出来的声音,整个的韵律感就会更强一些,用户听起来就会更真实、自然。 继让机器像真人一样地说话后,今年达摩院新升级后的语音技术,让语音黑科技使用门槛大大降低。针对移动端应用场景,新一代语音合成技术将云端模型大小压缩了101倍,计算量压缩35倍,大大降低了设备运行耗电及合成语音延迟。 也就是说,即使人们驾车驶入隧道等信号微弱区域,新技术合成的高仿真度语音导航包也能避免“掉线”,一路随行。 新一代达摩院语音技术带来的另一个结果是,将精品语音定制所需数据成本降低了四分之三。 使用原始语音合成技术制作第一版李佳琦语音包的时候,李佳琦当时整整录了7个小时,实际可取用的有效语音素材只有30分钟,按照传统语音技术很难产生比较好的合成效果,有的合成语段与李佳琦真声相去甚远。 而使用新的语音合成技术后,取用原先录制的李佳琦语料,就合成了如今效果更自然的完整语音包。 从让机器开口说话,到“有感情”地说话 让机器开口说话,一直是人工智能研究的重要领域。 1939年,在纽约世界博览会上,人类第一次实现了通过机械装置让机器“开口说话”,但效果和真实语音差距很大。 如何让机器说话更逼真? 2019年7月,达摩院发布的语音合成技术KAN-TTS,将合成语音的仿真度提高到97%以上。这个程度的机器语音,已经能在特定领域通过图灵测试(一个分辨对方是机器还是真人的实验)。 今年2月,阿里语音AI技术成功入选《麻省理工评论》2019年“全球十大突破性技术”。原因在于阿里语音AI技术可以完成复杂的人机对话,甚至可读懂人类的潜在意图。“在中国,消费者正在习惯阿里巴巴的AI语音助手。它可以通过电话协调菜鸟包裹递送,还可以与顾客讨价还价。” 在过去几个月,这项技术又迎来了新的升级。新的语音技术可以实现对目前主流场景风格声音的全覆盖,针对通用场景、客服场景、童声场景、英文场景和方言场景等,提供超过50种不同“感情”的声音,例如温柔、甜蜜、严厉等风格。 所以,老司机们听到李佳琦导航语音后,会“瞬间提神,跑高速不困”。 简单来说,新的语音合成技术不仅模拟人类的声音更像了,而且还让声音有了一定的“感情”。 这几年,语音合成技术本身就有了巨大的进步。一个明显的例子,当我们接到智能客服打来的电话,数年前能迅速分辨对方就是一个机器人,因为它的吐字是一字一顿地“念”,如今,我们再接到智能客服打来的电话,可能听一会儿才能意识到对方不是“真人”。 据悉,目前达摩院语音技术还能识别方言和重口音,可以实现拟人程度更高的交互效果。据达摩院专家透露,该技术还可帮助视障和语言障碍人士实现无障碍沟通。 新语音技术点燃阿里新的业务场景 阿里大多数的业务,都需与数亿C端消费者直接打交道,这也是语音AI技术最好的应用场景。因此从2014年底开始,语音AI技术最先主要用于响应阿里经济体内的巨大需求,比如淘宝、天猫、蚂蚁的客服中心。 2018年5月,阿里发布菜鸟智能语音助手,可以自动帮快递员与消费者进行派单沟通,大大减轻了快递员的工作。在这之前,快递员每天光打电话就要近3个小时。 2019年4月,高德地图联合达摩院语音实验室上线“你好小德”语音助手,数亿高德用户在驾车导航中可以解放双手,轻松地通过语音对话查询与变更路线。 2019年双11,阿里智能客服机器人“阿里小蜜”承担了全平台超过98%客服咨询量,全天触达客户近千万人次。语音技术的全量调动量,每天超过6亿次。此外,无数菜鸟热线机器人、天猫精灵等活跃在最前线,为数亿消费者带来接近真人的语音交互体验。 目前,达摩院语音技术服务已覆盖阿里巴巴经济体几十个BU、近百个业务方。除开更逼真的李佳琦高德明星语音包外,阿里新一代语音AI技术的发布正在点燃更多业务场景—— 在淘宝直播时,上链接等繁琐操作都将可以用语音完成,主播可以通过口播对后台实时发出“展示商品”“发红包”等指令;根据现有脚本,淘宝虚拟主播也能生成更具有情感特点的语音效果;钉钉已经实现了语音消息无延时自动转文字,会议录音也能在本地转文字,并生成文档储存…… 人人可用的平民技术 达摩院的语音AI技术,还在向阿里巴巴经济体以外的多个场景输出。 2019年,浙江杭州上线了全国首个虚拟人工智能配网调度员帕奇,可以24小时不间断工作,可同时拨打200个电话,准确无误地完成海量数据的监视工作,大大提升了调度效率,每年节约人力成本可超3000万元。 帕奇的语音技术就来自于达摩院。 时间回到5年前,如今达摩院语音实验室负责人鄢志杰和几位同事,刚刚从微软亚洲研究院加入阿里巴巴 iDST(达摩院前身)。 彼时,阿里的语音技术储备近乎于“一张白纸”,而那时微软的语音技术尚在巅峰时期。 为什么选择来阿里? 鄢志杰表示,彼时业界对语音AI的研究如火如荼,但落地很慢,而到了阿里第一天想的就是语音AI的落地,这是当时他们“深入骨髓渴望的东西”。 鄢志杰记得,当时阿里云的负责人还是王坚,王坚相信,语音技术对云计算大有用武之地,“未来大量视频、音频可能会在云端处理”。鄢志杰被说服,和同事毅然决然加入阿里。不过,加入后干的第一件事,是为阿里客服做语音助手。 没想到,从语音助手开始,阿里语音技术迅速发展。除了在阿里内部业务推广外,从2017开始,阿里以AI上云的方式,向所有客户开放智能语音能力。 目前,阿里语音AI最被人熟知的应用场景,包括智能客服、电信运营商、法庭庭审等。 如今,阿里语音AI已覆盖全国近千个客服中心系统、近亿用户。互联网庭审则覆盖15000余间线上法庭,覆盖率超过90%。 今年7月,IDC发布的最新《中国AI云服务市场半年度研究报告》显示,在云上AI市场中,阿里语音AI以44%的市场份额排名第一。 截至目前,阿里云上语音AI技术已服务5万多家客户,包括中移动、招商银行、字节跳动、浙江电力、小I机器人等。鄢志杰说,语音技术已从少数人掌握的高端工具,变成了人人可用的平民技术。 |