首页 >> 新闻动态 >>行业动态 >> 李佳琦全新上线，贴身服务“老司机”……

新闻动态

详细内容

李佳琦全新上线，贴身服务“老司机”……

时间：2020-09-22 【转载】来自：天下网商

去年年底，李佳琦版本的导航语音包首次上线高德时，网友称：一秒醒脑，太魔性了。

时隔不到一年，升级版的李佳琦完整版语音包再次登录高德地图，有网友表示：终于完整了，不愧人间唢呐！精神十足，用得不亦乐乎！

在新的语音包中，李佳琦的声音将更仿真，不仅保留了原声中的更多特色，并且更有表现力，“就像李佳琦在车上”。

微信图片_20200922100010.png

这背后，是阿里语音技术的一次重要突破。

9月18日，云栖大会，达摩院语音实验室负责人鄢志杰宣布，阿里语音AI技术完成了全面升级。阿里发布了业界前沿的E2E-ASR端到端语音识别技术及新一代端上KAN-TTS语音合成技术，端上语音识别和合成能力首次达到媲美云端的水平，这意味着，即便不联网，个人用户也能在手机等设备上体验逼近真人的语音技术。

不仅是李佳琦语音包，近期高德地图还上线了利用达摩院全新语音技术合成的林志玲、小团团等明星语音包。升级后的版本，效果远较之前自然。

阿里语音AI技术正在点燃阿里经济体内外诸多业务场景，服务数以亿计的消费者。目前，它不仅应用于淘宝直播、钉钉会议、高德导航等场景中，而且已全面对外开放，其客户包括中移动、招商银行、字节跳动、浙江电力等。

更仿真的声音效果，更低的数据成本

先来看一个导航包使用场景——

有一天导航结束超累超暴躁，这时结束语里李佳琦说：佳琦的女孩一定要一直开心哦。那一刻我真的超感动，顿时开心了起来。

对一个在城市孤独漂泊的人来说，语音导航包的作用不止是导航。

很多人不知道的是，在整个导航过程中，大部分语音都是实时在手机上合成的。传统的机器语音在传达讯息，新的机器语音可以开始传达感情——犹如真人一样在身边鼓励和安慰你。

这个转变并不是一件容易的事。情感是一件多么复杂的事情，且并没有明确的指标。

微信图片_20200922100019.png

为什么现在的机器语音开始有了“感情”？

传统语音合成技术，可以理解为一种机械转化的过程，包含前端与后端两部分，前端做文本分析，将文本转化为确定的发音信息，后端通过复杂的建模，将发音信息转化为包含时长模型和音色模型的声音。而阿里新一代语音技术，通过一个“黑盒子”般的强大深度学习模型，直接将发音信息转为声音，这个过程在大大减少语音构建复杂度的基础上，提高了还原度。

达摩院语音实验室资深算法专家雷鸣解释：用一个模型搞定，有个好处——和人说话时一样，大脑不会细想每个字念多少秒，而是自然而然地脱口而出，经过深度学习模型训练之后出来的声音，整个的韵律感就会更强一些，用户听起来就会更真实、自然。

继让机器像真人一样地说话后，今年达摩院新升级后的语音技术，让语音黑科技使用门槛大大降低。针对移动端应用场景，新一代语音合成技术将云端模型大小压缩了101倍，计算量压缩35倍，大大降低了设备运行耗电及合成语音延迟。

也就是说，即使人们驾车驶入隧道等信号微弱区域，新技术合成的高仿真度语音导航包也能避免“掉线”，一路随行。

新一代达摩院语音技术带来的另一个结果是，将精品语音定制所需数据成本降低了四分之三。

使用原始语音合成技术制作第一版李佳琦语音包的时候，李佳琦当时整整录了7个小时，实际可取用的有效语音素材只有30分钟，按照传统语音技术很难产生比较好的合成效果，有的合成语段与李佳琦真声相去甚远。

而使用新的语音合成技术后，取用原先录制的李佳琦语料，就合成了如今效果更自然的完整语音包。

从让机器开口说话，到“有感情”地说话

让机器开口说话，一直是人工智能研究的重要领域。

1939年，在纽约世界博览会上，人类第一次实现了通过机械装置让机器“开口说话”，但效果和真实语音差距很大。

如何让机器说话更逼真？

2019年7月，达摩院发布的语音合成技术KAN-TTS，将合成语音的仿真度提高到97%以上。这个程度的机器语音，已经能在特定领域通过图灵测试（一个分辨对方是机器还是真人的实验）。

今年2月，阿里语音AI技术成功入选《麻省理工评论》2019年“全球十大突破性技术”。原因在于阿里语音AI技术可以完成复杂的人机对话，甚至可读懂人类的潜在意图。“在中国，消费者正在习惯阿里巴巴的AI语音助手。它可以通过电话协调菜鸟包裹递送，还可以与顾客讨价还价。”

微信图片_20200922100025.png

在过去几个月，这项技术又迎来了新的升级。新的语音技术可以实现对目前主流场景风格声音的全覆盖，针对通用场景、客服场景、童声场景、英文场景和方言场景等，提供超过50种不同“感情”的声音，例如温柔、甜蜜、严厉等风格。

所以，老司机们听到李佳琦导航语音后，会“瞬间提神，跑高速不困”。

简单来说，新的语音合成技术不仅模拟人类的声音更像了，而且还让声音有了一定的“感情”。

这几年，语音合成技术本身就有了巨大的进步。一个明显的例子，当我们接到智能客服打来的电话，数年前能迅速分辨对方就是一个机器人，因为它的吐字是一字一顿地“念”，如今，我们再接到智能客服打来的电话，可能听一会儿才能意识到对方不是“真人”。

据悉，目前达摩院语音技术还能识别方言和重口音，可以实现拟人程度更高的交互效果。据达摩院专家透露，该技术还可帮助视障和语言障碍人士实现无障碍沟通。

新语音技术点燃阿里新的业务场景

阿里大多数的业务，都需与数亿C端消费者直接打交道，这也是语音AI技术最好的应用场景。因此从2014年底开始，语音AI技术最先主要用于响应阿里经济体内的巨大需求，比如淘宝、天猫、蚂蚁的客服中心。

2018年5月，阿里发布菜鸟智能语音助手，可以自动帮快递员与消费者进行派单沟通，大大减轻了快递员的工作。在这之前，快递员每天光打电话就要近3个小时。

2019年4月，高德地图联合达摩院语音实验室上线“你好小德”语音助手，数亿高德用户在驾车导航中可以解放双手，轻松地通过语音对话查询与变更路线。

2019年双11，阿里智能客服机器人“阿里小蜜”承担了全平台超过98%客服咨询量，全天触达客户近千万人次。语音技术的全量调动量，每天超过6亿次。此外，无数菜鸟热线机器人、天猫精灵等活跃在最前线，为数亿消费者带来接近真人的语音交互体验。

微信图片_20200922100036.jpg

目前，达摩院语音技术服务已覆盖阿里巴巴经济体几十个BU、近百个业务方。除开更逼真的李佳琦高德明星语音包外，阿里新一代语音AI技术的发布正在点燃更多业务场景——

在淘宝直播时，上链接等繁琐操作都将可以用语音完成，主播可以通过口播对后台实时发出“展示商品”“发红包”等指令；根据现有脚本，淘宝虚拟主播也能生成更具有情感特点的语音效果；钉钉已经实现了语音消息无延时自动转文字，会议录音也能在本地转文字，并生成文档储存……

人人可用的平民技术

达摩院的语音AI技术，还在向阿里巴巴经济体以外的多个场景输出。

2019年，浙江杭州上线了全国首个虚拟人工智能配网调度员帕奇，可以24小时不间断工作，可同时拨打200个电话，准确无误地完成海量数据的监视工作，大大提升了调度效率，每年节约人力成本可超3000万元。

帕奇的语音技术就来自于达摩院。

时间回到5年前，如今达摩院语音实验室负责人鄢志杰和几位同事，刚刚从微软亚洲研究院加入阿里巴巴 iDST（达摩院前身）。

彼时，阿里的语音技术储备近乎于“一张白纸”，而那时微软的语音技术尚在巅峰时期。

为什么选择来阿里？

鄢志杰表示，彼时业界对语音AI的研究如火如荼，但落地很慢，而到了阿里第一天想的就是语音AI的落地，这是当时他们“深入骨髓渴望的东西”。

鄢志杰记得，当时阿里云的负责人还是王坚，王坚相信，语音技术对云计算大有用武之地，“未来大量视频、音频可能会在云端处理”。鄢志杰被说服，和同事毅然决然加入阿里。不过，加入后干的第一件事，是为阿里客服做语音助手。

没想到，从语音助手开始，阿里语音技术迅速发展。除了在阿里内部业务推广外，从2017开始，阿里以AI上云的方式，向所有客户开放智能语音能力。

目前，阿里语音AI最被人熟知的应用场景，包括智能客服、电信运营商、法庭庭审等。

如今，阿里语音AI已覆盖全国近千个客服中心系统、近亿用户。互联网庭审则覆盖15000余间线上法庭，覆盖率超过90%。

今年7月，IDC发布的最新《中国AI云服务市场半年度研究报告》显示，在云上AI市场中，阿里语音AI以44%的市场份额排名第一。

截至目前，阿里云上语音AI技术已服务5万多家客户，包括中移动、招商银行、字节跳动、浙江电力、小I机器人等。鄢志杰说，语音技术已从少数人掌握的高端工具，变成了人人可用的平民技术。

上一篇烧了1000亿美元的自动驾驶技术，终于能用了下一篇TikTok还是张一鸣的！两个美国巨头出手千亿，抢到20%股

客服热线

13167086066

李佳琦全新上线，贴身服务“老司机”……

业务范围

关于我们

新闻动态

关注我们