语音识别技术简史

时间：2019-08-23 03:19:06 栏目：科技

作者 | 陈孝良，冯大航，李智勇

出品 | AI科技大本营（ID: rgznai100）

【CSDN 编者按】语音识别自半个世纪前降生以来，一向处于不温不火的状况，直到 2009 年深度进修手艺的长足成长才使得语音识其余精度大大提高，固然还无法进行无限制范畴、无限制人群的应用，但也在大多数场景中供应了一种便当高效的沟通体式。本篇文章将从手艺和财富两个角度往返顾一下语音识别成长的进程和近况，并剖析一些将来趋势，进展能匡助更多年青年头手艺人员认识语音行业，并能发生乐趣投身于这个行业。

语音识别，平日称为主动语音识别，英文是Automatic Speech Recognition，缩写为 ASR，首要是将人类语音中的词汇内容转换为较量机可读的输入，一样都是能够懂得的文本内容，也有或者是二进制编码或许字符序列。然则，我们一样懂得的语音识别其实都是狭义的语音转文字的过程，简称语音转文本识别（ Speech To Text, STT ）更合适，如许就能与语音合成(Text To Speech, TTS )对应起来。

语音识别是一项融合多学科常识的前沿手艺，笼盖了数学与统计学、声学与说话学、较量机与人工智能等根蒂学科和前沿学科，是人机天然交互手艺中的要害环节。然则，语音识别自降生以来的半个多世纪，一向没有在实际应用过程获得遍及承认，一方面这与语音识其余手艺缺陷有关，其识别精度和速度都达不到实际应用的要求；另一方面，与业界对语音识其余盼望过高有关，实际上语音识别与键盘、鼠标或触摸屏等应是融合关系，而非替代关系。

深度进修手艺自 2009 年鼓起之后，已经取得了长足提高。语音识其余精度和速度取决于实际应用情况，但在恬静情况、尺度口音、常见词汇场景下的语音识别率已经跨越 95%，意味着具备了与人类相仿的说话识别能力，而这也是语音识别手艺当前成长对照火热的原因。

跟着手艺的成长，如今口音、方言、噪声等场景下的语音识别也达到了可用状况，稀奇是远场语音识别已经跟着智能音箱的鼓起成为全球消费电子范畴应用最为成功的手艺之一。因为语音交互供应了更天然、更便当、更高效的沟通形式，语音必定将成为将来最首要的人机互动接口之一。

当然，当前手艺还存在好多不足，如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提拔；此外，多人语音识别和离线语音识别也是当前需要重点解决的问题。固然语音识别还无法做到无限制范畴、无限制人群的应用，然则至少从应用实践中我们看到了一些进展。

本篇文章将从手艺和财富两个角度往返顾一下语音识别成长的进程和近况，并剖析一些将来趋势，进展能匡助更多年青年头手艺人员认识语音行业，并能发生乐趣投身于这个行业。

语音识其余手艺进程

现代语音识别能够追溯到 1952 年，Davis 等人研制了世界上第一个能识别 10 个英文数字发音的实验系统，此后正式开启了语音识其余历程。语音识别成长到今天已经有 70 多年，但从手艺偏向上能够大体分为三个阶段。

下图是从 1993 年到 2017 年在 Switchboard 上语音识别率的进展情形，从图中也能够看出 1993 年到 2009 年，语音识别一向处于 GMM-HMM 时代，语音识别率提拔迟缓，尤其是 2000 年到 2009 年语音识别率根基处于阻滞状况；2009 年跟着深度进修手艺，稀奇是 DNN 的鼓起，语音识别框架变为 DNN-HMM，语音识别进入了 DNN 时代，语音识别精准率获得了显著提拔；2015 年今后，因为“端到端”手艺鼓起，语音识别进入了百花齐放时代，语音界都在练习更深、更复杂的收集，同时行使端到端手艺进一步大幅提拔了语音识其余机能，直到 2017 年微软在 Swichboard 上达到词错误率 5.1%，从而让语音识其余正确性首次超越了人类，当然这是在必然限制前提下的实验究竟，还不具有遍及代表性。

GMM-HMM时代

70 年月，语音识别首要集中在小词汇量、孤立词识别方面，使用的方式也首要是简洁的模板成家方式，即首先提取语音旌旗的特征构建参数模板，然后将测试语音与参考模板参数进行一一对照和成家，取距离比来的样本所对应的词标注为该语音旌旗的发音。该方式对解决孤立词识别是有效的，但对于大词汇量、非特定人一连语音识别就力所不及。是以，进入 80 年月后，研究思路发生了重大转变，从传统的基于模板成家的手艺思路起头转向基于统计模型（HMM）的手艺思路。

HMM 的理论根蒂在 1970 年前后就已经由 Baum 等人竖立起来，随后由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其应用到语音识别傍边。HMM 模型假定一个音素含有 3 到 5 个状况，统一状况的发音相对不乱，分歧状况间是能够按照必然概率进行跳转；某一状况的特征分布能够用概率模型来描述，使用最普遍的模型是 GMM。是以 GMM-HMM 框架中，HMM 描述的是语音的短时平稳的动态性，GMM 用来描述 HMM 每一状况内部的发音特征。

基于 GMM-HMM 框架，研究者提出各类改善方式，如连系上下文信息的动态贝叶斯方式、区分性练习方式、自适应练习方式、HMM/NN 夹杂模型方式等。这些方式都对语音识别研究发生了深远影响，并为下一代语音识别手艺的发生做好了预备。自上世纪 90 年月语音识别声学模型的区分性练习准则和模型自适应方式被提出今后，在很长一段内语音识其余成长对照迟缓，语音识别错误率那条线一向没有显着下降。

DNN-HMM时代

2006年，Hinton 提出深度置信收集（DBN），促使了深度神经收集（DNN）研究的苏醒。2009 年，Hinton 将 DNN 应用于语音的声学建模，在 TIMIT 上获得了其时最好的究竟。2011 岁尾，微软研究院的俞栋、邓力又把 DNN 手艺应用在了大词汇量一连语音识别义务上，大大降低了语音识别错误率。此后语音识别进入 DNN-HMM 时代。

DNN-HMM首要是用 DNN 模型取代本来的 GMM 模型，对每一个状况进行建模，DNN 带来的优点是不再需要对语音数据分布进行假设，将相邻的语音帧拼接又包含了语音的时序构造信息，使得对于状况的分类概率有了显着提拔，同时DNN还具有壮大情况进修能力，能够提拔对噪声和口音的鲁棒性。

简洁来说，DNN 就是给出输入的一串特征所对应的状况概率。因为语音旌旗是一连的，不光各个音素、音节以及词之间没有显着的界限，各个发音单元单子还会受到上下文的影响。固然拼帧能够增加上下文信息，但对于语音来说照样不敷。而递归神经收集（RNN）的显现能够记住更多汗青信息，更有利于对语音旌旗的上下文信息进行建模。

因为简洁的 RNN 存在梯度爆炸和梯度消散问题，难以练习，无法直策应用于语音旌旗建模上，是以学者进一步索求，斥地出了好多适合语音建模的 RNN 构造，个中最有名的就是 LSTM 。LSTM 经由输入门、输出门和遗忘门能够更好的掌握信息的举止和传递，具有长短时记忆能力。固然 LSTM 的较量复杂度会比 DNN 增加，但其整体机能比 DNN 有相对 20% 摆布不乱提拔。

BLSTM 是在 LSTM 根蒂上做的进一步改善，不光考虑语音旌旗的汗青信息对当前帧的影响，还要考虑将来信息对当前帧的影响，是以其收集中沿时间轴存在正向和反向两个信息传递过程，如许该模型能够更充裕考虑上下文对于当前语音帧的影响，可以极大提高语音状况分类的正确率。BLSTM 考虑将来信息的价值是需要进行句子级更新，模型练习的收敛速度对照慢，同时也会带来解码的延迟，对于这些问题，业届都进行了工程优化与改善，即使如今仍然有好多大公司使用的都是该模型构造。

图像识别中主流的模型就是 CNN，而语音旌旗的时频图也能够看作是一幅图像，是以 CNN 也被引入到语音识别中。要想提高语音识别率，就需要战胜语音旌旗所面临的多样性，包罗说话人自身、说话人所处的情况、采集设备等，这些多样性都能够等价为各类滤波器与语音旌旗的卷积。而 CNN 相当于设计了一系列具有局部存眷特征的滤波器，并经由练习进修获得滤波器的参数，从而从多样性的语音旌旗中抽掏出不变的部门，CNN 素质上也能够看作是从语音旌旗中络续抽取特征的一个过程。CNN 比拟于传统的 DNN 模型，在沟通机能情形下，前者的参数量更少。

综上所述，对于建模能力来说，DNN 适合特征映射到自力空间，LSTM 具有长短时记忆能力，CNN 擅长削减语音旌旗的多样性，是以一个好的语音识别系统是这些收集的组合。

端到端时代

语音识其余端到端方式首要是价值函数发生了转变，但神经收集的模型构造并没有太大转变。总体来说，端到端手艺解决了输入序列的长度弘远于输出序列长度的问题。端到端手艺首要分成两类：一类是 CTC 方式，另一类是 Sequence-to-Sequence 方式。传统语音识别 DNN-HMM 架构里的声学模型，每一帧输入都对应一个标签类别，标签需要频频的迭代来确保对齐更正确。

采用 CTC 作为损失函数的声学模型序列，不需要预先对数据对齐，只需要一个输入序列和一个输出序列就能够进行练习。CTC 关心的是展望输出的序列是否和真实的序列邻近，而不关心展望输出序列中每个究竟在时间点上是否和输入的序列正好对齐。CTC 建模单元是音素或许字，是以它引入了 Blank。对于一段语音，CTC 最后输出的是尖峰的序列，尖峰的位置对应建模单元的 Label，其他位置都是 Blank。

Sequence-to-Sequence 方式本来首要应用于机械翻译范畴。2017 年，Google 将其应用于语音识别范畴，取得了非常好的结果，将词错误率降低至5.6%。如下图所示，Google 提出新系统的框架由三个部门构成：Encoder 编码器组件，它和尺度的声学模型相似，输入的是语音旌旗的时频特征；经由一系列神经收集，映射成高级特征 henc，然后传递给 Attention 组件，其使用 henc 特征进修输入 x 和展望子单元之间的对齐体式，子单元能够是一个音素或一个字。最后，attention 模块的输出传递给 Decoder，生成一系列假设词的概率分布，雷同于传统的说话模型。

端到端手艺的冲破，不再需要 HMM 来描述音素内部状况的转变，而是将语音识其余所有模块统一成神经收集模型，使语音识别朝着更简洁、更高效、更正确的偏向成长。

语音识其余手艺近况

今朝，主流语音识别框架照样由 3 个部门构成：声学模型、说话模型息争码器，有些框架也包罗前端处理和后处理。跟着各类深度神经收集以及端到端手艺的鼓起，声学模型是近几年非常热点的偏向，业界都纷纷发布本身新的声学模型构造，刷新各个数据库的识别记录。因为中文语音识其余复杂性，国内涵声学模型的研究进展相对更快一些，主流偏向是更深更复杂的神经收集手艺融合端到端手艺。

2018年，科大讯飞提出深度全序列卷积神经收集（DFCNN），DFCNN 使用大量的卷积直接对整句语音旌旗进行建模，首要借鉴了图像识其余收集设置，每个卷积层使用小卷积核，并在多个卷积层之后再加上池化层，经由累积非常多卷积池化层对，从而能够看到更多的汗青信息。

2018年，阿里提出 LFR-DFSMN（Lower Frame Rate-Deep Feedforward Sequential Memory Networks）。该模型将低帧率算法和 DFSMN 算法进行融合，语音识别错误率比拟上一代手艺降低 20%，解码速度提拔 3 倍。FSMN 经由在 FNN 的隐层添加一些可进修的记忆模块，从而能够有效的对语音的长时相关性进行建模。而 DFSMN 是经由跳转避免深层收集的梯度消散问题，能够练习出更深层的收集构造。

2019 年，百度提出了流式多级的截断注重力模型 SMLTA，该模型是在 LSTM 和 CTC 的根蒂上引入了注重力机制来获取更大局限和更有条理的上下文信息。个中流式透露能够直接对语音进行一个小片段一个小片段的增量解码；多级透露堆叠多层注重力模型；截断则透露行使 CTC 模型的尖峰信息，把语音切割成一个一个小片段，注重力模型息争码能够在这些小片段上睁开。在线语音识别率上，该模型比百度上一代 Deep Peak2 模型提拔相对 15% 的机能。

开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一向推崇的是 Chain 模型。该模型是一种雷同于 CTC 的手艺，建模单元比拟于传统的状况要更粗颗粒一些，只有两个状况，一个状况是 CD Phone，另一个是 CD Phone 的空白，练习方式采用的是 Lattice-Free MMI 练习。该模型构造能够采用低帧率的体式进行解码，解码帧率为传统神经收集声学模型的三分之一，而正确率比拟于传统模型有非常显著的提拔。

远场语音识别手艺首要解决真实场景下舒适距离内子机义务对话和办事的问题，是 2015 年今后起头鼓起的手艺。因为远场语音识别解决了复杂情况下的识别问题，在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了普遍应用。今朝国内远场语音识其余手艺框架以前端旌旗处理和后端语音识别为主，前端行使麦克风阵列做去混响、波束形成等旌旗处理，以让语音更清楚，然后送入后端的语音识别引擎进行识别。

语音识别此外两个手艺部门：说话模型息争码器，今朝来看并没有太大的手艺转变。说话模型主流照样基于传统的 N-Gram 方式，固然今朝也有神经收集的说话模型的研究，但在实用中首要照样更多用于后处理纠错。解码器的焦点指标是速度，业界大部门都是按照静态解码的体式进行，即将声学模型和说话模型组织成 WFST 收集，该收集包含了所有或者路径，解码就是在该空间进行搜刮的过程。因为该理论相对成熟，更多的是工程优化的问题，所以岂论是学术照样财富今朝存眷的较少。

语音识其余手艺趋势

语音识别首要趋于远场化和融合化的偏向成长，但在远场靠得住性还有好多难点没有冲破，好比多轮交互、多人噪杂等场景还有待冲破，还有需求较为急迫的人声星散等手艺。新的手艺应该彻底解决这些问题，让机械听觉远超人类的感知能力。这不克仅仅只是算法的提高，需要整个财富链的配合手艺升级，包罗更为进步的传感器和算力更强的芯片。

单从远场语音识别手艺来看，仍然存在好多挑战，包罗：

（1）反响消弭手艺。因为喇叭非线性失真的存在，纯真依靠旌旗处理手段很难将反响消弭清洁，这也阻碍了语音交互系统的推广，现有的基于深度进修的反响消弭手艺都没有考虑相位信息，直接求取的是各个频带上的增益，可否行使深度进修将非线性失真进行拟合，同时连系旌旗处理手段或者是一个好的偏向。

（2）噪声下的语音识别仍有待冲破。旌旗处理擅优点理线性问题，深度进修擅优点理非线性问题，而实际问题必然是线性和非线性的叠加，是以必然是两者融合才有或者更好地解决噪声下的语音识别问题。

（3）上述两个问题的共性是今朝的深度进修仅用到了语音旌旗各个频带的能量信息，而忽略了语音旌旗的相位信息，尤其是对于多通道而言，若何让深度进修更好的行使相位信息或者是将来的一个偏向。

（4）此外，在较少数据量的情形下，若何经由迁徙进修获得一个好的声学模型也是研究的热点偏向。例如方言识别，如有一个对照好的通俗话声学模型，若何行使少量的方言数据获得一个好的方言声学模型，若是做到这点将极大扩展语音识其余应用领域。这方面已经取得了一些进展，但更多的是一些练习技能，距离最终方针还有必然差距。

（5）语音识其余目的是让机械能够懂得人类，是以转换成文字并不是最终的目的。若何将语音识别和语义懂得连系起来或者是将来更为主要的一个偏向。语音识别里的 LSTM 已经考虑了语音的汗青时刻信息，但语义懂得需要更多的汗青信息才能有匡助，是以若何将更多上下文会话信息传递给语音识别引擎是一个难题。

（6）让机械听懂人类说话，仅靠声音信息还不敷，“声光电热力磁”这些物理传感手段，下一步必然都要融合在一路，只有如许机械才能感知世界的真实信息，这是机械可以进修人类常识的前提前提。并且，机械必然要超越人类的五官，可以看到人类看不到的世界，听到人类听不到的世界。

语音识其余财富进程

语音识别这半个多世纪的财富进程中，个中共有三个要害节点，两个和手艺有关，一个和应用有关。第一个要害节点是 1988 年的一篇博士论文，斥地了第一个基于隐马尔科夫模型（HMM）的语音识别系统—— Sphinx，其时实现这一系统的恰是如今的有名投资人李开复。

从 1986 年到 2010 年，固然夹杂高斯模型结果获得持续改善，而被应用到语音识别中，而且的确提拔了语音识其余结果，但实际上语音识别已经遭遇了手艺天花板，识其余正确率很难跨越 90%。好多人或者还记得，在 1998 年前后 IBM、微软都曾经推出和语音识别相关的软件，但最终并未取得成功。

第二个要害节点是 2009 年深度进修被系统应用到语音识别范畴中。这导致识其余精度再次大幅提拔，最终冲破 90%，而且在尺度情况下切近 98%。有意思的是，尽管手艺取得了冲破，也涌现出了一些与此相关的产物，好比 Siri、Google Assistant 等，但与其引起的存眷度比拟，这些产物实际取得的成就则要减色得多。Siri 刚一面世的时候，时任 Google CEO 的施密特就高呼，这会对 Google 的搜刮买卖发生基本性威胁，但事实上直到 Amazon Echo 的面世，这种基本性威胁才真的有了具体的载体。

第三个要害点恰是 Amazon Echo 的显现，纯粹从语音识别和天然说话懂得的手艺甚至功能的视角看这款产物，相对于 Siri 等并未有什么素质性改变，焦点转变只是把近场语音交互酿成了远场语音交互。Echo 正式面世于2015年6月，到 2017 年销量已经跨越万万，同时在 Echo 上饰演雷同 Siri 脚色的 Alexa 渐成生态，厥后台的第三方花样已经冲破 10000 项。借助落地时从近场到远场的冲破，亚马逊一举从这个赛道的掉队者变为行业向导者。

但自从远场语音手艺规模落地今后，语音识别范畴的财富竞争已经起头从研发转为应用。研发比的是尺度情况下纯粹的算法谁更有优势，而应用对照的是在真实场景下谁的手艺更能发生优异的用户体验，而一旦比拼真实场景下的体验，语音识别便失去自力存在的价格，更多作为产物体验的一个环节而存在。

所以到 2019 年，语音识别似乎进入了一个相对平静期，全球财富界的首要介入者们，包罗亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司，在一路疾走事后纷纷起头反思本身的定位和下一步的打法。

语音赛道里的标记产物——智能音箱，以一种大跃进的姿态显现在公共眼前。2016 年以前，智能音箱玩家们对这款产物的熟悉还都停留在：亚马逊出了一款叫 Echo 的产物，功能和 Siri 雷同。先行者科大讯飞叮咚音箱的出师晦气，更是加重了另外人的观望心态。真正让浩瀚玩家从观望转为积极介入的转折点是慢慢曝光的 Echo 销量，2016 岁尾，Echo 近万万的美国销量让整个世界震惊。这是智能设备从未达到过的高点，在 Echo 以前除了 Apple Watch 与手环，像恒温器、摄像头如许的产物冲破百万销量已是惊人示意。这种销量以及智能音箱的 AI 属性促使 2016 年下半年，国内各大巨头几乎是同时改变立场，积极打造本身的智能音箱。

将来，回看整个成长进程，2019 年是一个明确的分界点。在此之前，全行业是突飞大进，但 2019 年之后则起头进入对细节范畴渗透和打磨的阶段，人们存眷的核心也不再是纯真的手艺指标，而是回来到体验，回来到一种“新的交互体式究竟能给我们带来什么价格”如许更为一样的、纯粹的贸易视角。手艺到产物再到是否需要与具体的形象进行交互连系，好比人物形象；流程主动化是否要与语音连系；酒店场景应该若何使用这种手艺来提拔体验，诸如斯类最终都邑一一呈如今从业者眼前。而此时行业的主角也会从本来的产物方过渡到..供应方，AIoT 纵深过大，没有任何一个公司能够全线打造所有的产物。

语音识其余财富趋势

当语音财富需求四处开花的同时，行业的成长速度反过来会受限于..办事商的供给能力。跳出具体案例来看，行业下一步成长的素质逻辑是：在具体每个点的投入产出是否达到一个遍及接管的界线。

离这个界线越近，行业就越会接近滚雪球式成长的临界点，不然整体增速就会相对平缓。不管是家居、酒店、金融、教育或许其他场景，若是解决问题都是非常高投入而且长周期的事情，那对此承担成本的一方就会犹疑，这相当于试错成本过高。若是投入后，没有可感知的新体验或许销量促进，那对此承担成本的一方也会犹疑，显然这会影响值不值得上的判断。而这两个事情，归根结底都必需由..方解决，产物方或许解决方案方对此力所不及，这是由智能语音交互的根蒂手艺特征所决意。

从焦点手艺来看，整个语音交互链条有五项单点手艺：叫醒、麦克风阵列、语音识别、天然说话处理、语音合成，另外手艺点好比声纹识别、哭声检测等数十项手艺通用性略弱，但离别显现在分歧的场景下，并会在特定场景下成为要害。看起来关系的手艺已经相对零乱，但切换到贸易视角我们就会发现，找到这些手艺距离打造一款体验上佳的产物仍然有绝大距离。

所有语音交互产物都是端到端打通的产物，若是每家厂商都从这些根蒂手艺来打造产物，那就每家都要竖立本身云办事不乱，确保响应速度，适配本身所选择的硬件..，逐项整合具体的内容（好比音乐、有声读物）。这从产物方或许解决方案商的视角来看是弗成接管的。这时候就会催生响应的..办事商，它要同时解决手艺、内容接入和工程细节等问题，最终杀青试错成本低、体验却充沛好的方针。

..办事并不需要凭空捏造，..办事的前提是要有能屏障产物差别的把持系统，这是 AI+IOT 的特征，也是有所参照的，亚马逊曩昔近 10 年里是同步着手做两件事：一个是持续推出头向终端用户的产物，好比 Echo，Echo Show等；一个是把所有产物所内置的系统 Alexa 进行..化，面向设备端和花样端同步开放SDK和调试发布..。固然 Google Assistant 号称单点手艺更为领先，但从各方面的究竟来看 Alexa 是当之无愧的最为领先的系统..，可惜的是 Alexa 并不支撑中文以及响应的后台办事。

国内则缺乏亚马逊这种统治力的系统..供应商，当前的..供应商分为两个阵营：一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或许上市公司；一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司比拟传统公司产物和办事上的汗青负担更轻，是以在..办事上反却是能够主推一些更为面向将来、有特色的根蒂办事，好比兼容性方面新兴公司做的会加倍彻底，这种兼容性对于一套产物同时笼盖国内国外市场是相当有利的。

类比曩昔的 Android，语音交互的..供应商们其实面临更大的挑战，成长过程或者会加倍的弯曲。曩昔经常被提到的把持系统的概念在智能语音交互配景下事实上正被付与新的内涵，它日益被分成两个分歧但必需慎密连系的部门。

曩昔的 Linux 以及各类变种承担的是功能型把持系统的脚色，而以 Alexa 为代表的新型系统则承担的则是智能型系统的脚色。前者完成完整的硬件和资源的抽象和治理，后者则让这些硬件以及资源获得具体的应用，两者相连系才能输出最终用户可感知的体验。功能型把持系统和智能型把持系统注定是一种一对多的关系，分歧的 AIoT 硬件产物在传感器（深度摄像头、雷达等）、显露器上（有屏、无屏、小屏、大屏等）具有伟大差别，这会导致功能型系统的持续分化（能够和 Linux 的分化相对应）。这反过来也就意味着一套智能型系统，必需同时解决与功能型系统的适配以及对分歧后端内容以及场景进行撑持的双重责任。

这双方在把持上，属性具有伟大差别。解决前者需要介入到传统的产物生产制造链条中去，而解决后者则更像应用市肆的斥地者。这里面蕴含着伟大的挑战和时机。在曩昔功能型把持系统的打造过程中，国内的法式员们更多的是使用者的脚色，但智能型把持系统固然也能够参照其他，但此次必需本身来从头打造完整的系统。（国外巨头不管在中文相关的手艺上照样内容整合上事实上都非常微弱，不存在侵略国内市场的或者性）

跟着..办事商双方的问题解决的越来越好，根蒂的较量模式则会逐渐发生改变，人们的数据消费模式会与今天分歧。小我的较量设备（当前首要是手机、笔记本、Pad）会凭据分歧场景进一步分化。好比在车上、家里、酒店、工作场景、路上、买卖打点等会凭据所在和买卖进行分化。但分化的同时背后的办事则是统一的，每小我能够自由的凭据场景做设备的迁徙，背后的办事固然会针对分歧的场景进行优化，但在小我偏好如许的点上则是统一的。

人与数字世界的接口，在如今越来越统一于具体的产物形态（好比手机），但跟着智能型系统的显现，这种统一则会越来越统一于系统自己。作为究竟这会带来数据化水平的持续加深，我们越来越接近一个百分百数据化的世界。

总结

从手艺进展和财富成长来看，语音识别固然还不克解决无限制场景、无限制人群的通用识别问题，然则已经可以在各个真实场景中遍及应用而且获得规模验证。更进一步的是，手艺和财富之间形成了对照好的正向迭代效应，落地场景越多，获得的真实数据越多，挖掘的用户需求也更正确，这匡助了语音识别手艺快速提高，也根基知足了财富需求，解决了好多实际问题，这也是语音识别相对其他 AI 手艺最为显着的优势。

不外，我们也要看到，语音识其余内涵必需络续扩展，狭义语音识别必需走向广义语音识别，致力于让机械听懂人类说话，这才能将语音识别研究带到更高维度。我们相信，多手艺、多学科、多传感的融合化将是将来人工智能成长的主流趋势。在这种趋势下，我们还有好多将来的问题需要商量，好比键盘、鼠标、触摸屏和语音交互的关系怎么转变？搜刮、电商、社交是否再次重构？硬件是否逆袭变得比软件加倍主要？财富链中的传感、芯片、把持系统、产物和内容厂商之间的关系又该若何转变？

本文获得浩瀚语音识别范畴专家的指导，并引用了一些参考资料的配图，在此透露感激，本文中的不足之处还请指摘斧正。

参考资料：

[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5] 俞栋,邓力. 解析深度进修：语音识别实践. 电子工业出书社. 2016年.

[6] 韩纪庆,张磊,郑铁然. 语音旌旗处理. 清华大学出书社. 2005年.

[7] 王东. 语音识别手艺的近况与将来. 2017年.

[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10] https://yq.aliyun.com/articles/704173

[11] http://azero.soundai.com

[12] http://research.baidu.com/Blog/index-view?id=109

作者简介：

陈孝良，声智科技创始人、董事长兼CEO；冯大航，声智科技结合创始人、CTO；李智勇，声智科技计谋合伙人、CSO。

【END】

#你的优惠仅剩4天# 2019 AI斥地者大会（AI ProCon）全日程信息：9月5日，伯克利大学名师精髓课程移师北京，《着手学深度进修》作者、亚马逊首席科学家李沐线下亲授「深度进修实训营」，免费GPU资源，现场还有限量书籍赠予！

9月6-7日，高文院士、李沐、驭势科技结合创始人吴甘沙、微软（中国）首席手艺官韦青、华为诺亚方舟实验室语音语义首席科学家刘群、Google Bain TensorFlow.js项目负责人俞玶结合 7 位出品人集结60+手艺大咖，探秘9大手艺论坛，深剖行业痛点，助力企业和斥地者实现手艺跃迁。

五折票倒计时仅剩4天，团购票立减600/人，扫码顿时抢购！

热文 推荐

☞重磅！全球首个可视化联邦进修产物与联邦pipeline生产办事上线

☞任正非：进展持续使用安卓；阿里发布自研语音 AI 芯片手艺；Node.js 12.6.0 发布 | 极客头条

☞ 若何用 160 行代码，实现动态炫酷的可视化图表？

☞10 步教你接办同事的代码！

☞亚马逊首席科学家李沐国内首次亲授「深度进修实训营」

☞CSDN & 火星财经, 联手提议Libra超等节点竞选！

☞"学了阿里中台，却依然做欠好系统？" 聊聊阿里的项目治理

☞若何写出让同事无法维护的代码？


你点的每个“在看”，我都卖力当成了喜欢

语音识别技术简史

相关文章