多媒体

  初识多媒体
  怎样与多媒体打交道
  缤纷世界的背后
  来来往往多媒体
  多媒体时代的通行证
  如何把精彩留给自己
  新的世纪从多媒体开始

移动通信

计算机网络

智能网

光通信

微波通信

卫星通信

交换网

接入网

电信管理网

 

    
  电信博物馆 > 多媒体 > 怎样与多媒体打交道 > 低眉信手续续弹

 


语音输入与识别技术

  发展了几十年之久的语音技术在计算机硬件和巨大应用的驱动下,已经从模式识别和人工智能的一个分支提升为一门综合人类智能各项研究的独立学科。

  语音技术包括语音识别、说话人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,其中最具有挑战性和最富有应用前景的是语音识别技术。

  近几年来,由于语音输入和声控技术比手写输入方法来得更为方便、直接,渐渐开始流行起来,一些汉字基础不大好的人,还把它作为首选的文字输入手段。从我们的介绍中可以知道,自然界的声音和人讲话的语音,都是模拟信号,不能直接输入计算机,因此在语音输入的过程中,我们必须通过语音卡(也叫作声霸卡)等设备,采用一定的编码方法,把模拟的语音信号转换为数字语音信号输入计算机。计算机对输入的数字语音信号有两种处理方法,第一种跟笔绘板输入手写字一样,只对其作简单的存储和传输,提供在计算机网络或通信网络上进行人与人之间直接或间接的语音通信;第二种是跟手写字识别一样,利用一定的人工智能技术(通常是计算机软件,如著名的由IBM公司开发的ViaVoice软件),对输入的数字语音信号进行智能识别,并把它“翻译”成计算机能够理解的数字编码信息,从而通过语音实现对计算机的简单操作和控制。在某些情况下出于可靠性的考虑,也可以先把“翻译”的结果通过显示屏或其他方式反馈给输入者,得到输入者确认后再进行操作。语音输入与识别技术有着广阔的应用前景,例如要实现在计算机网络或通信网络上不同语言的人之间的直接交谈、开会和其他合作工作,就需要这种技术。语音输入与识别技术最大的弱点是,由于不同人的口音差别较大,语音的准确识别比较困难,这也成为其发展与改进的方向。

  目前语音技术的应用分为以下几大类:

  (1)办公室环境下桌面计算机中的一系列应用;

  (2)完成人与计算机的对话功能;

  (3)帮助人类不同语种之间的交流。

  语音技术的渗透性很强,它将无处不在,在未来改变我们的生活方式。

  “语音拨号”是世界上每个电话用户最希望配备的首选功能。使用“语音拨号”,人们只需一次性地输入(读入)人名和电话号码,在以后便可以直接对着电话“说出”要通话人的姓名,经语音识别后,查出该姓名所对应的号码,然后自动地进行“拨号”。这就是未来的语音电话。

  语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查询系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称,系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其他相关信息。如果游客还需要进一步了解更为详尽的资料,则可以同系统进行交互式的对话,系统将对用户的问题逐一给予答复。

  语音识别还可以用在工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等 )或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。 语音识别技术在帮助伤残人的各种设备中将发挥其难以替代的作用。对于肢体伤残者或盲人,若全部用声音控制,则给伤残者或盲人提供了极大的生活便利。一些办公设备加上语音功能后,即使是伤残者也可以足不出户地在家里工作。

  在将来,人们外出后,可通过电话向自己的电脑管家发出指令,而电脑管家则会按照主人的意志安排家中的一切事务。 

  语音技术的应用还将推动其它产业的发展。国外的一些著名汽车公司已将语音技术用在汽车产品中,“数字式的、能听说的、并具有一双慧眼的、优良的后座驾驶式汽车”,只要车主告诉它行车路线和地点,便可直达目的地。目前,这种新式汽车已进入阶段性的研究。

  在计算机辅助教育方面,语音识别技术也有着广阔的应用空间。通过语音识别技术,帮助学生进行语言学习,当学生跟着计算机发音学习外语时,计算机会自动判断学习者的发音是否准确,并及时给予纠正。此时的计算机就成为专业的家庭辅导教师。 在一些对幼儿进行启蒙教育的玩具中,语音玩具给小朋友们带来来了无限的新奇感受,可以自动说话的娃娃、听从指挥的小汽车等在儿童幼小的心灵里播下了科学的种子。 

  可以预见,在新的世纪里,语音识别将迅速走进大众的生活,它将改变人们学习、工作和生活娱乐的方式,像尼葛洛庞帝所说:“在广大浩瀚的宇宙中,数字化生存能使每个人变得更容易接近,孤寂者能够发出他们的心声。”

[上一页] [下一页]