从Microsoft的数字秘书,聊聊智能算法

2010年4月14日 | By JonsonXP | Filed in: 原创, 未分类.

先看段视频,欣赏下这位数字美女秘书~

智能算法会越来越多的进入人们的生活。现在已经可以看到一些倾向,比如现在数码相机大多会检测出人的面部自动对焦,甚至捕获并拍下你最美丽微笑的一瞬间;比如midomi.com 可以根据你哼的调调来搜索歌曲;比如Google的Picasa可以自动在很多照片里找到同一个人帮你打上标签……

可能一个不是很复杂的算法,就已经可以做一些很神奇的事情。我们终于看到一直以来人工智能的研究,渐渐走出了实验室和军工项目,开始加持消费类电子。

借着 Microsoft 这位虚拟的小蜜,简单介绍一些智能的方向

1.语音识别

输入声音转成文字,识别和转换技术已经比较成熟了,一些语音输入法从九几年就已商业化。目前比较复杂的是对样本声音的降噪和有效特征提取,如何在嘈杂的环境中如何准确挑选出目标声音。夏普前段时间推出了个可以语音控制的电视遥控器,据说在这方面做的很好。

2.语音合成

计算机想说的话,在内部其实是按照文本来处理的,需要有个语音引擎,把文字合成声音。这个技术也是很早就有了,难点大家也能感觉出来,就是合成语音冷冰冰的还有点怪。不过比起十多年前所谓的语音合成软件,现在能做的人能听懂的程度已经算不错了呵呵。中文领域做的最好的应该是科大讯飞做的语音电子书软件,在电脑上朗读中文还带有感情,比Microsoft这个演示的效果要好的多。

3.视频检测识别

演示中那些人身上的框框,就是检测人体和面部的算法结果,他们用来判断是不是有人类靠近,或者把面部画面提取出来供后续的识别算法来使用。

3.3D人物的唇形和表情

根据要说的话,来对准那位虚拟美女的唇形和表情,算法也是用到了和语音合成里语音语素的技术,目前也算比较成熟可以凑合了。

4.语义分析

这个小秘书的灵魂就是语义分析的算法了。这个真是说来就话长了。

语义分析大概分成几层,对于亚洲语言先要分词,把句子中的词汇找出来,一篇文章打散成词汇的矩阵;第二步是词性标注,把分出来的词标注上词性,比如动词、名词等等;第三步是句法分析,根据词性的排列组合来判断一个句子的结构;第四步文法分析,把对句子的理解提升到句群的理解;最后才是根据分析出的结果,整合到内置知识体系网络中去计算答案输出。

上面说的这种分法的每一层都是相当的难,拿分词和词性标注来讲,词的歧义处理技术至今也都没有很好的解决办法,大部分算法只是按照邻接词词性组合频率来对把目标词标注成概率比较大的词性。目前世界上比较成熟的技术也就做到文法分析这一步而已。上面Demo中貌似很智慧的秘书小姐,也不过是用来处理特定业务(比如演示中的引导客人)的复杂的状态机而已,她的知识体系应该只是接待客人、查查飞机信息之类。

结论

今后,以声音图形语义处理为代表的智能算法会被用到各种各样电子设备、应用中,这是一种趋势,也会成为一种技术门槛,不了解这些技术的IT人员和企业将会受到很大的挑战,大家应该做好准备!


发表评论

电子邮件地址不会被公开。 必填项已用*标注