博客首页|TW首页| 同事录|业界社区

百度百科上对模式识别的解释:模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

说太复杂了,其实模式识别在计算机科学里指使用计算机模拟人对外界有共性事物进行特征提取。比如两个汉字图形不同,但是笔画一样,它们是具备笔画这个共同特征的,是写的同一个汉字。

模式识别软件一般由这样几部分构成:算法、片段库、特征库。

片段是构成对象的最小单位,以汉字字符识别来说,片段就是各种线段,可以使用函数描述。

特征是片段库构造对象采用的方法,以汉字字符识别来说,特征就是笔画、笔顺、相对位置关系。

很多时候片段库和特征库可以放一起重新切分粒度和构造。

算法就是解析要识别的对象,拾取可识别信息片段及结构,与特征库比对。

模式识别最重要的两点:1.片段可抽象,一个是对象之间确实具备共同组成片段,另一个是现有技术可实现对这些片段的提取,这个决定了目前技术下算法可否实现;2.特征具备收敛性,没有人工干预的识别(比如语音、指纹识别)必须要能实现多到一的对应,如果人工可以干预的识别(比如手写识别),预选项要足够少,这决定了方法是否可用。

六十年代手写识别就开始研究,1988年中科院做了400万字(1000套,每套4000字)的离线字库,但是到1995年首屏(每屏十个字)识别率还刚过50%,可用性很差。MOTO慧笔使用联机采集素材的方法缩小了入口,一个是人自然书写时笔画其实是分开的,还有一个是笔画的书写是有方向的,这样,联机采集素材线段种类远远少于离线素材库的线段种类,片段库缩小。而且由于真实工作环境下人也是联机输入,所以所要求对象特征是可以拾取的。联机采集素材后又做了一个工作,是扩大样本数,采用海量样本使得不同人的书写习惯(倒插笔、缺笔画等)被收录到特征库,按收敛性要求合理分布频宽(线段函数、以及相对位置是有频宽的,频宽太大会导致候选样本过多,首选识别率低),提高首屏识别率和首选识别率。在MOTO慧笔发布论文后,其他一些科研机构和企业也跟进,这个领域主要的几家企业在97年就把中文手写识别首屏识别率提高到了97%以上,首选识别率提高到了90%以上,这个已经是比肉眼识别强的了(肉眼识别很多时候靠前后文关联,否则大量人群自然书写的单字识别率也是很难超过90%的)。在现在,由于连笔字的素材增长和上下文关联技术的采用,据说首屏识别率已经超过99%。而且由于提笔忘字的人越来越多,手写在南方人拼音输入也普及的情况下,更多时候成为查字辅助工具,写出大致样子,自动随笔画丰富程度出来的字里可能有自己想要的,选中后可以看到完整字,还可以看拼音。

手写识别由于有人工干预,不需要对应到唯一对象,因此还算好做,也是模式识别领域很早就商业化出成果领域。语音识别相对来说就难多了,所以目前改变做法,识别不要求对应到文本,而是对应到一定频宽的语音,而且不要求100%识别,而只是要求提取关键字(特征语音),关键字触发警报后人工签出、复检,处理结果再签入,由于处理时会人工整理话音,这实际也是一个丰富样本库的过程。

面向消费市场商用成熟的模式识别产品一个典型是kinect,当然,被更多人接触的是搜索引擎切词、指纹考勤机,在未来,人工智能随研发人员经验成长,会爆发成长的。


上一篇: 健康智能网商业计划及问答汇总
下一篇:按周鸿祎说的那十条写的商业计划书

评论

Good.Be the first to comment on this entry.

发表评论