lingjoin

中文信息处理——纵览与建议(上 )

中文信息处理——纵览与建议(ZZ)
作者:刘挺,哈尔滨工业大学信息检索实验室,教授
=======================
一、该领域涉及主要产品及技术
1、中文输入输出技术
连续语音识别
小键盘智能拼音输入
高自然度语音合成
视频文字识别
2、机器翻译
英汉机器翻译
为中国人服务的英文辅助写作
3、语言学习
面向中国人的英语教学
语言学习、语音校正
面向外国人的汉语教学
4、信息检索
搜索引擎
新一代搜索引擎:问答系统
以搜索引擎技术为基础的网络信息服务
文本挖掘
从大量文本中挖掘知识
5、内容安全
垃圾邮件/短信过滤
有害(反动、色情)网页监控

二、各类产品及技术的发展现状与趋势(包括技术与市场)
(一)发展现状
1.技术及产品发展现状
(1)中文输入输出
在输入方面,基于键盘的中文输入方法已经成熟,字形编码输入法和拼音联想输入法都使输入速度有了很大的提高。在非键盘输入方面,联机手写中文输入达到了很高的识别率,已完全实用化,脱机印刷体汉字识别技术在纸张质量较好的条件下,也达到了实用化的程度;非特定人中文连续语音识别技术距离实用还有较长的距离,特别是由于中国不同地方的普通话都带有地方口音,造成真实条件下识别率严重下降。
在输出方面,语音合成技术有了很大的发展,单词级句子级的可懂度均能满足用户需求,自然度方面有待改进。在特定领域,例如天气预报,语音合成已经达到以假乱真的水平,但在通用领域,机器的味道仍然较重,听起来比较刻板,时间长了造成用户的听觉疲劳。
(2)机器翻译
广义的机器翻译软件可以分为电子词典、汉化(或屏幕)翻译、全文翻译和辅助翻译四种类型。电子词典和汉化翻译软件技术相对简单,已经完全成熟,各家技术的差别仅在于词汇量和技术细节。全文翻译被认为是21世纪的十大科技难题之一,因此尽管经过了多年的努力,也取得了不少成绩,但是距离实用化的要求还有很远的距离。辅助翻译系统,包括翻译记忆(Translation Memory)由于采用人机交互的方式,软件在翻译过程中只起辅助作用,把翻译的决定权交给人来处理,因此在目前情况下是最有市场潜力的翻译技术。
(3)语言学习
以中文信息处理技术支持语言学习是一项既有实用价值,又有研发空间的课题。语言学习包括面向中国人的英语学习和面向中国儿童和外国人的汉语辅助教学等。具体的辅助学习手段包括汉字认读、语法校对、口语发音校正等。应用的中文信息处理技术包括手写汉字识别、语音识别和校正、汉语语法校对等。
(4)信息检索
搜索引擎已经成为当今中文信息处理技术在互联网应用方面的热点。基于关键词的海量数据的搜索技术已经成熟,这些技术运行在语言的表层,不能抓住语言背后的知识内涵,但是运行速度快,能够满足用户对海量数据即时检索的需求。
搜索引擎主要是一种“拉”的技术,与之相应的是“信息推送”,。以竞争情报系统为代表的信息推送技术日趋成熟,它帮助用户随时监控互联网上信息的变化,找出用户感兴趣的内容及时推送给用户。
文本挖掘是数据挖掘的一个分支,对电子商务等方面的研究具有重要的支撑作用。根据文本挖掘获得的潜在的商业信息对公司的决策很有帮助,这方面的技术,包括文本的分类、摘要等日趋成熟,已接近实用。
(5)内容安全
主要包括垃圾邮件/短信过滤技术和有害(反动、色情)网页监控技术。这些技术常常以语言处理基础为支撑,包括文本分类、文本聚类等,由于有害信息的制造者常常为了逃避过滤而乔装改扮,从而给过滤技术造成了难度。此外,由于过滤技术无法达到100%的程度,而误判可能将用户关心的,甚至是重要的信息删除掉,因此目前的过滤技术只能采用人机互助的方式,由人最终确认信息的有害性,或者干脆牺牲部分合法的信息,这是一种两难的选择。

2.市场发展现状
(1)中文输入输出
键盘输入市场已经相当成熟并趋于饱和,五笔字型占有了字形编码输入方法的大部分市场,微软拼音、智能ABC等占据着拼音输入方式的大部分市场,近年来中文键盘输入市场已经有“万马奔腾”转向以几种输入方式为主导的市场。
连续语音识别在IBM ViaVoice的带动下曾一度火爆,但由于连续语音输入技术上仍有不少难点没有攻破,而且没有找到最合适的应用方式,因此在市场上暂时呈现冷却态势。
手写输入市场“汉王”一枝独秀,但由于手写屏价格偏高,且手写输入速度较慢,目前在手持设备上仍以小键盘输入方式为主。
以科大讯飞为代表的语音合成技术为语音产业注入了生机,目前已得到广泛的应用。
(2)机器翻译
电子词典和汉化翻译软件已经广泛应用在PC机平台、互联网平台和嵌入式设备中。其中的杰出代表是“金山词霸”系列软件、文曲星电子词典等。
塔多思公司在翻译记忆软件方面处于世界领先地位,他们的翻译记忆软件在中国市场上也占有绝对优势。
中科华建集团在英汉汉英全文机器翻译领域处于国内领先地位
但是由于通用软件受到盗版等问题的严重困扰,金山词霸、华建机器翻译软件等通过单独销售翻译软件的获利非常有限。
(3)语言学习
目前教育软件的发展势头非常迅猛,而教育软件中英语学习软件占有很大的市场份额。由于中国人在练习外语口语时常常害羞,张不开口,因此通过软件或网络,加入到虚拟的英语学习环境中,由计算机帮助纠正英语发音,对口语学习的帮助很大。
目前市场上以金洪恩、翰林会等为代表的语言教学软件已经取得了一定的市场份额,但是这些软件的智能化程度不高,主要还是对教学素材的整理和重现,真正互动的英语教学软件还没有出现。
(4)信息检索
在中文搜索引擎领域,国际大公司和国内主要搜索引擎公司在市场上的争夺已经白热化。国际公司主要是Google、Yahoo和微软,国内主要是百度、中国搜索、搜狗和天网等。在2003年的中文搜索市场,百度公司占据48.2%的市场份额,Google以29.8%的市场份额名列第二。搜索引擎将成为人们使用互联网的第一入口,能够被搜索引擎找到并排名靠前,将意味着你的网页更有机会被其他网络用户看到,否则可能淹没在信息海洋中,因此搜索引擎成为兵家必争之地。
Google、百度、天下互联等都已经推出了自己的竞争情报系统,用户可以通过提交关键词订购每天的最新消息,这种服务是图书情报业“定题服务”的延伸,对于满足用户相对稳定的那部分信息需求非常有效。
在检索之后的文本发掘将使用户获得的信息变得真正有价值。目前IBM等公司都已经推出了自己的文本挖掘软件包,国内TRS公司等也提供了文本分类、文本摘要等文本挖掘功能,目前文本挖掘技术的用户都是企业用户。
(5)内容安全
2004年统计显示:中国网民平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封,垃圾邮件数量已经超过了正常邮件数量。同时,随着手机用户的大幅度增长和短信业务受到广大用户的青睐,垃圾短信也大量的侵入人们的生活。因此,垃圾邮件/短信的过滤日益受到人们的关注。
黄色和反动的网页、邮件严重危害了青少年身心健康,随着国家打击黄色网站等法律法规的出台,一批黄色网站过滤软件相应出台,例如深圳任子行公司的产品等。

(二)发展趋势
1.技术及产品发展趋势
(1)中文输入输出
在手机等移动设备上的小键盘智能拼音输入法也取得了一定的发展,小键盘输入具有单手操作拇指按键的优点,但是和PC机键盘相比重码率更好,因此对智能拼音输入方法提出了新的挑战。
汉字识别在视频领域的应用是新的亮点,比如从视频新闻中识别关键文字,进而对新闻进行过滤分类等。
小词汇集噪声背景下的语音命令输入技术由于应用场合清楚,技术相对成熟,因此在未来有着较好的发展前景。
语音合成向着高自然度以及情感语音合成的方向发展,未来的语音合成效果将更加人性化,带有情感色彩。

(2)机器翻译
全文机器翻译正在将基于规则、基于实例和基于统计等各种信息集成起来对抗翻译知识不足的问题,并寻求在特定领域,例如和奥运相关的旅游、餐饮、体育比赛报道等方面的技术突破。
(3)语言学习
语言辅助阅读、辅助写作技术、口语发音校正技术将为语言学习类产品提供原动力。语言辅助阅读可以帮助用户识别外文中的多义词在上下文中的词义,识别外文中复杂的句法结构等;辅助写作可以帮助用户通过查找例句,写出地道的外文文章;口语校正技术可以将用户正确的发音和不正确的发音区别开来,并指出不正确的发音存在的问题,给出改进发音的建议。这些技术的发展有赖于中文信息技术的整体进步。
(4)信息检索
目前搜索引擎的主要问题是缺乏智能,用户的输入是关键词的组合,无法准确地表达用户的检索需求,搜索引擎的输出是网页集合,需要用户自己从这些返回的网页中进一步寻找答案,浪费了时间。
问答式搜索引擎是未来搜索引擎的发展方向,AskJeeves、Weniwen、孙悟空等搜索引擎都试图提供问答式的信息检索服务,但是由于目前语言处理技术尚不成熟,因此问答技术尚需时日。
(5)内容安全
未来的内容过滤技术将融合多方面的信息,比如将信源地址和信息内容相结合,将图片信息和文字信息相结合,将声音信息和文字信息相结合等等,将信息内容和信息行为(例如群发)相结合等,从而进一步提高准确性。由于信息的不同特征是异质的,因此这些信息如何有机地融合在一起是一个难题。

2.市场发展趋势
(1)中文输入输出
中文输入输出技术主要以嵌入式的形式应用于各种应用系统之中,它的市场价值也将通过这些应用系统间接体现出来。
(2)机器翻译
市场短期内将以双语词典、辅助翻译等形式展开,特别是辅助翻译技术市场前景看好。
尽管全文机器翻译软件由于技术上的不成熟,受到用户较多的批评,但是由于世界全球化的趋势不断加强,中国加入世贸,中国在2008年举办奥运会等,使中国国内对翻译的需求量不断增长,大量用户都在关注机器翻译领域的进展,只有技术能够突破门限,将产生大面积的应用。
(3)语言学习
据统计,国外学习汉语的人已经超过2000多万,并且随着中国在国际上的影响力不断增强,这个数字还将不断上升。并且国外的软件使用者比较规范,盗版现象较少,因此面向外国人的汉语教学软件将拥有越来越大的市场。
随着语音识别、虚拟现实等技术的日益成熟,将使口语学习软件的智能化程度不断提高,从而进一步提高用户的学习兴趣,是用户在虚拟场景中不知不觉地学好外语。
(4)信息检索
搜索引擎的市场越来越大,据预测,到2006年尽中文搜索引气归能够的市场就将达到24亿元人民币。而且搜索引擎逐渐成为人们使用互联网的第一入口,和一个国家的经济文化利益相关,因此将越来越受到各国的高度重视。
在通用检索市场不断扩大的同时,面向企业,和商务智能等相结合的专用检索与挖掘技术的市场也在增长。
(5)内容安全
过滤软件将根据不同需求,在代理服务器和客户端等不同位置发挥作用。反垃圾邮件和反黄色网站的市场将不断增长。

 

分类:

技术点:

相关文章:

  • 2021-08-24
  • 2021-10-20
  • 2021-07-22
  • 2022-12-23
  • 2021-07-26
  • 2021-05-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-06-24
  • 2021-05-15
  • 2021-05-27
  • 2021-05-22
  • 2021-09-01
  • 2021-04-14
相关资源
相似解决方案