前言:中文期刊网精心挑选了自然语言处理范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
自然语言处理范文1
关键词:中文分词;自然语言处理;算法
1.引言
伴随着计算机的日益普及,互联网的迅猛发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下,自然语言处理技术的地位和作用日益重要。经过几十年的研究,计算机处理自然语言的理论基础日趋成熟,应用范围也越来越广,初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤,是其他高层应用的基础,起着极其重要的作用。
2.分句处理
2.1 分句处理技术简介
分句处理就是把句子以某些特定的标点符号为分隔划分为若干个句子。根据汉语对语句、句群和篇章的定义,主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割,完成分句处理。
2.2分句算法的设计
在进行分词之前首先应对句子进行分割,分为以句子为单位的一个个语句片段。因为以逗号、分号来分隔的语句通常能表达完整的语义信息,所以本文主要使用逗号、分号等标点符号也作为子句分句的分隔符号,以它们为标志进行语句的分句处理。
分句处理的具体算法设计如下:
① 判断答案字符串aString是否为空,若为空则结束;
② 取aString左侧的一个字符存入tChar中,判断tChar是否是句末标点符或回车符,若不是,转⑤;
③ 若tChar是句末标点符号,则子句数组下标加1,并将字符tChar从字符串aString中删掉,转①;
④ 若tChar为回车符或者换行符,去掉aString左侧两字符,并将字符tChar从字符串aString中删掉,转①。
⑤ 将tChar合并到子句数组当前元素中,去掉aString左侧一字符,转①。
上述算法中,aString为待处理的字符串,tChar为字符类型变量。
3.分词处理
3.1 中文分词技术简介
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言理解的研究范畴。
目前主要有三种中文词算法,分别为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。介绍如下:
1) 基于字符串匹配的分词算法
基于字符串匹配的分词方法也叫机械匹配法,是分词技术的诸多理论算法中较简单实用的一种分词算法。它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行区配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的几种机械分词方法如下:① 正向最大匹配法(由左到右的方向)② 逆向最大匹配法(由右到左的方向)③ 最少切分(使每一句中切出的词数最小)还可以将上述各种方法相互组合。
2) 基于统计的分词方法
在很多情况下,最大匹配时即使采用双向扫描也不能检查出所有的交集型切分歧义。为了消除歧义,我们还需要其他知识。这也是自然语言处理里,统计方法出现的原因。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
3) 基于理解的分词方法
通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而基于理解的分词方式则在后续过程中来处理歧义切分问题,其切分过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
目前无法作出结论证明以上三个算法中哪一个是最好的,针对具体问题采用不同的算法。这三种算法都有自己的利弊,它们的对比见表1所示:
分词方法
基于字符串匹配分词
基于统计的分词
基于理解的分词
歧义识别
差
强
强
新词识别
差
强
强
需要词典
需要
不需要
不需要
需要语料库
否
是
否
需要规则库
否
否
是
算法复杂性
容易
一般
很难
技术成熟度
成熟
成熟
不成熟
实施难度
容易
一般
很难
分词准确性
一般
较准
准确
分词速度
快
一般
慢
表1 三种算法优劣比较
3.2自动分词的评价标准
一般对自动分词有三个评价标准:正确率、召回率、调和平均数。其定义如下:
由定义可见,分词正确率和分词召回率是互相矛盾的,要得到高的分词召回率需保留多个分词结果以保证更大可能地包含正确的结果,而这样却会降低分词正确率。所以引入了调和平均数作为评价参数。
3.3分词算法设计
英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。
目前主流的分词算法主要有三种,分别为基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。分词本文采用的是最大词长匹配算法。这是一种基于字符串匹配的分词算法,该方法依据一个分词词表和一个基本的切分评估原则,即"长词优先"原则来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。采用这种方法的原因是它简单、快速。
最大匹配算法需要一个已知的词汇数据库作为支撑,本文以知网数据库作为该算法的词库。最大匹配算法的主要思想如下:
① 首先统计出《知网》数据库中的最长词条所包含的字数,本文暂时将称其为最大词长,并将该长度记为MaxL;
② 从每个分句中的第一个字开始 向后取L(L≤MaxL)个字;
③ 在《知网》数据库中查找是否有由此L个字组成的词。如果有,则一个词语分解成功,并转⑤;
④ 将这L个字中的最后一个字去掉,并令L=L-1,转至第③步骤(直至L=1,说明L已经是一个单字);
⑤ 从这个句子中将该词删除,并判断句子是否已经为空,如果为空,则返回第②步,否则,算法结束。
其中MaxL表示《知网》数据库中的最长词条所包含的字数。当前最大词长L≤MaxL。
4.结束语
中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。
参考文献:
[1] 李向宏,王丁,黄成哲等.自然语言句法分析研究现状和发展趋势[J].微处理机,2003,4(2):28-29.
[2] 黄昌宁.中文信息处理的主流技术是什么[J].计算机世界报,2002(2):4.
[3] 曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004.5:71-73.
自然语言处理范文2
关键词:自然语言处理 语言翻译 人工智能
一、引言
近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。
二、自然语言信息处理技术简介
自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。
三、智能应用
通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。
(一)自然语言信息处理在文本方面的智能应用
在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。
如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。
自然语言处理范文3
我从事计算语言学教学和研究已经50多年,在这半个多世纪的漫长岁月中,针对计算语言学的跨学科性质,我在北京大学学习过语言学,在中国科学技术大学研究生院学习过信息科学,在法国格勒诺布尔理科医科大学学习过数学,前后花了将近20年的时间更新自己的知识,成为跨学科背景的计算语言学家。现在我们已经进入了信息网络时代,以自然语言信息处理作为研究目标的计算语言学正越来越受到语言学家的关注。然而,由于大多数语言学家仅具有文科背景,他们对于计算语言学中涉及的数学知识和计算机知识了解不多,尽管他们怀着关注计算语言学的强烈愿望,可是一旦看到计算语言学的专业文献、接触到其中的数学和计算机方面的问题,往往望而生畏,敬而远之。他们精研通达的语言学知识,难以与数学知识和计算机知识融会贯通起来,这是十分可惜的!
我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。
2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。
2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。2009年9月,《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事!
本书由Ruslan Mitkov教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联、浑然一体、可读性强。《牛津计算语言学手册》内容丰富、深入浅出,全面地反映了国外计算语言学的最新成果,是我们了解国外计算语言学发展动向的一个窗口,正好满足了我国语言学界学习和了解国外计算语言学的研究成果和最新动态的要求。
本书主编Ruslan Mitkov是计算语言学家及语言工程专家,毕业于德国德累斯顿大学(Dresden University),现为英国伍尔弗汉普顿大学(University of Wolverhampton)教授。他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002年出版过名为《回指消解》(Anaphora Resolution)的专著。著名计算语言学家Martin Kay(马丁?凯伊)为本书作序。Martin Kay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。
二、内容简介
本书内容分三大部分:1.与计算语言学有关的语言学基础理论(1~9章);2.计算语言学中自然语言的处理、方法与资源(10~26章);3.计算语言学的应用(27~38章),几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表,每个术语均有简要的定义和解释,便于读者查询。下面分别介绍各章的内容。
第1章“音系学”(phonology)介绍了描写音系学和计算音系学的基本知识,着重介绍了非线性音系学中的有限状态模型、音位的特征-值矩阵描述方法以及音系学研究中的计算工具。
第2章“形态学”(morphology)介绍了诸如语素、词、屈折、派生等形态学的基本知识,分析了形态学对于音系学的影响,着重介绍计算形态学中的有限状态分析方法,并介绍了双层形态学和双层规则的形式化描述方法。最后介绍了结构段形态学。
第3章“词典学”(lexicography)首先简要地回顾了词典学的发展历史,接着讨论了人编词典在计算机应用中的不足,说明了计算词典学对于传统的词典编纂技术提出的挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用;说明了计算技术改变了词典编纂工作的面貌,为新型词典的编纂提供了有力的技术手段。本章强调指出,计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。
第4章“句法学”(syntax)首先列举了一些有趣的句法现象,分析了这些现象在计算上的意义,接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法(功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR语法)。最后,介绍了两种在语言学和计算上有意义的句法框架(广义短语结构语法、树邻接语法)。
第5章“语义学”(semantics)集中介绍了计算语义学的基本内容。首先讨论语义的表示问题,介绍了语义的高阶逻辑(higher-order-logic)表示法和语义的特征值矩阵(Attribute-Value Matrix)表示法。其次讨论句法语义接口,介绍了“并行对应模型”(Parallel Correspondence Model,简称PCM);针对 Frege的“组成性原则”(principle of compositionality),介绍了“非组成性的语义学”。最后介绍了语义解释的动态模型。
第6章“话语”(discourse)首先列举了一些话语平面的现象,阐明“话语”研究的对象是句子之间的关联问题,计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示(referring expressions)和话语结构(discourse structure),说明参照表示的工作原理和参照表示的选择方法,并讨论主题(theme)与述题(rheme)、话题(topic)与焦点(focus),以及预设(presupposition)、蕴含(implicature)等问题。最后讨论“话语树”(discourse tree),介绍了“修辞结构理论”(rhetorical structure theory)和“中心理论”(centering theory)。
第7章“语用学和对话”(pragmatics and dialogue)讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为(speech act)、言外语力(illocutionary force)、合作原则(cooperative principle,简称CP)、关联(relevance)等语用学的基本概念,并且介绍了意图(intention)、信念(belief)、知识(knowledge)和推论(inference)等与概念表达有关的问题。着重讨论了计算语用学中的对话模型(dialogue model),说明了从话语行为到对话行为的计算机制,并介绍了对话的管理模型(dialogue management models)。
第8章“形式语法与形式语言”(formal grammars and languages)介绍形式语言理论的基本知识,分别论述了形式语法和自动机,把形式语法看成是语言的生成装置,把自动机看成语言的识别装置。为了便于文科背景的读者理解本章的内容,对于一些基本概念都给出了定义和实例;为了避免抽象的数学推理,对于一些基本的结论不在数学上加以证明。首先介绍了Chomsky的形式语法,给出了形式语法的Chomsky分类,分别讨论了上下文无关语言(context-free languages)、线性和正则语言(linear and regular languages)、半线性语言(semilinear languages)、上下文有关语言(context-sensitive languages)、柔性上下文有关语言(mildly context-sensitive languages)。接着介绍自动机理论,分别讨论了有限自动机(finite automata)、下推自动机(pushdown automata)、线性有界自动机(linear bounded automata)、图灵机(Turing machine)。
第9章“计算复杂性”(complexity)介绍自然语言处理中的计算复杂性问题。首先介绍计算复杂性的度量方法和计算复杂性的类别,分别讨论了多项式算法(Polynomial algorithm,简称P)和非确定多项式算法(Nondeterministic Polynomial algorithm,简称NP),并介绍了自然语言处理中关于“NP完全问题”(NP-complete problem)的一些研究。接着讨论正则语言问题的计算复杂性,介绍了确定性(determinism)和非确定性(non-determinism)的概念、线性(linearity)和有限状态特性(finite-stateness)的概念,说明了有限状态方法的可应用性。然后讨论上下文无关语言的计算复杂性,介绍了基于搜索的上下文无关识别(search-based context-free recognition)、自顶向下识别(top-down recognition)、线性时间与空间中的确定性语法识别(deterministic grammar recognition in linear time and space)。最后讨论了概率语法和启发式搜索、并行处理和实际效用等问题,说明计算复杂性分析在理解自然语言的复杂性以及在建立实际的自然语言处理系统中的用途。
第10章“文本切分”(text segmentation)介绍两方面的内容:一方面是“词例还原”(tokenization),一方面是“句子分离”(sentence splitting)。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来,以便进行进一步处理。本章分别介绍了单词自动切分、缩写切分(例如:“Mr.,Dr.,kg.”中的小黑点)、连字符处理(例如:“self-asessment,forty-two,F-16”中的连字符)的技术,并且讨论了汉语和日语等东方语言中有关“词例还原”(也就是“切词”)的特殊问题。句子分离的目标是把文本中的句子分离出来,在很多自然语言处理系统中,都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。
第11章“词类标注”(part-of-speech tagging)介绍了词类标注器(POS tagger)的设计技术以及兼类词的排歧(disambiguation)方法。简要回顾了词类标注发展的历史,介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型(Hidden Markov Models)的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器,重点介绍了手工排歧语法(handwritten disambiguation grammars)。
第12章“句法剖析”(parsing)介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同,有浅层的句法剖析(shallow parsing),也有深层的句法剖析(deep parsing)。本章首先介绍了浅层句法剖析,这种剖析只要把句子剖析为语块(chunks)就可以了。之后,介绍了依存剖析(dependency parsing)。在介绍上下文无关剖析(context-free parsing)时,比较详细地讨论了CYK算法、自底向上剖析、左角分析法、自底向上的活性线图分析法(bottom-up active chart)。在介绍基于合一的剖析(unification-based parsing)时,讨论了特征-值矩阵。剖析时可能得到若干个结果,因此,本章还讨论了剖析结果的排歧问题。最后,讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。
第13章“词义排歧”(word-sense disambiguation,简称WSD)讨论如何利用上下文来确定多义词的准确意义。首先介绍了在计算语言学研究早期所提出的WSD优选语义学方法、词专家剖析方法。这些方法由于缺乏可供使用的词汇资源,出现了“知识获取的瓶颈问题”(knowledge acquisition bottleneck)。这些问题由于大规模词汇库和知识库的出现而得到缓解,又由于统计方法和机器学习方法的应用而可以从语料库中获取精确的数据。近年来,在WSD中普遍使用基于词典的方法、联结主义方法(connectionist)、统计方法、机器学习方法,取得了很大的进步。最后讨论WSD的评测,介绍了SENSEVAL的评测活动,并介绍WSD的一些实际应用。
第14章“回指消解”(anaphora resolution)首先列举了一些回指现象,说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状,讨论了今后回指消解研究中应当注意的问题。
第15章“自然语言生成”(natural language generation,简称NLG)介绍了自然语言生成研究的理论和实践问题,力图说明在人们的心智上以及在计算机中,语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题,可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题,也可以把它看成一个选择问题,还可以把它看成一个规划问题。自然语言生成可以分为四个问题:宏观规划(macroplanning)、微观规划(microplanning)、表层实现(surface realization)、物理表达(physical presentation)。对于宏观规划,介绍了说话内容的规划、文本的规划,以及使用修辞结构理论的规划方法;对于微观规划,着重介绍了词汇生成的问题。最后介绍了表层生成的技术。
第16章“语音识别”(speech recognition)研究如何把作为声学信号的声波转换为单词的序列。现在,最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术:声学语音信号的建模、语音识别中的词汇表示、语音识别中的语言模型和解码。重点介绍独立于说话人的大词汇量连续语音识别(large-vocabulary continuous speech recognition,简称LVCSR)的最新的技术。目前,语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别技术未来的研究前景。
第17章“文本-语音合成”(text-to-speech synthesis,简称TTS)介绍文本-语音合成的最新成果。TTS既涉及自然语言处理技术,也涉及数字信号的处理技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS系统的概貌以及它的商业应用价值。然后描述TTS系统的功能结构以及TTS系统的组成部分,TTS系统中的自动形态-句法分析、自动语音分析、自动韵律生成,说明了如何从文本中近似地计算语音的声调和时长。最后介绍了声波生成的两种技术:规则合成技术(synthesis by rules)与毗连合成技术(concatenative synthesis)。
第18章“有限状态技术”(finite-state technology)首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念,然后介绍基本正则表达式的运算方法和复杂的正则表达式,最后讨论有限状态网络的形式特性。
第19章“统计方法”(statistical methods)介绍了计算语言学中的统计方法。目前,统计方法已经成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念(如:样本空间、概率测度、随机变量、条件概率、熵、随机过程)以及如何把它们应用于自然语言的模拟问题,分别介绍了隐马尔科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介绍了这些模型的一些技术细节,如:韦特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。
第20章“机器学习”(machine learning)介绍了如何通过有指导的训练实例(supervised training examples)来自动地获取语言资源中蕴含的决策树(decision-tree)和规则(rules),描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术,并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法(instance-based categorization),较详细地介绍了k-邻近分类算法(k nearest-neighbour categorization algorithm)。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动排歧、信息抽取、前指消解等各种各样的问题。
第21章“词汇知识的获取”(lexical knowledge acquisition)首先介绍了词汇知识自动获取的一些背景,包括词汇知识的形式、词汇知识获取的资源和工具、单词的共现和相似度。然后介绍了从语料库中自动获取词汇的搭配关系(lexical collocation)和联想关系(lexical association)的方法,词汇相似度(similarity)计算与叙词表(thesaurus)构建的方法,动词的次范畴框架(subcategorization frame)的获取方法;分析了词汇语义学(lexical semantics)和词汇知识获取的关系。最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用,自然语言处理的形式模型中越来越多地采用“词汇化”(lexicalized)的方法,词汇知识的自动获取是当前计算语言学研究的亮点之一。
第22章“评测”(evaluation)专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段,评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测(technology-based evaluation),在自然语言处理技术比较成熟时,就可以使用以用户为中心的评测(user-centred evaluation)。根据评测时的输入与输出,评测技术又可以分为分析成分的评测(evaluation of analysis components)、输出技术的评测(evaluation of output technologies)和交互系统的评测(evaluation of interactive systems)。分析成分的评测把语言映射为它的内部表达作为输出(例如:有标记的片段、树形图、抽象的意义表达式等)。输出技术的评测要把处理的结果用具体的语言表示出来(例如:文摘、生成的文本、翻译的译文等)。这种评测可以分别使用内部评测指标(intrinsic measures)和外部评测指标(extrinsic measures)来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术,并指出它们的优点和缺点。
第23章“子语言和可控语言”(sublanguage and controlled language)首先讨论了在限定语义领域中的计算语言学,指出了在当前的水平之下,在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发形成的子语言,分析了子语言的特性,讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中的应用问题。接着讨论可控语言,分析了使用可控语言的必要性和局限性,介绍了可控语言的一个实例――简化英语AECMA。最后讨论子语言与可控语言的关系,分析了把子语言转变为可控语言的途径。
第24章“语料库语言学”(corpus linguistics)主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求,简要地回顾了语料库的发展历史,然后着重地讨论了语料库的标注(annotation)问题。标注过的语料库的优点是:开发和研究上的方便性、使用上的可重用性、功能上的多样性和分析上的清晰性。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后,作者指出,不论标注过的语料库,还是没有标注过的语料库,在自然语言处理中都是有用的,语料库语言学有助于计算语言学的发展。
第25章“知识本体”(ontology)讨论了知识本体及其在自然语言处理中的应用。首先,分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体,并讨论了语言学中的知识本体与词汇语义学的关系;然后,说明在自然语言处理中,知识本体可以用来帮助系统进行语言的结构分析(例如:英语中的PP附着问题、错拼更正、句法检错、语音识别),也可以用来进行局部的自然语言理解(例如:信息检索中的问题搜索、文本分类),并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义排歧中的应用。
第26章“树邻接语法”(tree-adjoining grammar,简称TAG)介绍一种局部化的语法形式模型:树邻接语法(TAG)和词汇化的树邻接语法(lexicalized tree-adjoining grammar,简称LTAG)。首先讨论上下文无关语法CFG的局部化问题,说明TAG与CFG的不同:TAG以句法结构树作为核心操作对象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式来表达二维的树结构;而CFG以符号串作为操作对象,CFG是一个基于符号串的形式语法,而TAG是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题,介绍了LTAG。LTAG对于TAG的扩充主要在于把每一个初始树(initial tree)和辅助树(auxiliary tree)都与某一个或某一些叫作“锚点”(anchor)的具体单词关联起来。最后讨论LTAG的一些重要特性及其与别的形式系统的关系。
第27章“机器翻译:总体回顾”(machine translation:general overview)介绍了从20世纪50年代到90年代的基于规则的机器翻译系统(rule-based machine translation,简称rule-based MT)的主要概念和方法:直接翻译方法、中间语言方法、转换方法、基于知识的方法,并介绍了主要的机器翻译工具,简要回顾了机器翻译的历史。
第28章“机器翻译:新近的发展”(machine translation:latest developments)介绍了当前机器翻译系统的研究、开发和应用的情况,讨论了经验主义的机器翻译系统:基于实例的机器翻译(example-based MT)和统计机器翻译(statistical MT),并把它们与传统的基于规则的机器翻译系统进行了对比,同时还介绍了把各种方法融为一炉的混合机器翻译系统(hybrid MT)。当前基于规则的机器翻译的开发中,回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大进展,本章也做了介绍;此外,还介绍了口语的机器翻译,讨论了少数民族语言和不发达语言的机器翻译前景,讨论了因特网上的机器翻译(特别是网页翻译)问题。最后,本章介绍了译者的电子翻译工具,特别讨论了双语语料库、翻译记忆、双语上下文索引等问题,并介绍了一些面向译者的词处理工具。
第29章“信息检索”(information retrieval)主要介绍了文本的信息检索。信息检索系统的任务在于,对于用户提出的提问或者命题,给出与之有关的文献集合,作为检索的结果。首先分析了信息检索系统的软件组成成分,包括文献处理、提问处理、检索匹配技术。然后讨论自然语言处理技术对于信息检索的推动和促进作用,讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术,并且指出,当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。
第30章“信息抽取”(information extraction,简称IE)讨论如何从自由文本中自动地识别特定的实体(entities)、关系(relation)和事件(events)的方法和技术。本章主要讨论两种类型的信息抽取:一种是名称的自动抽取(extraction of names),一种是事件的自动抽取(extraction of events),并介绍书写抽取规则的方法。对于名称的自动抽取,本章介绍了名称标注器(name tagger);对于事件的自动抽取,介绍了事件识别器(event recognizer)。同时,还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习和抽取规则的方法,这种方法也就是信息抽取的统计模型。最后,介绍了信息抽取的评测和应用。
第31章“问答系统”(question answering,简称QA)讨论如何从大规模真实的联机文本中对于指定的提问找出正确回答的方法和技术,这是文本信息处理的一个新的发展趋向。由于QA要对指定的提问给出一套数量不多的准确回答,在技术上,它更接近于信息检索(information retrieval),而与传统的文献检索(document retrieval)有较大的区别――QA要生成一个相关文献的表作为对于用户提问的回答。与信息抽取相比,QA要回答的提问可以是任何提问,而信息抽取只需要抽取事先定义的事件和实体。在开放领域的QA系统中,使用有限状态技术和领域知识,把基于知识的提问处理、新的文本标引形式以及依赖于经验方法的回答抽取技术结合起来,这样,就把信息抽取技术大大地向前推进了一步。本章首先介绍了QA系统的类别和QA系统的体系结构,接着介绍了开放领域QA系统中的提问处理、开放领域QA系统中的提问类型以及关键词抽取技术,并讨论了开放领域QA系统中的文献处理方法和提问抽取方法,最后展示了QA系统的发展前景。
第32章“自动文摘”(text summarization)介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段:第一阶段是主题辨认(topic identification),第二阶段是主题融合(topic fusion),第三阶段是文摘生成(summary generation);并介绍了多文本的自动文摘。最后,介绍自动文摘的评测方法,讨论了自动文摘评测的两个指标:压缩比(compression ratio,简称CR)和内容保留率(retention ratio,简称RR)。
第33章“术语抽取和自动索引”(term extraction and automatic indexing)介绍术语自动处理的技术。术语广泛地出现在科技文献中,术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性作用。随着网络的普及和数字技术的发展,出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多,术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本章把面向术语的语言自动处理分为术语发现(term discovery)和术语识别(term recognition)两个部门,分别介绍了主要的技术和系统,最后介绍了双语言术语的自动抽取技术。
第34章“文本数据挖掘”(text data mining,简称TDM)介绍了本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别,分析了文本数据挖掘与计算语言学和范畴元数据(category metadata)的关系。本章举出实例,具体说明了怎样使用生物医学文献中的文本数据来推测偏头痛(migraine headaches)的病因,怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系,并介绍了LINDI(Linking Information for Novel Discovery and Insight)系统。这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。
第35章“自然语言接口”(natural language interaction简称NLI)介绍计算机自然语言接口系统。这样的NLI系统可以把用户使用的口头自然语言或书面自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI系统的基本组成部分、意义表达语言(meaning representation language,简称MRL)、同义互训软件(paraphraser)、问题生成软件(response generator)以及可移植工具(portability tools)。然后介绍口语对话系统(spoken dialogue systems,简称SDS),分别介绍了SDS的单词识别软件、任务模型、用户模型、话语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS系统的灵活性、现状以及将来的应用前景。
第36章“多模态和多媒体系统中的自然语言”(natural language in multimodal and multimedia systems)讨论自然语言在多模态系统和多媒体系统应用中的重要作用,说明了怎样把自然的口语或书面语与多媒体输入协同地融合为一体,怎样把自然语言与其他的媒体结合起来以生成更加有效的输出,怎样使用自然语言处理技术来改善多媒体文献的存取。首先介绍包含自然语言的多模态和多媒体输入的分析问题,讨论了怎样把自然语言处理技术作为多模态分析的基础,怎样把不同的模态结合起来的技术。接着介绍包含自然语言的多媒体输出的生成问题,讨论了怎样把自然语言处理技术作为多媒体生成的基础,并讨论了不同模态的协调问题(包括不同模态的配置、不同模态输出的裁剪、模态输出中空间和时间的配合)。还讨论了用于多媒体数据存取的自然语言处理技术(包括基于自然语言处理的图形和图像检索、图形和图像数据库的自然语言接口、多媒体信息的自然语言摘要)。最后讨论在多媒体环境中使用语言的问题。
第37章“计算机辅助语言教学中的自然语言处理”(natural language processing in computer-assisted language learning)介绍在计算机辅助语言教学(computer-assisted language learning,简称CALL)中使用自然语言处理技术的问题。首先介绍CALL的发展历史,接着介绍在自然语言处理背景下的CALL,语料库与CALL,双语语料库,讨论自然语言处理技术在形态学教学、语法教学、偏误的识别与诊断中的应用。最后讨论自然语言处理技术在CALL中应用的评估问题。
第38章“多语言的在线自然语言处理”(multilingual on-line natural language processing)讨论在因特网上的多语言处理问题。因特网现在已经发展成多语言的网络,英语独霸互联网天下的局面已经成为历史,非英语的网站越来越多,语言障碍日益严重。为了克服语言障碍,机器翻译当然是一个最重要的手段,除了机器翻译之外的各种使用自然语言处理技术的多语言处理工具也雨后春笋般地开发出来。本章介绍了语种辨别(language identification)、跨语言信息检索(cross-language information retrieval,简称CLIR)、双语言术语对齐(bilingual terminology alignment)和语言理解助手(comprehension aids)4个方面的研究情况。语种辨别的目的在于让计算机自动地判断书面文本是用什么语言写的,这显然是多语言自动处理必须经过的第一步。跨语言信息检索CLIR的目的在于使用一种语言提问来检索其他语言文本的信息。本章介绍了在CLIR中的译文发现技术(finding translation)、翻译变体的修剪技术(pruning translation alternatives)和翻译变体的加权技术(weighting translation alternatives)。在这些应用中,双语言词典或多语言词典是最重要的资源,而这些词典的覆盖面可以通过使用双语言术语对齐的技术来加以提升。语言理解助手的功能在于给用户提供软件工具来理解外语书写的文本,而不必使用全自动机器翻译的技术。本章介绍了施乐公司欧洲研究中心(Xerox Research Centre Europe,简称XRCE)的语言理解助手LocoLex和语义模型,并介绍了施乐公司使用语言助手来改善数字图书馆Callimaque的技术。
本章最后附有各章作者简介、计算语言学术语表、作者索引和主题索引,便于读者查阅。
三、简评
本书是手册性的专著,有如下三个明显特点:
1.深入浅出。本书各章写作风格一致,内容协调,浑然一体,特别适合对计算语言学感兴趣和初入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题,尤其适合文科背景的读者阅读。
2.专家执笔。本书的38章分别由各个领域内的46位知名专家执笔,由于这些专家具有所属领域的精湛知识,对于自己的领域有深刻的理解,有力地保证了本书的学术质量和专业水平。
3.涵盖全面。本书几乎涵盖了计算语言学的所有领域,反映了当前计算语言学的最新成就,使我们对计算语言学能够获得全面而系统的认识。
我国曾经翻译出版过有关计算语言学和自然语言处理的大部头专著,如冯志伟和孙乐翻译的《自然语言处理综论》(电子工业出版社,2005)被称为自然语言处理教材的“黄金标准”。但是,这部专著主要针对理工科背景的读者而写,数学公式较多,文科背景的读者阅读和理解起来常常会感到困难。与《自然语言处理综论》相比,本书尽量避免使用繁难的数学公式,文笔浅显而流畅,内容新颖而有趣,更适合文科背景的读者阅读。目前,计算语言学这个新兴的学科不仅吸引了大量理工科背景的研究人员,同时也有不少文科背景的研究人员投身到计算语言学的研究行列中来。本书的上述特点正好可以满足文科背景研究人员的需要。当然,由于本书内容涵盖面广、专业性强,对理工科背景的研究人员也有很大的参考价值。
自然语言处理范文4
【关键词】网页信息抽取;HTML;网页
1.现有的网页信息抽取方法
1.1基于自然语言处理方式的信息抽取
使用自然语言处理进行信息抽取,需要经过的处理步骤包括:句法分析、语义标注、专有对象的识别(如人物、公司)和抽取规则。具体说来就是把文本分割成多个句子,对一个句子的句子成分(part ofspeech,简称为POS)进行标记,然后将分析好的句子语法结构和事先定制的语言模式(规则)匹配,获得句子的内容即抽取信息。规则可由人工编制,也可从人工标注的语料库中自动学习获得。这类信息抽取技术中所用的抽取规则主要建立在词或词类间句法关系的基础上。
基于自然语言处理方式在含有大量自由文本且句子完整、适合语法分析的网页中的信息抽取取得了较好效果。这种方式的缺陷是:(1)将网页页面视为普通文本处理,没有充分利用网页文档独特于普通文本的层次特性。获得有效的抽取规则需要大量的样本学习,处理速度比较慢,这对于网上海量信息来说是一个大问题。
(2)网页页面中的文本通常不含有完整的句子,导致这种方法的适用范围较小。
1.2基于包装器归纳方式的信息抽取
包装器归纳法是一种自动构造包装器的技术。
主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页,这些例子就是高质量的。对于我们来说,提供好的样本网页要比提供明确的完整的规则要容易。
归纳学习法作为一种机器学习方法用来学习包装器的规则,优于手动生成包装器等其他包装器生成方法的地方在于:自动归纳规则,减轻了人力负担、减少了人为错误,并且当网页页面变化时,能对规则做适当调整,适应这种变化。
与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。这种方式更适合于网页页面的信息抽取,使用包装器能充分发掘网页页面的结构和格式特征,能避免使用复杂的语言学知识,加快信息抽取的速度。
使用包装器的困难在于:(1)包装器的针对性强,可扩展性差。一个包装器处理一种特定的信息源,从几个不同信息源中抽取信息,需要一系列的包装器程序库,造成巨大的工作量。
(2)可重用性差。包装器对页面结构的依赖性强,当出现一类新的网页页面或旧的网页页面结构变化时,原来的包装器就会失效,无法从数据源中获得数据或得到错误的数据,这就提出了一个新的问题—包装器的维护,即包装器失效时,如何修复失效的包装器使之继续正确抽取数据。
(3)缺乏对页面的语义理解。目前的包装器主要依赖于原网页或其后台数据库的模式,基本上是一种数据模式的还原,缺乏主动性的对数据的语义理解。
1.3基于Ontology方式的信息抽取
Ontology在哲学中泛指对客观世界的本体描述,在人工智能领域一般指智能系统中涉及的概念术语及其性质等静态知识的描述。基于Ontology的信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构的依赖较少。
该系统最大的优点是对网页结构的依赖较少,只要事先创建的应用领域的Ontology足够强大,系统可以对某一应用领域中各种网页实现信息抽取。
主要缺点是:(1)需要由领域专家创建某一应用领域的详细清晰的Ontology,工作量大。
(2)由于是根据数据本身实现信息抽取的,因此在减少了对网页结构依赖的同时,增加了对网页中所含的数据结构的要求。如要求内容中包含时间、日期、功号码等有一定格式的内容。
1.4基于HTML结构的信息抽取
该类信息抽取技术的特点是,根据网页页面的结构定位信息。在信息抽取之前通过解析器将网页文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。
以XWRAP为例进行分析。通过交互的方式,由用户在样本页中指定抽取区域的起始位置,系统确定整个抽取区域,并确定区域的类型(table,list等)然后通过可视化的方式,由用户在样本页中指定语义项(如表头)及与之对应的实例,系统自动产生抽取规则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成XML文档。
该系统对于不同的区域类型采用不同抽取规则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构的网页进行信息抽取,不支持对普通网页的抽取,模式的表达能力也非常有限,在学习阶段用户参与太多。
1.5基于网页查询的信息抽取
上述的信息抽取工具,采用了不同的原理,抽取,此均不具有通用性。基于网页查询的信息抽取,将网页信息抽取转化为使用标准的网页查询语言对网页文档的查询,具有通用性和良好的可扩展性。
常用的技术有:搜索引擎技术、网页查询语言技术和智能Agent技术。这三类方法各有优缺点。如搜索引擎技术具有查询条件简单的优点,但查准率和查全率不高,需要用户逐一浏览才能找到所需要的结果;网页查询语言技术具有查询精度较高的优点,但是目前没有统一的查询语言,查询时需要指定站点,应用面窄;将智能Agent技术应用于网页查询的优点是提高了查询工具的智能化和个性化,缺点是知识库的构造比较复杂,学习算法的优劣会直接影响查询结果的准确性。
2.网页信息抽取面临的挑战
(1)目前各类信息抽取技术中生成抽取规则的依据主要有三类:页面结构信息(HTML语法)、页面的内容和自然语言语义、语法信息。基于结构方式过分依赖网页的结构、可扩展性弱,基于内容方式又需要复杂的语言知识和自然语言处理技术。因此,应继续研究如何将基于结构方式和基于文本方式有效的结合起来克服各自的缺点。
(2)机器学习能提高获取规则的自动化程度,但通常需要大量的样本页面,而且需要经过较长时间的学习,信息抽取才能获得较好的查准率。需要研究如何简化机器学习的过程,在较短时间内准确获得需要的信息。
(3)网页上的信息内容和网页结构处于不断地更新和变化中,因此,时刻注意如何感知这种更新和变化,进而修改已有规则,保证信息抽取的正确性。
(4)无论是自然语言处理,还是包装器技术往往针对一个特定的信息源,一个特定主题和领域,每出现一个新的信息源就要重新构造一套抽取程序,造成系统的可扩展性差。因此,应研究如何最大程度地利用已有的资源(程序、数据等),通过最小程度地改造适应新的信息源,增强系统的可扩展性。 [科]
【参考文献】
[1]韩存鸽,燕敏. Web信息抽取方法研究[J].计算机系统应用,2009,(07).
[2]龙丽,庞弘燊.国外Web信息抽取研究综述[J].图书馆学刊,2008,(05).
[3]宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报, 2009,(04).
自然语言处理范文5
在互联网时代,用户对信息的需求已经发生了很大变化,人们大多借助百度和Google这样的搜索引擎来搜寻自己所需要的信息。但随着互联网信息量爆炸式的增长和个性化需求的增强,人们强烈需要在互联网中筛选出符合自己需求的精确信息,尤其是政府和企业等用户,更希望在搜索引擎的基础上进行深入的需求发掘,能够将信息升级为情报。
“智能计算在自然语言方面的处理就是帮助解决这一问题的。”海量信息技术有限公司副总裁兼首席科学家周富秋博士介绍说,在互联网信息挖掘中,智能计算是计算机利用存储与统计等特长模拟出人类智能效果的技术,通过一系列针对互联网数据的采集、分析、筛选、萃取等智能化技术手段,运用语义分析、数据挖掘、模式识别等一系列技术,从非结构化数据到结构化数据、从字符到语义,再进行海量计算后,将原始无序的数据转化成容易理解、价值较高的信息,进而再提炼出有价值的情报,供做决策依据。
对于信息情报方面的智能计算技术,周富秋做了进一步的解释,互联网拥有大量的数据和信息,目前主要采用了浅度智能自然语言处理技术(NPL Shallow),通过这种方式提取出来的内容是数据和信息,Google和百度等提供的搜索引擎就是这样实现的。
要想在数据和信息的基础上进行精加工,进而生产出精华――情报,需要采用一种叫做深度智能自然语言处理的技术(NPL Deep)。该技术建立在自然语言处理(Nature Language Process,NPL)的基础上,建立语料库,进行分类,然后建立规则表和词表。通过人工筛选出庞大语料库,按照事先设计的算法,对海量数据进行识别,从中找到对用户有用的信息和情报。
自然语言处理范文6
关键词: 自然语言理解; 语义相似度; 全文检索; 在线答疑系统
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2015)05-10-03
Abstract: The similarity calculation based on natural language understanding is still a research content of the computer language processing technology. Based on the knowledge representation of "HowNet", considering the both factors of depth and density, by using a more sophisticated multivariate semantic similarity algorithm, and with a full-text search matching technology, an online answer system in the limited field is designed and implemented. The experimental results show that, the system is reliable, the answer effect is more obvious, and the desired goal is achieved.
Key words: natural language understanding; semantic similarity; full text retrival; on-line answer system
0 引言
随着计算机网络技术的飞速发展,传统的教学手段已不能满足当前大信息量的教学内容需求,因此,创造一个在教师指导和引导下学生自主式学习的智能系统平台很有必要。智能的网络答疑系统可以利用自然语言处理技术对学生的疑问进行自动匹配处理,它的出现为网络教学提供了交互的情境,成为支持网络教学顺利进行的重要条件。智能网络答疑系统是传统课堂教学的重要补充,并逐渐在学生学习、认知、再学习这样一个闭环的学习过程中发挥着举足轻重的作用[1]。
1 设计思想及算法原理
基于计算机自然语言处理技术,充分利用校园网络资源,通过人机互动等丰富信息表现形式,实现一个智能的、高效的基于自然语言理解的专业课程自动答疑系统。系统设计的关键是如何实现快速、高效的智能搜索答案。该过程实际上类似于一个搜索引擎,其核心就是构建一个结构合理、具有完整丰富内容的知识库,并能够在自然语言理解的基础上,快速、准确的完成自动答疑工作。基于自然语言理解的在线答疑系统中两个关键技术分别是:中文分词技术和相似度计算。
1.1 中文分词技术
自然语言理解(Natural Language Understanding,简称NLU)研究如何让计算机理解和运用人类的自然语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过人机对话(man-machine dialogue)的方式,用自然语言进行回答。为了使计算机系统能够较好地理解用户提出的问题,首先需要对问题进行处理,这一过程最先用到的最为关键的技术就是分词技术【2,3】。由于中英文之间的语言组织、词法结构不同,使得中文分词一直以来成为制约中文自然语言处理的主要因素。而中文文本中,只是字、句和段之间可以通过明显的分界符来简单划界,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成,并且语句是连续书写的。这就要求在对中文文本进行自动分析之前,先将整句切割成小的词汇单元,即中文分词(或中文切词),相比英文语句处理,中文分词难度更大。
从算法处理上看,目前主要有三种【4-6】:一是基于词典的分词方法,它使用机器词典作为分词依据,分词效率高,目前应用范围较广;二是基于统计的分词方法,它是利用统计方法,通过对大规模文本的统计,让计算机自动判断的方法,该方法使系统资源开销较大;三是基于人工智能的分词方法,如专家系统和神经网络分词方法等,这类方法目前尚处于实验室阶段,尚未投入实际应用。
1.2 相似度处理技术
相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用[7]。其计算方法按照基于规则和统计分为两种情况:一是根据某种世界知识(如Ontology)来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度[8];二是利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据[9]。
⑴ 常用语义词典
对于基于语义词典的相似度计算方法,由于存在计算简单、基础条件低、假设条件易于满足等优点,受到越来越多研究者的欢迎。常用语义词典主要有[10-12]:WordNet、FrameNet、MindNet、知网(HowNet)、同义词词林、中文概念词典(CCD),以及叙词表、领域概念网、概念图等概念网络结构。本文对于相似度的计算主要是基于知网(HowNet)结构。其概念结构如图1所示。
⑵ 相似度计算
与概念相似度密切相关的一个概念是语义距离(semantic distance)。在一棵树形图中,任何两个节点之间有且只有一条路径,在计算语义相似度的时候,这条路径的长度就可以作为这两个概念的语义距离的一种度量,通常认为它们是概念关系特征的不同表现形式,两者之间可以建立一种简单概念词相似度用来描述概念树中两个节点之间的语义接近程度,一般最常用的是刘群提出的以《知网》为基础的相似度计算方法[13]:
式⑴中,p1和p2表示两个概念节点,dis(p1,p2)是树状结构中两节点间的最短距离,α是一个调节参数,表示相似度为0.5时的路径长度。
文献[14,15]综合考虑深度与密度因素,提出了多因素义原相似度计算方法:
式⑵中,h为义原树深度,l为LCN层次,LCN为最小公共父节点。
文献[16]认为该方法存在两点不足:一是该式仅把相似度取为密度、深度因素的算术平均值,显然对于概念节点分布不均的情况不够合理;二是该式没有对密度、深度两者的影响程度进行分析,这样对他的使用范围受到了限制。基于此考虑,提出了改进的语义相似度计算方法:
式⑶中,l(p1,p2)为分别遍历概念网中节点p1,p2到达其最小公共父结点所历经的父结点(包括最小公共父结点)数的最大值。w(p1,p2)为p1,p2所在层概念数的最大值。算法关键部分引进了一个调节参数λ(p1,p2),并保证在该参数的作用下,当节点p1,p2所在层概念数较多,即w(p1,p2)增大时,密度因素对相似度的贡献值大;而当p1,p2离最小公共父结点较远,即l(p1,p2)增大时,深度因素对相似度的贡献值较大。同时算法约定,当p1,p2的父结点和最小公共父结点相同,且同层只有p1,p2两个节点时,调节参数为0.5。该方法即为本文在相似度计算方面采用的算法模型。
2 模型设计
下面我们参考文献[17],按照一般教师对于问题的处理方式,在上述概念语义相似度计算的基础上,从计算机建模层面上给出计算机自动答疑模型的建模过程。
Step1:计算条件
已知标准问题库A可以表示为关键词序列:A=(a1,a2,…,an);学生提问B可以表示为关键词序列:B=(b1,b2,…,bn)。
Step2:相似度计算
⑴ 知识点关键词信息提取
该问题的处理主要通过提取学生问题中每一个关键词,对照系统知识库,从底层开始遍历搜索,当找到对应的概念节点时,提取该节点的高度、密度等属性信息,并保存起来,搜索完成后即可参加相似度的计算。
⑵ 概念相似度求解
概念相似度的计算采用语义相似度技术,设标准问题库A可以表示为知识点的一个向量组A=(a1,a2,…,an),循环遍历每一个学生输入的问题关键词序列,通过概念语义相似度算法可得到任意两概念之间的相似度Sim(ai,bj),其中i=1,2,…,m,j=1,2,…,n。
Step3:匹配结果输出
前面已经完成了输入问题和标准问题库之间的循环相似度匹配计算,为了将需要的信息提取出来,模型还需要设置一个阀值δ。通过阀值δ这个关卡,将相似度结果大于δ的问题提取出来,并按照降序排列输出即可。论文答疑系统模型建模流程如图2所示。
3 系统实现与验证
系统设计环境为Visual Studio 2005,数据库服务器为SQL Server 2000。采用B/S网络模型进行构架设计,按照系统功能需求划分为用户表示层、应用逻辑层和数据访问层三个层面。系统测试界面如图3所示。
如图3所示,在答疑系统界面中输入问句:“计算机包含哪些硬件?”,系统自动分词后生成的关键词语汇单元为:“计算机;硬件”(其中“包含;哪些”等作为停用词已经被过滤掉了),然后系统自动在数据库中检索匹配,最终反馈了12条相关结果,图3为部分结果截图。这里说明一点,反馈结果的多少取决于阀值δ,测试中我们选取的阀值δ为0.8,一般我们取阀值δ在0.8左右即可。
为了进一步验证系统的查询能力,我们将刚才的问句调整为:“计算机包含?”,这时系统自动分词后生成的汇单元只有一个关键词“计算机”,最终匹配结果如图4所示。
这里读者或许会发现,系统反馈回来的结果与问题毫不相关。其实,这并不是系统出错,而是“知网”概念网络中“计算机”与“硬件、软件”两个概念关系比较密切,表现为在概念网络中的节点位置较为接近,匹配结果相似度值较高,因此才有了上述的结果。也就是说,也许在某些时候当查询某个概念时,相近的结果就会被检索出来(或者当不确定查找的问题时,只需输入相近的问题,也会查询到想要的答案),这就是基于自然语言理解的语义相似度计算模型优势所在。
4 结束语
由于汉语词汇表达的复杂性和词汇语义概念较强的主观性,以及具体应用领域的专业性等因素影响,目前基于自然语言理解的相似度计算仍是计算机语言处理技术需深入研究的内容。本文在“知网”知识表示的基础上,充分考虑“知网”深度和密度因素影响,基于全文检索匹配技术,设计并实现了一个限定领域内的在线答疑系统,大量的运行结果证明了该系统是可靠的,达到了系统设计的目的。但在准确性方面还存在不足,从第一个测试中可以看出,提问人员真正需要的是:“计算机的硬件组成”。其重点关注的是计算机、硬件,而答案给出了太多的“计算机特点,计算机发展”等其他一些与“计算机”有关的匹配答案,其原因是关键词权重的影响因素没有体现出来,离真正的自然语言理解还存在一定的距离,这是系统下一步有待改进的地方。
参考文献:
[1] 冯志伟.自然语言问答系统的发展与现状[J].外国语,2012.35(6):28-30
[2] 黄,符绍宏.自动分词技术及其在信息检索中的应用研究[J].现代图书情报技术,2001.3:26-29
[3] 沈斌.基于分词的中文文本相似度计算研究[D].天津财经大学,2006:12-17
[4] 张波.网络答疑系统的设计与实现[D].吉林大学,2006:30-31
[5] 张丽辉.计算机领域中文自动问答系统的研究[D].天津大学,2006:14-18
[6] 朱.中文自动分词系统的研究[D].华中师范大学,2004:12-13
[7] 周舫.汉语句子相似度计算方法及其应用的研究[D].河南大学,2005:24-25
[8] 于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002.16(4):13-21
[9] 胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002.4:40-45
[10] Miller G A, Fellbaum C. Semantic network of English [M]//Levin B, pinker S. lexical & conceptual semantics. Amsterdam, Netherlands: E lsevier Science Publishers,1991.
[11] Baker C F. The Berkeley frameNet project [C]//Proceeding ofthe COLING -ACL.98.Montreal, Canada,1998:86-90
[12] 黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研究,2004.11:260-262
[13] 刘群,李素建.基于“知网”的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会论文集,2002:59-76
[14] AGIRREE, RIGAU G. A Proposal for Word Sense Disambigua-tion Using Conceptual Distance[EB/OL],1995:112-118
[15] 蒋溢,丁优,熊安萍等.一种基于知网的词汇语义相似度改进计算方法[J].重庆邮电大学(自然科学版),2009.21(4):533-537