自然语言处理是计算机对自然语言 所包含的字形、读音和含义等信息进行处理,包括对字、词、句和篇章的输入输 出、识别分析、理解生成等操作和加工,是当前人工智能研究的核心课题之一。NLPIR大数据语义智能分析平台是一个全链条的分析工具,今天为大家详细介绍一下NLPIR平台的自然语言处理部分的功能。 语言统计 语言统计功能针对切分标注结果,系统可以自动地进行一元词频统计、二元 词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自 动给出相应的英文解释。词频统计及翻译分析结果有四个Excel输出文件。其中, 一元概率指的是单个词独立出现的概率,信息熵指的是该词包含的信息广度,其 公式为:H(X)=–∑P(X)logP(X)。 n 1 (1)按词频排序的统计结果文件 按词频排序的统计内容如下,包括:词语、词性、词频、一元概率、信息熵 与译文。 (2)按字典排序的词频统计文件 输出到一个名为FreqSortByWord的文件,按字典排序词频统计结果包括:词 频统计结果(总词数与平均频率)、词语、词性、词频、一元概率与信息熵。 (3)Bigrams输出文件 输出到一个名为Bigrams的文件,Bigrams结果包括:二元词对总数、前一个词、 后一个词、共现频次与二元词对信息熵。共现频次指的是两个词以前后顺序同时出 现的频率,二元词对信息熵指的是这两个词包含的信息广度。 (4)文件统计信息输出文件 文件统计结果包括:文档名、总词频、总词数、用户词典总词频与用户词典 总词数。 批量分词 对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及 词性标注。可在分析过程中导入用户定义的词典。 目前多数的分词算法都采用规则和统计相结合的方法,这样做的目的是为了 降低统计对语料库的依赖性,可以将已有的词法信息进行充分利用,同时还能弥 补规则方法的不足。现在经常使用方法是利用词典进行初次切分,得出切分结果 后,使用其他的概率统计方法和简单规则消歧进行未登录词的识别。NLPIR分词 法(Chen et al. 2014)利用词典匹配进行初词切分,得到词切分图后,利用词频信 息求词图N条最短路径的N最短路径法。 新词发现 新词发现模块包括新词提取与关键词提取两个功能。 系统可实现对于新词、关键词提取结果的高维可视化展示,可视化形式有三种:文 本格式、二维格式与三维格式。用户可根据需要直接使用,无须再次设计美化。 新词发现能从文本中挖掘出具有内涵的新词、新概念,用户可以用于专业词 典的编撰,还可以进一步编辑标注,导入分词词典可提高分词系统的准确度,并 适应新的语言变化。 关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的 词汇或短语,可用于精化阅读、语义查询和快速匹配等。 (1)新词提取 新词提取内容包括:词语、词性、权重和词频统计。本步骤所得到的新词, 可以作为分词标注器的用户词典导入,从而使分词结果更加准确。 (2)关键词提取 关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的 词汇或短语,可用于精化阅读、语义查询和快速匹配等。关键词分析内容包括: 词语、词性、权重和词频统计。系统默认词汇以权重值高低排序。 NLPIR大数据语义智能分析平台为语义分析提供数据和技术支持,在大数据 背景下,可以满足常见的需求,支持用户专业词典与微博分析、支持多种编码、 多种操作系统、多种开发语言与平台。一方面为语言处理,提供友好、实用的工 具,另一方面为软件开发人员和研究人员提供二次开发的接口满足特定的空间信 息处理和应用程序的需要;同时也为研究者提供统计数据和实例支撑。
|