[讨论]

文本信息抽取的分阶段详细介绍

2019-9-16 15:03:58 2185

0 文本信息是有具体的单元结构组成，包括句子，段落，篇章。文本信息抽取是指对现有文本数据进行信息抽取的过程，抽取单位也有具体单位组成。比如抽取文本数据中的短语，人名，或者地名。从机器学习的角度分析，将文本信息抽取作为监督学习的一项具体运用。文本信息抽取可以分为两个阶段：学习阶段和抽取阶段。其过程如下图所示：学习阶段，首先有一些带标注的数据集，每一个样本包含文字单元序列和标注序列组成，机器学子系统基于已有的标注构建一个学习模型，并用一个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布模型，对新的样本进行标注。文字单元在具体的实现中可以是一个文本、一个句子、一个词语，甚至还可以是中文的一个字，标注可能是表示信息抽取对象的开始、结束以及其他。抽取的信息将从开始到标注为结束的文字序列。文本信息抽取常用的模型有：隐马尔科夫模型、最大熵马尔科夫模型、条件随机场、表决感知机模型。这些模型是上述一般文本信息抽取的具体实现。 NLPIR大数据语义智能分析平台在文本信息提取介绍方面，能够实现新词提取和关键词提取。新词发现能从文本中挖掘出具有内涵的新词、新概念，用户可以用于专业词典的编撰，还可以进一步编辑标注，导入分词词典可提高分词系统的准确度，并适应新的语言变化。新词提取内容包括：词语、词性、权重和词频统计。本步骤所得到的新词，可以作为分词标注器的用户词典导入，从而使分词结果更加准确。关键词提取能够对单篇文章或文章集合，提取出若干个代表文章中心思想的词汇或短语，可用于精化阅读、语义查询和快速匹配等。关键词提取能够对单篇文章或文章集合，提取出若干个代表文章中心思想的词汇或短语，可用于精化阅读、语义查询和快速匹配等。关键词分析内容包括：词语、词性、权重和词频统计。系统默认词汇以权重值高低排序。同时，NLPIR大数据语义智能分析平台能够实现对于新词、关键词提取结果的高维可视化展示，可视化形式有三种：文本格式、二维格式与三维格式。用户可根据需要直接使用，无须再次设计美化。 0
2019-9-16 15:03:58　　评论淘帖0 举报相关推荐 • 基于GA和信息熵的文本分类规则抽取方法 26 • 什么是文本事件抽取？ 2792 • 开放域信息抽取和文本知识结构化的3篇论文详细解析 3351 • 分阶段详解GPT的整个训练流程 29280 • 分阶段雷达的电源解决方案 1091 • 基于XML特征的网页文本抽取方法 0 • 基于面向文本标题的任务关系抽取 0 • 苹果AI功能被曝将分阶段缓慢推出 1565 • 超文本传输协议（HTTP）的详细介绍 9835 • 基于子树广度的Web信息抽取 14