完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。 本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,得到了一个简单的汉语依存句法分析器。 开源项目 本文代码已集成到HanLP中开源:(hanlp网站自己搜索一下吧,论坛不让发链接) 基本思路 统计词语WordA与词语WordB构成依存关系DrC的频次,词语WordA与词性TagB构成依存关系DrD的频次,词性TagA与词语WordB构成依存关系DrE的频次,词性TagA与词词性TagB构成依存关系DrF的频次。为句子中词语i与词语j生成多条依存句法边,其权值为上述四种频次的综合(主要利用词-词频次,其余的作平滑处理用)。取边的权值最大的作为唯一的边,加入有向图中。 在有向图上使用Prim最大生成树算法,计算出最大生成树,格式化输出。 模型训练 简单地统计一下清华大学语义依存网络语料,得到如下结果: @符号连接起两个词汇或词性,用<>括起来的表示词性,否则是词汇。如果@后面没有内容,则表示频次,否则表示一些依存关系与其出现的频次。 依存句法分析 分词标注 以“我吃米饭”为例,先进行分词与词性标注,结果: 生成有向图 由于依存句法树中有虚根的存在,所以为其加入一个虚节点,这样一共有四个节点: 每个节点都与另外三个构成一条有向边,一共4 * 3 = 12 条: 1. ##核心##/root 到 我/rr : 未知 10000.0 2. ##核心##/root 到 吃/v : 未知 10000.0 3. ##核心##/root 到 米饭/n : 未知 10000.0 4. 我/rr 到 ##核心##/root : 核心成分 6.410175 5. 我/rr 到 吃/v : 施事 21.061098 经验者 28.54827 目标 33.656525 受事 37.021248 限定 43.307335 相伴体 48.00737 关系主体 53.115623 内容 53.115623 来源 64.101746 6. 我/rr 到 米饭/n : 限定 22.2052 施事 48.00737 受事 57.170277 目标 57.170277 经验者 64.101746 连接依存 64.101746 7. 吃/v 到 ##核心##/root : 核心成分 1.7917595 8. 吃/v 到 我/rr : 连接依存 96.688614 介词依存 107.67474 施事 107.67474 9. 吃/v 到 米饭/n : 限定 24.849068 10. 米饭/n 到 ##核心##/root : 核心成分 37.077995 11. 米饭/n 到 我/rr : 连接依存 113.2556 12. 米饭/n 到 吃/v : 受事 0.6931472 其中“未知”表示边不存在,“受事”“施事”表示依存关系,后面的小数表示权值。我对概率取了负对数,所以接下来用加法求最小生成树即可。 最小生成树 关于最小生成树的Prim算法请参考《最小生成树算法初步》,这里必须有所改动,由于虚根有且只能有一个孩子,所以虚根必须单独计算: |
|
|
|
只有小组成员才能发言,加入小组>>
「含关键代码」基于AM3352/AM3354/AM3359的Linux开发案例分享
4880 浏览 0 评论
87375 浏览 0 评论
【高手问答】如何做到精通linux技术?资深工程师带你突破难点
4700 浏览 2 评论
3590 浏览 2 评论
解读Linux :先从创建一个文件夹用来存放jdk压缩文件开始
2465 浏览 0 评论
1976浏览 3评论
这是i.mx6ull的关于usb的宏定义,能解释下这些宏定义的意思
1336浏览 1评论
1246浏览 1评论
求解:aarch64交叉编译工具已经安装成功,环境变量已经配置,怎么将系统架构切换为ARM的架构
1315浏览 0评论
电脑和虚拟机可以互ping,电脑和开发板也可以互ping,但是虚拟机和开发板ping不通是什么原因
1221浏览 0评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-12-3 04:41 , Processed in 1.011622 second(s), Total 73, Slave 54 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号