Institute of Computing Technology, Chinese Academy IR
基于N—最短路径方法的中文词语粗分模型 | |
刘群; 张华平 | |
2002 | |
发表期刊 | 中文信息学报 |
ISSN | 1003-0077 |
卷号 | 16.0期号:005页码:1 |
摘要 | 预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率,准确率,运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的,高召回率的,中间结果。本文提出了一种基于N-最短路径方法的粗发模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一人月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用,有效的词语粗分手段。 |
关键词 | N-最短路径方法 中文词语粗分模型 中文词语分析 预处理 统计模型 中文信息处理 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/35166 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 中国科学院计算技术研究所 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 刘群,张华平. 基于N—最短路径方法的中文词语粗分模型[J]. 中文信息学报,2002,16.0(005):1. |
APA | 刘群,&张华平.(2002).基于N—最短路径方法的中文词语粗分模型.中文信息学报,16.0(005),1. |
MLA | 刘群,et al."基于N—最短路径方法的中文词语粗分模型".中文信息学报 16.0.005(2002):1. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[刘群]的文章 |
[张华平]的文章 |
百度学术 |
百度学术中相似的文章 |
[刘群]的文章 |
[张华平]的文章 |
必应学术 |
必应学术中相似的文章 |
[刘群]的文章 |
[张华平]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论