中国科学院计算技术研究所机构知识库

Institute of Computing Technology, Chinese Academy IR

图片搜索

粘贴图片网址

CSpace > 中国科学院计算技术研究所期刊论文 > 中文

	基于大规模语料库的新词检测
	崔世起 1; 刘群 1; 孟遥 2; 于浩 2; 西野文人 2
	2006
发表期刊	计算机研究与发展
ISSN	1000-1239
卷号	43.0 期号:005 页码:927
摘要	自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
关键词	新词垃圾串垃圾头垃圾尾独立词概率
语种	英语
文献类型	期刊论文
条目标识符	http://119.78.100.204/handle/2XEOYT63/34710
专题	中国科学院计算技术研究所期刊论文_中文
作者单位	1.中国科学院计算技术研究所 2.中国科学院大学
第一作者单位	中国科学院计算技术研究所
推荐引用方式 GB/T 7714	崔世起,刘群,孟遥,等. 基于大规模语料库的新词检测[J]. 计算机研究与发展,2006,43.0(005):927.
APA	崔世起,刘群,孟遥,于浩,&西野文人.(2006).基于大规模语料库的新词检测.计算机研究与发展,43.0(005),927.
MLA	崔世起,et al."基于大规模语料库的新词检测".计算机研究与发展 43.0.005(2006):927.

条目包含的文件
条目无相关文件。

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[崔世起]的文章

[刘群]的文章

[孟遥]的文章

百度学术

百度学术中相似的文章

[崔世起]的文章

[刘群]的文章

[孟遥]的文章

必应学术

必应学术中相似的文章

[崔世起]的文章

[刘群]的文章

[孟遥]的文章

相关权益政策

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量15254
全文量1330
访问量526819
下载量9