Institute of Computing Technology, Chinese Academy IR
网络维吾尔文判别及其文本长度下界的探讨 | |
倪耀群1; 曹鹏1; 许洪波1; 唐慧丰2; 程学旗1 | |
2012 | |
发表期刊 | 中文信息学报 |
ISSN | 1003-0077 |
卷号 | 26.0期号:006页码:109 |
摘要 | 将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。 |
关键词 | 老维文 语种识别 最大公共子串 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/25621 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.解放军外国语学院 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 倪耀群,曹鹏,许洪波,等. 网络维吾尔文判别及其文本长度下界的探讨[J]. 中文信息学报,2012,26.0(006):109. |
APA | 倪耀群,曹鹏,许洪波,唐慧丰,&程学旗.(2012).网络维吾尔文判别及其文本长度下界的探讨.中文信息学报,26.0(006),109. |
MLA | 倪耀群,et al."网络维吾尔文判别及其文本长度下界的探讨".中文信息学报 26.0.006(2012):109. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[倪耀群]的文章 |
[曹鹏]的文章 |
[许洪波]的文章 |
百度学术 |
百度学术中相似的文章 |
[倪耀群]的文章 |
[曹鹏]的文章 |
[许洪波]的文章 |
必应学术 |
必应学术中相似的文章 |
[倪耀群]的文章 |
[曹鹏]的文章 |
[许洪波]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论