Institute of Computing Technology, Chinese Academy IR
社会媒体短文本内容的语义概念关联和扩展 | |
肖永磊1; 刘盛华1; 刘悦1; 程学旗1; 赵文静2; 任彦3; 王宇平2 | |
2014 | |
发表期刊 | 中文信息学报 |
ISSN | 1003-0077 |
卷号 | 28.0期号:004页码:21 |
摘要 | 随着微博、照片分享等社会化媒体的快速发展,每天产生了大量的短文本内容如评论、微博等,对其进行深入挖掘有重大的应用价值和学术意义.该文选取微博作为例子,详细阐述我们提出的方法.微博信息流因其简短和实时的特性而具有非常大的价值,已经成为市场营销,股票预测、舆情监控等应用的重要信息源.尽管如此,微博内容特征极其稀疏、上下文语境提取困难,使得微博信息的挖掘面临着很大挑战.因此,我们提出一种基于Wikipedia的微博语义概念扩展方法,通过自动识别那些与微博信息语义相关的Wikipedia概念来丰富它的内容特征,从而有效提高微博信息数据挖掘和分析的效果.该文工作首先通过可链接性剪枝、概念关联和消歧,发现微博信息中重要的n-gram所对应的Wikipedia概念;其次,采用基于概念文档关联矩阵的NMF分解(非负矩阵分解)方法获取Wikipedia概念之间的语义近邻,为微博信息扩展相关的语义概念.基于TREC 2011的微博数据集和Wikipedia 2011数据集进行实验,与已有两个相关研究工作比较,该文提出的方法取得了较好的效果. |
关键词 | 短文本 概念 非负矩阵分解 锚文本 语义相似度 概念消歧 Wikipedia |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/33343 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.西安电子科技大学 3.国家计算机网络应急技术处理协调中心 |
第一作者单位 | 中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 肖永磊,刘盛华,刘悦,等. 社会媒体短文本内容的语义概念关联和扩展[J]. 中文信息学报,2014,28.0(004):21. |
APA | 肖永磊.,刘盛华.,刘悦.,程学旗.,赵文静.,...&王宇平.(2014).社会媒体短文本内容的语义概念关联和扩展.中文信息学报,28.0(004),21. |
MLA | 肖永磊,et al."社会媒体短文本内容的语义概念关联和扩展".中文信息学报 28.0.004(2014):21. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[肖永磊]的文章 |
[刘盛华]的文章 |
[刘悦]的文章 |
百度学术 |
百度学术中相似的文章 |
[肖永磊]的文章 |
[刘盛华]的文章 |
[刘悦]的文章 |
必应学术 |
必应学术中相似的文章 |
[肖永磊]的文章 |
[刘盛华]的文章 |
[刘悦]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论