一种基于规则和统计的新词发现的基本流程 2011/02/22 后端杂文hidehai发表留言 新词发现是指从大量文本中挖掘出以前很少组合,现在组合在一起并被人们赋予涵义的一些词语组合。 此基本流程可用于发现领域类的新词,基本流程涉及的一些算法: 模型算法:VSM 统计算法:bi-gram(二元…
文本聚类以及文本分类的相关资料 2010/03/30 后端杂文hidehai发表留言 谷歌新闻就是文本分类的应用体现,平时看着没发觉,去了解了才知道,这个东西属于BI方面,还有文本聚类,让机器实现无辅助的自动学习, 这几天在看这个东西,网络上大多是些理论资料,聚类是实现算…