JAVA解决文本长度问题-标准化文本向量 2010/04/12 后端杂文hidehai9条留言 根据IFIDF对文本进行分词权重标记后,因为文本的长度各不一样,这就导致文本向量的数值差距明显,为了解决这个问题,我们可以将向量的长度都标准化为1,计算IFIDF后,根据公式: 就是分别对文…
用JAVA实现的一种改进的K均值聚类算法流程 2010/04/09 后端杂文hidehai3条留言 最近一直在搞这个改进算法,主要是涉及到特征降维和初始中心的选择。 通过分词的质量来实现降维在之前的博文中已经提到过了,用代码实现后,发现降维后的数据在时间上能提高…
文本聚类以及文本分类的相关资料 2010/03/30 后端杂文hidehai发表留言 谷歌新闻就是文本分类的应用体现,平时看着没发觉,去了解了才知道,这个东西属于BI方面,还有文本聚类,让机器实现无辅助的自动学习, 这几天在看这个东西,网络上大多是些理论资料,聚类是实现算…