用JAVA实现的一种改进的K均值聚类算法流程 2010/04/09 后端杂文hidehai3条留言 最近一直在搞这个改进算法,主要是涉及到特征降维和初始中心的选择。 通过分词的质量来实现降维在之前的博文中已经提到过了,用代码实现后,发现降维后的数据在时间上能提高…
文本分词质量、文本特征评价以及降维处理 2010/04/03 后端杂文hidehai发表留言 对于文本的聚类处理,普遍方法是使用数字来表示文本集合,然后通过算法来处理表示的文本数据。 我使用分词器对文本集合进行分词,然后使用TFIDF向量数字化文本,对于普通的网页数据,分次下…