标签: 词语质量

文本分词质量、文本特征评价以及降维处理

         对于文本的聚类处理,普遍方法是使用数字来表示文本集合,然后通过算法来处理表示的文本数据。
我使用分词器对文本集合进行分词,然后使用TFIDF向量数字化文本,对于普通的网页数据,分次下来词的数量可能会达到几千,然后文本越多,这个维度空间就越大,计算起来会很吃力。
         这里就会用到文本特征的降维处理,文本的数量不可减,只能通过优秀或者高质量的词来表示当前文档,降低词的数量,减少维度。
       文本中词的质量可以度量为一下的公式:
阅读全文——共1584字