tfidf – HideHai‘s Blog

一种基于规则和统计的新词发现的基本流程

新词发现是指从大量文本中挖掘出以前很少组合，现在组合在一起并被人们赋予涵义的一些词语组合。此基本流程可用于发现领域类的新词，基本流程涉及的一些算法：模型算法：VSM 统计算法：bi-gram(二元…

根据IFIDF对文本进行分词权重标记后，因为文本的长度各不一样，这就导致文本向量的数值差距明显，为了解决这个问题，我们可以将向量的长度都标准化为1，计算IFIDF后，根据公式：就是分别对文…

对于文本的聚类处理，普遍方法是使用数字来表示文本集合，然后通过算法来处理表示的文本数据。我使用分词器对文本集合进行分词，然后使用TFIDF向量数字化文本，对于普通的网页数据，分次下…

谷歌新闻就是文本分类的应用体现，平时看着没发觉，去了解了才知道，这个东西属于BI方面，还有文本聚类，让机器实现无辅助的自动学习，这几天在看这个东西，网络上大多是些理论资料，聚类是实现算…