标签: 文本模长

JAVA解决文本长度问题-标准化文本向量

     根据IFIDF对文本进行分词权重标记后,因为文本的长度各不一样,这就导致文本向量的数值差距明显,为了解决这个问题,我们可以将向量的长度都标准化为1,计算IFIDF后,根据公式:

就是分别对文本的分词计算如上公司,就将每个文本的分词表示成了模长都为1的向量。
下面是java代码:
阅读全文——共243字