请注意,Zanblog并不支持低于IE8的浏览器,为了获得最佳效果,请下载最新的浏览器,推荐下载 Chrome
面包和信仰,前者使你可以活着,后者给你活着的理由.

一种基于规则和统计的新词发现的基本流程

02-22 36 views

新词发现是指从大量文本中挖掘出以前很少组合,现在组合在一起并被人们赋予涵义的一些词语组合。 此基本流程可用于发现领域类的新词,基本流程涉及的一些算法...
阅读全文 0

JAVA解决文本长度问题-标准化文本向量

04-12 302 views

     根据IFIDF对文本进行分词权重标记后,因为文本的长度各不一样,这就导致文本向量的数值差距明显,为了解决这个问题,我们可以将向量的长度都标准化为1,...
阅读全文 9

文本分词质量、文本特征评价以及降维处理

04-03 27 views

         对于文本的聚类处理,普遍方法是使用数字来表示文本集合,然后通过算法来处理表示的文本数据。 我使用分词器对文本集合进行分词,然后使用TFIDF向量...
阅读全文 0

文本聚类以及文本分类的相关资料

03-30 33 views

       谷歌新闻就是文本分类的应用体现,平时看着没发觉,去了解了才知道,这个东西属于BI方面,还有文本聚类,让机器实现无辅助的自动学习, 这几天在看这...
阅读全文 0