JAVA通过搜狗词库过滤指定词性-51CTO荐 2010/04/09 后端杂文hidehai发表留言 在测试过程中需要从文本中拿到指定词性的词,比如名词或者动词,各种词性的定义我们可以依靠搜狗的语料库来实现,从搜狗实验室下载到词库后解压可以看到搜索词库的格式: 图中的数据表示:词、在互联网的词频…
JAVA取数组中指定数量的最大值 2010/04/09 后端杂文hidehai发表留言 _termsMax为各个分词的词频 通过循环取得最大词频的下标,在通过_terms就能得到词。 /** 阅读全文——共454字
文本分词质量、文本特征评价以及降维处理 2010/04/03 后端杂文hidehai发表留言 对于文本的聚类处理,普遍方法是使用数字来表示文本集合,然后通过算法来处理表示的文本数据。 我使用分词器对文本集合进行分词,然后使用TFIDF向量数字化文本,对于普通的网页数据,分次下…
文本聚类以及文本分类的相关资料 2010/03/30 后端杂文hidehai发表留言 谷歌新闻就是文本分类的应用体现,平时看着没发觉,去了解了才知道,这个东西属于BI方面,还有文本聚类,让机器实现无辅助的自动学习, 这几天在看这个东西,网络上大多是些理论资料,聚类是实现算…
quartz–Spring下的任务控制 2010/03/22 后端杂文hidehai发表留言 一个扯蛋很久的问题,使用spring配置的quartz一直不稳定,开始的内存溢出后来的SQL错误,今天上午又回过头去看了下代码,重新分析了自己写的JDBC工具类,把数据库连接的打开和关闭全部移动到了上…
在Lucene中使用了庖丁解牛,效果还不错 2010/03/17 后端杂文hidehai发表留言 最近在搞Lucene,其中官方自带的中文分词器,对中文的支持我觉得相当的不好,只能说它支持,在分词上还不能满足应用的需要。 然后就寻觅到了这个庖丁解牛分词器,提供自定义字典、实现了L…
基于URL资源控制的JAVA权限管理 2010/02/27 后端杂文hidehai2条留言 java下的权限管理自己一直也没做过,只清楚大概流程,之前看到过asp和php下的权限设计,一些php语言的cms中的权限设计我觉得很好,还有像Dz论坛的权限设计,感觉很灵活,使用…
List分页代码-JAVA 2009/12/17 后端杂文hidehai 之前项目里用的Hibernate分页,结果出现了BUG,最后优化代码就将数据库结果查询出来装载到list中,对list进行操作分页。 下面代码部分,分为ListHelper.java/Paginati…
生产者-仓库-消费者 2009/11/25 后端杂文hidehai发表留言 发现一个单词 Z-turn 据说是“折腾”这个词的英译,好传神的说。 生产者-仓库-消费者,任何语言里都会有的东西,如同Hello!,更应该说是计算机基础里的东西,还依稀记得曾经的一课本上看到过它。…
郁闷,被action null 折腾了 2009/11/07 后端杂文hidehai4条留言 下午在把练习项目的各个模块基础搭建起来后,加上log4j来跑了下,竟然出来了严重错误:action null,昨晚关机前测试了都没有问题,还更新到了SVN,网上搜索了一下发现有人说是因为…