分类: 数据处理

Storm学习笔记二

前面了解了Storm的一些基本概念,这篇笔记来搭建一个日志收集系统,Storm在系统中充当一个管道和过滤器,实现从Redis上读取数据,并进行数据索引。

这是架构的一个演变,通过第一种方式,就能实现最基本的日志收集和展示,这里加入redis和storm,提高系统的性能和扩展性。
依赖环境:
阅读全文——共4037字

Storm学习笔记一

 
基本概念:
Topology(计算拓补): 一个实时计算应用程序的逻辑在storm里面被封装到topology对象里面,一个storm的topoloy会一直运行,直到显式的杀死它。
Streams(消息流):消息流是storm里面的最关键的抽象对象。一个消息流是一个没有边界的tuple序列, 而这些tuples会被以一种分布式的方式并行地创建和处理.
阅读全文——共605字

kettle任务的远程执行

突然发现博客中还没有一篇关于kettle这个工具的文章,自己使用这个工具还是蛮久了,在数据处理方面的确是没有发现出其二的产品。
之前我有篇博客是介绍jaspersoft的,其中提到了pentaho的开源BI解决方案,这个kettle其实就是pentaho下的一个子工具,虽然自己被pentaho坑了一道,不过发现kettle这个工具也还是不错了。
刚说到数据处理,看下kettle在百科上的介绍:
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
阅读全文——共1441字

基于JasperReport的报表方案实现

从昨年就开始为公司寻觅一个报表工具,最开始接触了pentaho,结果给自己挖了好大一个坑,跳进去扑腾了两个月还差点没跳出来,
今年翻年过来又继续折腾,接着发现了JasperSoft,前车之鉴,这次准备两套方案,一是使用外部开源平台即JasperSoft套件,二是内部开发一套报表工具。
从功能、成本等方面评估后,还是选择了第一方案。
接着又是接近3个月的折腾,需求、方案、评估,折腾到6月,这货还是将就着上线了,从业务反应来看,这货卖相还不够好,有些地方业务吐槽,关键是报表的开发人员也一起吐槽,最后反馈到我这里来我只有一边表示压力大一边呵呵了。
阅读全文——共2235字

误删mysql.sock

 
这个文件应该是mysql下的用于客户端和服务端连接的一个设备文件,本来是是打算更改一下路径,对mysql不熟悉,改了配置文件后,启动不起来,左右折腾后把这个文件给删了。
后来发现启动链接数据文件都需要这个文件。使用如下命令即可修复此问题:
mysqld_safe –user=root&
阅读全文——共188字

Mysql对大量查询的优化

        Mysql中很常用的LIMIT在数据量很大时,查询后面的结果就会变的很慢。
在网络上搜索了下,在偏移越大时使用带Limit的子查询时,效率会高于直接使用Limit的查询语句,那就来验证一下吧..
150w行数据,得出第一次查询时间:
    SELECT * FROM commodity    where id >=(SELECT id FROM commodity limit 1000000,1) limit 50
阅读全文——共313字

Power Designer 12.5破解文件

这个建模软件的破解版还真不好找,把破解文件放上来备用,安装文件从官网下载就好。
直接安装文件,选择试用期15天,安装好好之后,替换DLL文件,然后从软件Tools菜单下导入许可证文件,然后没有了..
发现Wp升级后还不能上传RAR文件了,提示“文件类型不符合安全规则”,这个问题可以通过安装插件和修改配置解决,还以为是服务器给限制了,真囧。。
点击下载:powerdesigner12破解文件

安装了MSSQL 2008 感觉还不错

       有很久没有用MS的数据库了,今天公司检修停电,项目得托回来做,MSSQL2008,自己没有就只有去下载了安装,本来公网上有数据的,不过想着会很卡也就没去折腾,之前听说外网连不上。
     感觉安装起来还是比2000舒服多了,2005我直接没怎么用过,倒是在选择用户和口令的时候会让人很头疼,安装程序建议选择独立,我是测试加开发所以直接用system就好了~~
     把JAVA项目部署起来后,发现数据库连不上,好纠结的问题,不过还好几下就解决了,因为MSSQL默认是用Shared Memory协议来通信,TCP/IP协议默认是禁用了的,在SQL配置管理器启用TCP,然后重启服务就可以解决连不上的问题,也不知道是不是在安装的时候没有选择正确。
阅读全文——共847字