`
guoyunsky
  • 浏览: 839358 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:203258
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论
文章列表
     本人新浪微博:http://weibo.com/guoyunsky        慢慢的要写些shell,这里介绍由浅入深的整理下shell传参。包括以下几个脚本:         1.pass-parameters-1.sh:简单的传参,包括一些变量介绍         2.pass-parameters-2.sh:shell里面方法调用方法的传参         3.pass-parameters-3.sh:传参时使用默认值         4.pass-parameters-4.sh判断参数是否正确         5.           直接贴代码吧. ...
        刚接触setuptools时为之困惑了一段时间,以为只是一个帮助安装的工具而已。使用之后,才感觉有点类似Java里面的ant,maven。比如下载所需要的包,打包,发布,单元测试等。对于setuptools的介绍资料很多,我也是借助这些资料慢慢对setuptools有了一定的了解。但具体编码的貌似很少,我就写点吧,由浅入深。 具体的安装等可以看这篇文章介绍得很详细:http://www.cnblogs.com/itech/archive/2011/02/13/1953268.html我这里简单的使用介绍也是摘自里面。 一.简单的使用: 直接新建个python脚本:set ...
          本博客属原创,转载请注明出处:http://guoyunsky.iteye.com/blog/1654505         开始要使用开源日志收集系统scribe去收集日志,花了一点时间整理了下它的各种参数.由于只是学习阶段,难免理解/翻译有误,以后再使用过程中再慢慢整理修改总结吧.    一.scribe配置参数的两种方式: 1) 通过命令行,-c commandname 2) 通过指定配置文件   二.全局参数 1)port: (number) scribe监听的端口
      以前接触过JavaCC,但没怎么深入.周末花了点时间大概学习了下.至于概念性的东西,网上一搜一大把,这里还是实战为主.一步步的深入.毕竟这东西不常用,哪天突然要用了,回过来看下,或许就能想起.由于我也是初学,博客顶多充其量是个笔记.希望对自己有用的同时,对大家也有用.       JavaCC也算得上是一门语言了,不过比较特殊.以前看Lucene源码的时候接触过,但由于Lucene的搜索语法并不复杂,所以大概看了下便能看懂.最近开始看Pig源码,其中Pig Latin也是通过JavaCC解析.由于Pig Latin相对复杂.可能Lucene只是实现SQL中的like,而Pig则 ...
       由于要在开发机器上源码调试Pig,同时也要在单机上通过PIG_HOME/bin/下的pig脚本去执行Pig,以及在内网集群,生产环境上运行Pig...所以不同的配置环境会导致一些问题,比如Lzo压缩.有时明显你机器上安装了lzo,你CLASS_PATH中也加载hadoop这些配置,但还是不行.所以花了点时间,看了下Pig这方面的源码,终于搞明白.这里分享下.        pig中最终的配置都由java.util.Properties管理。通过以下四种方式来加载Pig运行所需要的配置。 1)从System.getProperty("user.home") ...
     由于要开始整Storm,并且是源码级的.所以开始学习Clojure.以前听说过函数式编程,也听人说Erlang的牛逼,接触了Clojure才知道,原来Clojure就是JVM中的Erlang.网上基于Ubuntu环境下开发Clojure的资料太少,这里我整理下,实质上是相当简单!        1.安装Clojure:           可以手动的方式,但我没有尝试,具体可以看这篇博客,写的很详细:http://riddell.us/ClojureOnUbuntu.html            Ubuntu只要简单的一条命令就可以搞定:            sudo ...
  本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1420402    欢迎加入Hadoop超级群: 180941958         lzo压缩已经广泛用于Hadoop中,至于为什么要在Hadoop中使用Lzo.这里不再重述.其中很重要的一点就是由于分布式计算,所以需要支持对压缩数据进行分片,也就是Hadoop的InputSplit,这样才能分配给多台机器并行处理.所以这里花了一天的时间,看了下Hadoop lzo的源码,了解下Hadoop lzo是如何做到的.        其实一直有种误解,就是以为lzo本身是支持分布式的, ...
       Nagios监控/预警Java程序网上资料貌似不多,只能自己一步步尝试.经过今天一天的尝试,终于搞定.这里贴出来跟大家分享,希望抛砖引玉!        这里需要两个步骤,一个是安装好Naigos,我之前博客有说明:http://guoyunsky.iteye.com/ ...
     本人新浪微博:http://weibo.com/guoyunsky       最近要写一个独立的Java程序去监控Hadoop和Oozie,通过Shell去调用.写代码到现在也4年多了,貌似就从来没在生产环境中写过一个独立的Java程序,不是部署到Tomcat就是直接丢给Hadoop.于是参考Hadoop等开源环境,自己写了一个demo,并且可以通过Ant打包生成可运行的程序.所以这里有三步:Java程序,Shell,Ant      1.首先建立Java程序,由于是例子,所以这里很简单,只是输出传入参数的个数,代码如下: package com.guoyun.study. ...
      由于需要用Nagios+Ganglia监控Hadoop集群,所以这里开始了Nagios+Ganglia的旅程.Nagios官网上资料已经很详尽,但在Ubuntu上安装Nagios方面,只停留在Ubuntu 6.10和Ubuntu 7.10版本.而在Ubuntu11.10或Ubuntu10.04上安装有些错误,所以这里记录下来.具 ...
    本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1396801   欢迎加入Hadoop超级群: 180941958        最近开始监控Oozie所有workflow job,比如跟踪所有workflow job,有失败的job就邮件等通知.或者重启失败的job等. 这个异常就是发生在rerun的过程中.完整的异常如下: Unknown exception in doAs java.lang.reflect.UndeclaredThrowableException: Unknown exception in d ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1392535  欢迎加入Hadoop超级群: 180941958                  今天下午碰到了一个诡异的Sqoop问题,一开始认为是奇迹,后来在牛人的协助下才终于找出原因.这里记录下.       我这里通过Sqoop从Mysql中导数据到HDFS,再从HDFS中读取这些数据.我们知道Sqoop会通过SQL语句先获取表结构,然后生成相应的Java类.后来我更改了SQL语句,如之前SELECT AGE,NAME FROM USER;AGE是数值型,NAME是VARCH ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1391975  欢迎加入Hadoop超级群: 180941958           网上中文资料有点少,我这里翻译下官网.对自己也是个梳理,希望对大家也有用.             Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.        Oozie工作流中拥有多个Action,如Hadoop Map/Reuce job,Ha ...
  本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1317084   欢迎加入Hadoop超级群: 180941958        我这里以Mysql 5.1.x为例,Pig的版本是0.8     同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下:     tmp_file_1: zhangsan 23 1 lisi 24 1 wangmazi 30 1 meinv 18 0 dama 55 0    tmp_file_2: 1 a 23 bb ...
       网上有很多教程,这里我自己做下整理,省得有时忘记,有道是好记性不如烂博客!          先大概描述下Git的各种命令:           git init                     #初始化           git clone                  #将远程项目拷贝到本地           git add                    # 提交文件更改(修改和新增)           git commit              # 基于当前分支提交修改           git reset           ...
Global site tag (gtag.js) - Google Analytics