`
guoyunsky
  • 浏览: 838774 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:203137
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论
文章列表

一些复杂的Mysql语句

    博客分类:
  • DB
      微博:http://weibo.com/guoyunwb      很久没写过SQL了,还记得是第一份工作的时候,做增删改查,好好的练了下SQL。后来一直做些底层的工作SQL就没怎么写过了。       现在加入了一家创业公司,什么都要去接触下.有同事纠结于一些SQL的写法,我尝试着写下.顺便这里就记录下。这里主要基于MYSQL。       首先创建临时表以及插入临时数据        DROP TABLE IF EXISTS TMP_A; DROP TABLE IF EXISTS TMP_B; CREATE TEMPORARY TABLE TMP_A(C1 IN ...
    微博:http://weibo.com/guoyunwb       start-stop-daemon是一个很优秀的后台运行管理程序,采用C开发。之前一直通过启动程序后将pid写入一个文件,之后再通过kill这个文件里进程号来达到关闭这个程序的目的,具体代码如下:     # 后台启动程序 nohup ./start-daemon.sh > nohup.out & # 将进程写到指定pid文件 echo $! > "${PID_FILE}" # 强制关闭该程序 kill -9 `cat ${PID_FILE}`     ...
       微博:http://weibo.com/guoyunwb          公司之前使用svn进行代码管理,现在需要迁移到git。迁移到git很顺利,只需要安装git-svn即可。但迁移之后发现运行git log命令后,之前的那些commit消息都是乱码,花了点时间搞定了.网上没有搜到类似的资料,这里记录下,希望可以帮到有需要的人。          这里以svn工程地址为 svn://192.168.1.1/my-project为例        1.首先需要安装git-svn:            Ubuntu下很简单,运行命令:sudo apt-get in ...
      微博:http://weibo.com/guoyunwb         好记性不如烂笔头,一一记下吧. 方便自己也希望能够方便到别人   #1.用户设置    git config --global user.name "郭芸"                             #设置姓名    git config --global user.email "username@email.com" #设置邮件 # 2.颜色设置    git config --global color.diff auto       ...
       微博:http://weibo.com/guoyunwb          Apache Tajo已经进入apache孵化器,国内网上一搜貌似还没有相关资料。这里我就抛砖引玉,充当一点翻译工作。          介绍:        Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引 ...
      微博:http://weibo.com/guoyunwb         一直使用PIG,而今也需要兼顾HIVE。网上搜了点资料,感觉挺有用,这里翻译过来。翻译估计不太准确,待自己熟悉HIVE后再慢慢总结。    * No true date/time data types, no interval types, and many missing UDFs for manipulating dates (e.g. ADD_MONTH) * Strict type matching without support for automatic coercion or typ ...
      本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1781885       本人新浪微博:http://weibo.com/guoyunwb         用github也1.年半了,虽然在上面也陆陆续续的建了些工程。但要么就是fork别人的,要么就是自己练习 ...
      本博客属原创文章转载请注明出处: http://guoyunsky.iteye.com/blog/1780165       本人新浪微博:http://weibo.com/guoyunwb         elephant-bird使用还是比较简单,毕竟只是一个生成代码的工具.我一开始以为elephant-bird也跟Protcol Buffer或Thrift一样,有自己的脚本,传入参数和参数值,通过脚本去生成代码.后来才发现,根本无需如此.       毕竟elephant-bird基于Protocol Buffer和Thrift,而Protocol Buffer跟Th ...

Elephantbird介绍

    本篇博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1780150         本人新浪微博:http://weibo.com/guoyunwb            国内基于elephant-bird的资料还太少,除了淘宝搜索技术博客上的一篇,网址:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html,基本就没有了。但这篇也只是介绍如何使用.
     本人新浪微博:http://weibo.com/guoyunwb         前几天Apache Pig 0.10.1刚发布,今天就发现apache Hive 0.10.0也已经发布了,此次升级主要解决了JIRA上面350多个问题.这里列出主要的改进:        1.支持创建Cube和Rollup        2.优化更好的处理skew        3.在Windows上运行Hive,无需依赖cygwin        4.类似sql的explain功能        5.之前在client端验证授权,现在可以可选的且通过安全模板去验证        6 ...
       Apache Pig 0.10.1已经发布,这个版本并没有什么特性,更多的是为了稳定性以及一些bug的修正               显著变化:       1. 代码独立以及支持多种格式的下载.             下载地址: http://www.fightrice.com/mirrors/apache/pig/pig-0.10.1/              可以通过tar.gz,rpm,deb等方式下载获取       2. 更好的支持 Apache Hadoop 0.23.x/2.x              从0.10.0开始,pig就已经加入了 ...
     本人新浪微博:http://weibo.com/guoyunwb           Jubatus是一款分布式,实时且开源的机器学习框架,采用C++开发。不同于Mahout的批处理,Jubatus可以实时分类,回归,推荐,图形操作(如查询,中心,最短距离)等。Jubatus采用Zookeeper去保持集群中各个Jubaclassifiers的同步。同时Jubatus提供一个框架,去将非结构化数据转换为特征向量(feature vector).在性能方面,Jubatus已经在16个节点的集群中得到了验证,可以说Jubatus是大数据机器学习中又一个解决方案。       官网 ...
     本博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1746979       Arangodb是一个开源数据库,网址:(http://www.arangodb.org/)具有灵活的数据模型,如document,graph以及key-value.同时也是一个高性能数据库,支持类似SQL的查询以及JavaScript活Ruby扩展.      特性:      1. 多数据模型:            可以灵活的使用Key-Value,document,graph或者他们的组合作为你的数据模型.      2.方便的查询: ...
        本博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744866        本人新浪微博:http://weibo.com/guoyunwb         趁周末看了下Heritrix,这里发现改动还是很大.虽然自己已经不怎么写爬虫,但长期关注一样一直在发展的东西,的确是一件很幸福的事情,让自己可以获益不少.这里整理下,分享给大家.      Heritrix 3.1.1于2012年5月份发布.以下是它的英文介绍。       Nicer code editor for crawl config and scri ...
     本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456        本人新浪微博:http://weibo.com/guoyunwb          Heritrix3.0新特性一大亮点就是,相比以前版本载入种子更灵活(甚至你可以动态载入种子),同时可以载入N个种子.以前版本载入种子是全部加载到内存,而一旦种子过多,那容易导致内存溢出.而新版本会分批次写入硬盘(通过调度器写入).所以避免了这个问题.下面就说一下Heritrix3.0载入种子的四种方式,分别是:直接载入,通过seeds.txt载入,通过ActionD ...
Global site tag (gtag.js) - Google Analytics