`
guoyunsky
  • 浏览: 837936 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:202955
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Hadoop Oozie 学习笔记(六) Hadoop Oozie概述

 
阅读更多

本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1391975

 欢迎加入Hadoop超级群: 180941958  

 

      网上中文资料有点少,我这里翻译下官网.对自己也是个梳理,希望对大家也有用.

     

      Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.

       Oozie工作流中拥有多个Action,如Hadoop Map/Reuce job,Hadoop Pig job等,所有的Action以有向无环图(DAG Direct Acyclic Graph)的模式部署运行.所以在Action的运行步骤上是有方向的,只能上一个Action运行完成后才能运行下一个Action.

       Oozie工作流通过HPDL(一种通过XML自定义处理的语言,类似JBOSS JBPM的JPDL)来构造.

       Oozie工作流中的Action在运程系统运行如(Hadoop,Pig服务器上).一旦Action完成,远程服务器将回调Oozie的接口并通知Action已经完成,这时Oozie又会以同样的方式执行工作流中的下一个Action,直到工作流中所有Action都完成(完成包括失败)

       Oozie工作流中包含可控制的工作流节点(control flow node)和Action节点(action node).

       Control flow node其实可以理解为Oozie的语法,比如可以定义开始(start),结束(end),失败(fail)节点.开始节点就表示从该节点开始运行.同时也提供一种机制去控制工作流的执行过程,如选择(decision),并行(fork),join节点.

       Oozie工作流提供各种类型的Action用于支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java,以及Oozie子流程.Oozie也支持自定义扩展以上各种类型的Action .

       Oozie工作流允许自定义参数,如${inputDir}.

 

 

        WordCount Workflow Example:

        工作流图:

 

        workflow.xml

<workflow-app name='wordcount-wf' xmlns="uri:oozie:workflow:0.1">
    <start to='wordcount'/>
    <action name='wordcount'>
        <map-reduce>
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                    <name>mapred.mapper.class</name>
                    <value>org.myorg.WordCount.Map</value>
                </property>
                <property>
                    <name>mapred.reducer.class</name>
                    <value>org.myorg.WordCount.Reduce</value>
                </property>
                <property>
                    <name>mapred.input.dir</name>
                    <value>${inputDir}</value>
                </property>
                <property>
                    <name>mapred.output.dir</name>
                    <value>${outputDir}</value>
                </property>
            </configuration>
        </map-reduce>
        <ok to='end'/>
        <error to='end'/>
    </action>
    <kill name='kill'>
        <message>Something went wrong: ${wf:errorCode('wordcount')}</message>
    </kill/>
    <end name='end'/>
</workflow-app>

 

      同时自己成org.myorg.WordCount这个Hadoop Map/Reduce Job,网上搜索一大把.

配置打包后通过OozieClient提交给Hadoop就直接可以运行了.

 

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

  • 大小: 41 KB
0
1
分享到:
评论
1 楼 shengtaoarc 2012-12-28  
感谢楼主的分享,!请教楼主一个问题:oozie有没有提供图形化的工作流编辑界面呢,还是只能通过HPDL来定义工作流。

相关推荐

    oozie oozie

    Hadoop oozie报错:Table ‘oozie.VALIDATE_CONN’ doesn’t exist 。 oozie建表sql,直接下载执行

    MySQL :oozie建表sql

    hadoop oozie启动或运行报错:Table ‘oozie.VALIDATE_CONN’ doesn’t exist

    Apache Hadoop---Oozie.docx

    Oozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,是用于Hadoop平台的开源的工作流调度引擎,是用来管理Hadoop作业,属于web应用程序,由Oozie client和Oozie Server两个组件构成,Oozie Server运行于Java ...

    Hadoop安装学习-入门教程

    Hadoop 安装 学习 入门教程 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, ...

    hadoop-oozie:具有Oozie的映像,该映像是为Hadoop 2.x构建的(带有2.7.0库)

    适用于Hadoop 2.x的Oozie 这是一个映像,该映像对oozie / webapp的uber配置文件进行了一些更改,并使用hadoop-2配置文件和Hadoop 2.7.0库构建了一个Oozie发行版。 用法 将Oozie sharelib安装到HDFS docker run -ti...

    oozie 4.0.1 hadoop2.3.0 安装

    oozie 4.0.1 hadoop2.3.0 安装

    oozie 入门

    oozie 入门 oozie概述:oozie能干什么 oozie格式:怎么用oozie oozie执行:怎么运行oozie

    快速学习-Oozie的使用

    [atguigu@hadoop102 oozie-4.0.0-cdh5.3.6]$ tar -zxvf oozie-examples.tar.gz 2)创建工作目录 [atguigu@hadoop102 oozie-4.0.0-cdh5.3.6]$ mkdir oozie-apps/ 3)拷贝任务模板到oozie-apps/目录 [atguigu@hadoop...

    oozie在hadoop中配置代理

    oozie在hadoop中配置代理,内有相关链接及实际配置信息

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...

    Oozie安装部署及任务定义说明

    3、整合Oozie和Hadoop 8 Oozie提交MapReduce任务事例 8 1上传lib和wf到hdfs上 8 2修改job.properties文件 8 3:修改workflow.xml 9 4:执行oozie客户端命令执行mapreduce 10 配置oozie工作流 10 Workflow.xml中控制...

    HADOOP课程大纲.pdf

    课程模块 课程主题 主要内容 案例和演示 模块一 Hadoop在云计算技术的作用和地位 传统大规模系统存在的问题 Hadoop概述 Hadoop分布式文件系统 MapReduce工作原理 Hadoop集群剖析 Hadoop生态系统对一种新的解决方案的...

    Apache Oozie_ The Workflow Scheduler for Hadoop

    Apache Oozie_ The Workflow Scheduler for Hadoop ,主要介绍oozie的使用

    Apache Ooize Workflow Scheduler for Hadoop

    apache oozie workflow scheduler for hadoop

    Apache Oozie Essentials(PACKT,2015)

    Apache Oozie Essentials starts off with the basics right from installing and configuring Oozie from source code on your Hadoop cluster to managing your complex clusters. You will learn how to create ...

    Cloudera Hadoop 5&amp;Hadoop高阶管理及调优课程

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和...

    Oozie大数据调度系统从入门到精通视频教程

    手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零开始讲解大数据... 第六章:Oozie监控任务管理 1.Oozie任务的查看 2.Oozie任务的提交 3.Oozie任务的关闭

    oozie配置mysql:表结构详解

    oozie配置mysql所需表结构。Apache Oozie是用于Hadoop平台的一种工作流调度引擎。

    win10下搭建Hadoop环境(jdk+mysql+hadoop+scala+hive+spark) 3.docx

    win10下搭建Hadoop(jdk+mysql+hadoop+scala+hive+spark),包括jdk的安装、mysql安装和配置,hadoop安装和配置,scala安装和配置,hive安装和配置,spark安装和配置。

Global site tag (gtag.js) - Google Analytics