`
guoyunsky
  • 浏览: 840412 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:203449
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Heritrix3.1.1 新特性,新功能

 
阅读更多

        本博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744866

       本人新浪微博:http://weibo.com/guoyunwb

 

      趁周末看了下Heritrix,这里发现改动还是很大.虽然自己已经不怎么写爬虫,但长期关注一样一直在发展的东西,的确是一件很幸福的事情,让自己可以获益不少.这里整理下,分享给大家.

     Heritrix 3.1.1于2012年5月份发布.以下是它的英文介绍。

      Nicer code editor for crawl config and script console (HER-2001)

The crawl configuration cxml editor and the scripting console editor now use CodeMirror, which adds syntax highlighting, line numbers and other features

       Fixed occasional mangling of DNS records in ARCs and WARCs (HER-1983)

A longstanding bug that caused some DNS records in ARCs and WARCs to be mangled, due to unsafe use of a shared variable among threads, is now fixed.

       Remember all surts across checkpoint/resume (HER-1985)

Surts that were derived from seeds, or listed as surts in the seeds source, or that were added using a .seeds file in the action directory, can now be remembered across checkpoint/resume. For that to work the relevant SurtPrefixedDecideRule must be a top-level bean. The default cxml distributed with heritrix now includes the key decide rule as a top-level bean with id "acceptSurts".

       Support for saving script state (HER-1984)

Added a shared map for arbitrary use during a crawl. It can be used for state persisting for the duration of the crawl, shared among ScriptedProcessor, scripting console and other scripts, or other purposes. In scripts it can be obtained with appCtx.getData().

 

     中文翻译,以及部分讲解.

     1.更友善的界面代码编辑器

Heritrix可以通过UI界面编辑配置文件,Heritrix 3.0开始支持动态脚本(python,js等),但以前的界面的确不太友善。只是一个简单的文本输入框.Heritrix 3.1开始采用CodeMirror(http://codemirror.net/),支持高亮,行数显示等功能。

 

        2.解决ARCs和WARCs记录的DNS数据线程错位异常 (HER-1983)

解决了一个长期的bug,由于线程之间的共享变量不安全使用,导致ARCs和WARCs记录的DNS数据错位。

 

        3.可以记录Surts的所有checkpoint/resume状态 (HER-1985)(理解可能有误,待确认)

Surts都来自于种子,要么作为种子来源在cxml文件中配置,要么来自.seeds文件,或者action directory目录下.现在都可以记录他们的checkpoint/resume状态.(之前只能记录明确的种子来源,而如来自action directory则没法记录)

 

         4.支持可以保存脚本状态 (HER-1984)

在整个抓取过程中,增加了一个可以任意使用的共享map.它可以用于状态持久化,以及在一定数量的ScriptedProcessor,脚本控制台,其他脚本,以及其他用途之间共享.这个共享map在脚本中可以通过appCtx.getData()来获取.(以前执行脚本是暂时的,可能一些脚本需要上下文之类的东西,也就是上一个脚本需要下一个脚本的结果,或者不同脚本之间要共享变量,那Heritrix3.1.1可以支持了。)

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

0
0
分享到:
评论
1 楼 louningfeng 2016-07-18  
大神,请教一个问题,Hertrix 和 Nutch 有没有提供对于 需要登录的网站的网页抓取的支持,比如 开发人员 可以提供一个基金网的登录账户和密码,然后使用以上两种工具任意一种来获取该账户对应的基金交易流水等网页信息呢 ,非常感谢

相关推荐

    heritrix3.1.1

    较新的网络爬虫,能用源码,可以抓取任何网站上的所有链接,很强大,好东东,值得下载,学习

    Heritrix学习ppt

    NULL 博文链接:https://badxy.iteye.com/blog/860874

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    Heritrix3手册翻译

    后续的发行H3将是3.0.1补丁版包括小的修改和增强将在2010年上半年,3.2.0将包含以使用简单、持续爬行和大规模爬行为主题的新功能。 H3的文档包括  Heritrix 3.0 and 3.1 User Guide  Heritrix 3.x API Guide ...

    Heritrix部署直接能运行的项目

    Heritrix 1.0.0包含以下关键特性: 1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。 2。从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。 3。主要是用广度优先算法进行处理。 4。主要部件都...

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

    Heritrix安装详细过程

    按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    Heritrix使用详解与高级开发应用

    Heritrix使用详解与高级开发应用 Heritrix开发应用详细

    heritrix1.14.0jar包

    爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。

    heritrix源码

    heritrix学习源码和资料

    heritrix3.2

    heritrix的最新版,有兴趣的可以来看看

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    heritrix-1.14.2.zip

    heritrix-1.14.2.zip是一个开源项目

    heritrix的绿色配置包

    heritrix heritrix heritrix heritrix heritrix heritrix

    Heritrix安装和配置流程

    Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录

    Heritrix搭建好的工程

    Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·

Global site tag (gtag.js) - Google Analytics