本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891
欢迎加入Heritrix群(QQ):109148319
Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的.
下面就列出各个参数、说明和理想值
序号 | 配置名 | 理想值 | 说明 |
1 | <long name="max-bytes-download">0</long> | 0 | 最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制 |
2 | <long name="max-document-download">0</long> | 0 | 最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制 |
3 | <long name="max-time-sec">0</long> | 3 | 抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制 |
4 | <integer name="max-toe-threads">3</integer> | 50 | 抓取的线程数,表示有多少个线程去抓取,一般50足够了 |
5 | <float name="delay-factor">4.0</float> | 1.0 | 如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值 |
6 | <integer name="max-delay-ms">20000</integer> | 2000 | 队列的最大延迟时间,单位为毫秒 |
7 | <integer name="min-delay-ms">2000</integer> | 0 | 队列的最小延迟时间,单位为毫秒 |
8 | <integer name="max-retries">30</integer> | 5 | URL抓取失败可以重试的次数,重试次数越少越好 |
9 | <integer name="total-bandwidth-usage-KB-sec">0</integer> | 0 | 总的 抓取速度(KB/秒)限制,0表示没有限制 |
10 | <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer> | 0 |
每个域名抓取速度(KB/S)限制,0表示没有限制
|
11 | <integer name="target-ready-backlog">50</integer> | 200 | 准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取 |
12 | <integer name="ip-validity-duration-seconds">21600</integer> | 0 | DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS |
13 | <integer name="robot-validity-duration-seconds">86400</integer> | 0 | 爬虫协议(robots.txt)有效时间,超过这个时间则要重新去读取robots.txt |
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf
heritrix的安装和配置[归纳].pdf
Heritrix的文件结构分析 各个类说明 配置文件order_xml介绍....
Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx
基于Heritrix与Lucene的垂直搜索引擎研究.pdf
heritrix学习源码和资料
自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。
基于Lucene和Heritrix技术搜索引擎的设计与实现.pdf
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用
heritrix3.2源码包 https://github.com/xiamizy/heritrix-package 下载编译后的文件
Heritrix1.14.3配置流程[参考].pdf
jmxremote.password
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
Lucene 2.0+Heritrix 源码 csdn 开发自己的搜索引擎——Lucene 2.0+Heritrix
Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程:...
Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425
对heritrix抓取的操作和扩展 里面有MirrorWriterProcessor扩展的类文件修改
此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!