HBase-Writer可以被当作一个强大的web爬行工具,且可以扩展。HBase-Writer从Heritrix2获得每个url的爬行结果,包括http头部信息和rul内容,然后写入给定的HBase表。表的行关键字是url本身,内容和头部信息存储在2个独立的列。
在此感谢Questio.com对此工程发布的支持
HBase-Writer -Heritrix2处理器插件,用来写web爬行结果到HBase表
Heritrix-HDFS-Writer -Heritrix2处理器插件,用来写web爬行结果到hdfs文件系统
Heritrix2——Internet Archiver的独立爬行器
HBase——一个分布式'BigTable'存储引擎
Hadoop——HBase运行于Hadoop分布式文件系统之上