• Web爬行工具HBase-Writer 0.18.1发布
    时间:2008-11-01   作者:佚名   出处:互联网

    HBase-Writer -Heritrix2处理器插件,用来写web爬行结果到HBase表 Heritrix-HDFS-Writer -Heritrix2处理器插件,用来写web爬行结果到hdfs文件系统 Heritrix2----Internet Archiver的独立爬行器 HBase----一个分布式‘BigTable‘存储引擎 Hadoop----HBase运行于Hadoop分布式文件系统之上。

    HBase-Writer可以被当作一个强大的web爬行工具,且可以扩展。HBase-Writer从Heritrix2获得每个url的爬行结果,包括http头部信息和rul内容,然后写入给定的HBase表。表的行关键字是url本身,内容和头部信息存储在2个独立的列。

    在此感谢Questio.com对此工程发布的支持

       HBase-Writer -Heritrix2处理器插件,用来写web爬行结果到HBase表
       Heritrix-HDFS-Writer -Heritrix2处理器插件,用来写web爬行结果到hdfs文件系统
        Heritrix2——Internet Archiver的独立爬行器
        HBase——一个分布式'BigTable'存储引擎
        Hadoop——HBase运行于Hadoop分布式文件系统之上

    网友留言/评论

    我要留言/评论