nutch2.x 在eclipse中实现抓取数据存进mysql步骤

最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步。

对nutch的实现过程熟悉下,就可以实现电影采集网站了   如     无为电影在线

1、环境搭建

1)准备eclipse   安装Maven ,svn

2)在svn中下载官方2.x最新源码(参考官方http://wiki.apache.org/nutch/RunNutchInEclipse说明)

3)把工程转成maven工程,等系统下载依赖包

4)这时候可能有红叉,因为缺少jar包,这是pom的问题

<dependency>
                        <groupId>org.restlet.jse</groupId>
                        <artifactId>org.restlet</artifactId>
                        <version>2.0.5</version>
                        <optional>true</optional>
                </dependency>
                <dependency>
                        <groupId>org.restlet.jse</groupId>
                        <artifactId>org.restlet.ext.jackson</artifactId>
                        <version>2.0.5</version>
                        <optional>true</optional>
                </dependency>

比如上面这段二个包就下载不下来。maven仓库没有。需要把restlet的私库加进来:

<repositories>
		<repository>
			<id>maven-restlet</id>
			<name>Public online Restlet repository</name>
			<url>http://maven.restlet.org</url>
		</repository>
	</repositories>

在pom.xml中增加这段,就可以下载了。

这时候按道理,应该就可以了,可是还有些问题,nutch2.x自身配的dadoop-core是1.1.1的版本,在windows环境下运行起来会有问题,如:会抛出权限异常:cause:java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-2070047262

在网上搜索这个异常,别人提供的办法是,使用hadoop-core-1.0.2-modified.jar (下载地址) 这个包可以不配到maven,加到Lib就可以,看各人爱好。

再按道理讲,这时候该没问题了吧,实践证明 ,还是不行,(先把配置讲完)pom中配的gora-core是最新版0.3,配置mysql的时候会有问题。要改成0.2.1.

另外增加gora-sql包

<dependency>
                        <groupId>org.apache.gora</groupId>
                        <artifactId>gora-core</artifactId>
                        <version>0.2.1</version>
                        <optional>true</optional>
                </dependency>
                <dependency>
					<groupId>org.apache.gora</groupId>
					<artifactId>gora-sql</artifactId>
					<version>0.1.1-incubating</version>
					<exclusions>
					<exclusion>
          				<groupId>org.hsqldb</groupId>
          				<artifactId>hsqldb</artifactId>
        			</exclusion>
					</exclusions>
				</dependency>

另外还有这几个包要在pom中配置:

<dependency>
					<groupId>net.sourceforge.nekohtml</groupId>
					<artifactId>nekohtml</artifactId>
					<version>1.9.13</version>
				</dependency>
				<dependency>
					<groupId>org.ccil.cowan.tagsoup</groupId>
					<artifactId>tagsoup</artifactId>
					<version>1.2.1</version>
				</dependency>
				<dependency>
					<groupId>dk.brics.automaton</groupId>
					<artifactId>automaton</artifactId>
					<version>1.11-8</version>
				</dependency>
           		<dependency>
					<groupId>mysql</groupId>
					<artifactId>mysql-connector-java</artifactId>
					<version>5.1.26</version>
				</dependency>

前3个包是插件代码中有引用到,没配置插件前不报错,但是后面还是要配的。最后一个是mysql的连接器,当然要配啦。
完整的pom文件

至此环境差不多,是不是特别麻烦,现在写出来都有这么多要改,在最开始不知道的时候,得花多少时间去应付报错,找问题。

5)安装mysql,创建数据库nutch:

CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_unicode_ci;

还有建表:

CREATE TABLE `webpage` (
`id` varchar(255) NOT NULL,
`headers` blob,
`text` mediumtext DEFAULT NULL,
`status` int(11) DEFAULT NULL,
`markers` blob,
`parseStatus` blob,
`modifiedTime` bigint(20) DEFAULT NULL,
`score` float DEFAULT NULL,
`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,
`baseUrl` varchar(767) DEFAULT NULL,
`content` longblob,
`title` varchar(2048) DEFAULT NULL,
`reprUrl` varchar(767) DEFAULT NULL,
`fetchInterval` int(11) DEFAULT NULL,
`prevFetchTime` bigint(20) DEFAULT NULL,
`inlinks` mediumblob,
`prevSignature` blob,
`outlinks` mediumblob,
`fetchTime` bigint(20) DEFAULT NULL,
`retriesSinceFetch` int(11) DEFAULT NULL,
`protocolStatus` blob,
`signature` blob,
`metadata` blob,
PRIMARY KEY (`id`)
) ENGINE=InnoDB
DEFAULT CHARSET=utf8

2、配置

把conf目录加到Source中,并在order and export中,放在top位置(见官方说明

配置插件:把src/plugin中,如下图加到Source中(src/plugin/插件名称/src/java)

这些是我们运行org.apache.nutch.crawl.Crawler类时所用到的插件。

下一步,配置文件的配置。

首先是nutch-site.xml的配置(nutch-default.xml这个文件不需要配置,网上有的说要修改这个,其实没有必要,这是默认配置,如果需要修改,我们可以在nutch-site.xml中这个属性,会覆盖nutch-default.xml中的属性)

把nutch-default中<!-- HTTP properties -->下面的一段http的属性复制过来,并给value赋值,默认是没有值的。

然后再增加插件和数据源的配置

<!-- plugin properties -->

<property>
  <name>plugin.folders</name>
  <value>./src/plugin</value>
  <description>Directories where nutch plugins are located.  Each
  element may be a relative or absolute path.  If absolute, it is used
  as is.  If relative, it is searched for on the classpath.</description>
</property>
 <property>
        <name>parser.character.encoding.default</name>
        <value>utf-8</value>
        <description>The character encoding to fall back to when no other information
is available</description>
    </property>

<property>
  <name>storage.data.store.class</name>
  <value>org.apache.gora.sql.store.SqlStore</value>
  <description>The Gora DataStore class for storing and retrieving data.
   Currently the following stores are available:

  org.apache.gora.sql.store.SqlStore
    Default store. A DataStore implementation for RDBMS with a SQL interface.
    SqlStore uses JDBC drivers to communicate with the DB. As explained in
    ivy.xml, currently >= gora-core 0.3 is not backwards compatable with
    SqlStore.

  org.apache.gora.cassandra.store.CassandraStore
    Gora class for storing data in Apache Cassandra.

  org.apache.gora.hbase.store.HBaseStore
    Gora class for storing data in Apache HBase.

  org.apache.gora.accumulo.store.AccumuloStore
    Gora class for storing data in Apache Accumulo.

  org.apache.gora.avro.store.AvroStore
    Gora class for storing data in Apache Avro.

  org.apache.gora.avro.store.DataFileAvroStore
    Gora class for storing data in Apache Avro. DataFileAvroStore is
    a file based store which uses Avro's DataFile{Writer,Reader}'s as a backend.
    This datastore supports mapreduce.

  org.apache.gora.memory.store.MemStore
    Gora class for storing data in a Memory based implementation for tests.
  </description>
</property>

因为是mysql,所以store要使用

org.apache.gora.sql.store.SqlStore

其他的如网址过滤的配置,就不讲了,就是正则表达式,修改regex-urlfilter.txt就可以了。

还有个gora.properties文件要配置

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=sa
gora.sqlstore.jdbc.password=888888

3、运行

在工程下新建个文件夹叫urls  里面建个文本文件如seed.txt  内容是一个网址如:http://www.qq.com

在run configuration 中配置java application  main class org.apache.nutch.crawl.Crawler

args配置:urls -depth 3 -topN 5

vm参数配:-Xms64m -Xmx512m    这项如果不配,会报内存溢出。

这时候就可以debug或者run了。按道理是可以出来了

4、其他修改

按道理讲,源码应该不用修改。事实证明,源码也有问题,运行的时候会出错。

GeneratorJob类在运行的时候会出现空指针异常,需要在163行run 方法内,增加:

   // generate batchId
      int randomSeed = Math.abs(new Random().nextInt());
      String batchId = (System.currentTimeMillis() / 1000) + "-" + randomSeed;
      getConf().set(BATCH_ID, batchId); 

5、最后

nutch2.x官方版本问题太多了,相当麻烦。写的过程中可能有遗漏,有问题及时交流。

windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤的更多相关文章

  1. 在eclipse中创建maven项目,亲测有效,详细步骤

    一.想要使用maven,首先要配置本地maven的环境 1.在http://maven.apache.org/download.cgi中去下载maven 2. 3.下载完毕后将压缩包解压到自己记住的位 ...

  2. Vue项目中jsonp抓取数据实现方式

    因为最近在做vue的项目,在前端做数据的时候遇到了数据抓取的难题,查了一些资料,自己也研究了一下,总体来说是搞出来了(基于黄奕老师的项目找出来的经验),废话不多说,直接上代码 ------------ ...

  3. windows环境下命令打到服务中

    1.正常redis在本地命令行中启动,现在直接在服务中启动(tomcat同理) cmd下命令如下: sc create redis binPath= D:\redis\redis-server.exe ...

  4. windows环境下Eclipse开发MapReduce程序遇到的四个问题及解决办法

    按此文章<Hadoop集群(第7期)_Eclipse开发环境设置>进行MapReduce开发环境搭建的过程中遇到一些问题,饶了一些弯路,解决办法记录在此: 文档目的: 记录windows环 ...

  5. Android开发之 Windows环境下通过Eclipse创建的第一个安卓应用程序(图文详细步骤)

    第一篇  windows环境下搭建创建的第一个安卓应用程序 为了方便,我这里只采用了一体包进行演示. 一.下载安卓环境的一体包. 官网下载:安卓官网(一般被墙了) 网盘下载: http://yunpa ...

  6. Windows环境下C++中关于文件结束符的问题

    参考资料:http://www.cnblogs.com/day-dayup/p/3572374.html 一.前言 在不同的OS环境下,程序中对应的文件结束符有所不一样,根据<C++ Prime ...

  7. Windows环境下在IDEA编辑器中spark开发安装步骤

    以下是windows环境下安装spark的过程: 1.安装JDK(version:1.8.0.152) 2.安装scala(version:2.11/2.12) 3.安装spark(version:s ...

  8. Windows环境下Android Studio v1.0安装教程

    Windows环境下Android Studio v1.0安装教程 准备工具 JDK安装包. 要求:JDK 7以及以上版本. Android Studio安装文件. Windows: exe(包含SD ...

  9. Android 源码获取-----在Windows环境下通过Git得到Android源代码

    在学习Android的过程中,深入其源代码研究对我们来说是非常重要的,这里将介绍如何通过在Windows环境下使用Git来得到我们的Android源代码. 1.首先确保你电脑上安装了Git,这个通过  ...

随机推荐

  1. [SQLServer大对象]——FileTable初体验

    阅读导航 启用FILESTREAM设置 更改FILESTRAM设置 启用数据库非事务性访问级别 FileTable 在我接触FileTable之前,存储文件都是存储文件的链接和扩展名到数据,其实并没有 ...

  2. swift 创建单例模式

    一.意图 保证一个类公有一个实例,并提供一个访问它的全局访问点. 二.使用场景 1.使用场景 当类只能有一个实例而且客户可以从一个众所周知的访问点访问它时 当这个唯一实例应该是通过子类化可扩展的,并且 ...

  3. Visual Studio: How to change ipch path in Visual Studio 2010 (.sdf, *.opensdf, ...)

    Link: http://stackoverflow.com/questions/4315681/how-to-change-ipch-path-in-visual-studio-2010 引用: T ...

  4. web面试题大全

    $HTML, HTTP,web综合问题 常见排序算法的时间复杂度,空间复杂度 前端需要注意哪些SEO web开发中会话跟踪的方法有哪些 <img>的title和alt有什么区别 docty ...

  5. 百度地图开发的学习(一)——配置环境&amp;基础地图

    由于项目需求缘故,最近在学习Android地图的开发,所以就记录一下学习过程.最近都会陆续更新啦.目前使用百度地图API的挺多的,所以就先以它为基础学习一些地图的调用. 一.AK的申请 与web开发不 ...

  6. WPF4.5 中的新增功能和增强功能的信息

    本主题包含有关 Windows Presentation Foundation (WPF) 版本 4.5 中的新增功能和增强功能的信息. 本主题包含以下各节: 功能区控件 改善性能,当显示大时设置分组 ...

  7. 利用 runtime,解决多次点击相同 button,导致重复跳转的问题-b

    当app有点卡的时候,多次点击相同的button,经常出现,跳转了N次相同的界面(比如闲鱼) 解决办法 用运行时和分类,替换 UIControl 响应事件,根据响应的间隔时间来判断是否执行事件. 详细 ...

  8. css+div 布局遇到的小常识

    /根目录../上层目录举例如下: 在photo.css文件中写入: div.ls{ background:url(../photo/framels.jpg) no-repeat left; }div. ...

  9. MVC分页控件

    1.下载MvcPager.dll文件并引用到MVC项目中 2.在控制器中引用命名空间using Webdiyer.WebControls.Mvc; 3.获取数据集合,数据的总记录数(数据集合有多少条数 ...

  10. 关于手机ios和安卓和pc的点击事件的兼容

    var u = navigator.userAgent, app = navigator.appVersion; var clickEvent; var isAndroid = u.indexOf(' ...