- A+
《nutch入门》是一个开源Java实现的搜索引擎、它提供了我们运行自己的搜索引擎所需的全部工具、包括全文搜索和Web爬虫、同时花费很少就可以配置世界一流的Web搜索引擎
- 访问量:(1852)
- 下载量:(1)
- 上传时间:2025-04-04
- 作者:李阳

- 下载格式: pdf。共61页。文件容量 :1.3M。
- 作者:李阳
- 1. nutch简介
- 1.1什么是nutch
- 1.2研究nutch的原因
- 1.3 nutch的目标
- 1.4 nutch VS lucene
- 2. nutch的安装与配置
- 2.1 JDK的安装与配置
- 2.2 nutch的安装与配置
- 2.3 tomcat的安装与配置
- 3. nutch初体验
- 3.1 爬行企业内部网
- 3.1.1 配置nutch
- 3.1.2 配置tomcat
- 3.1.3 执行抓取命令
- 3.1.4 测试结果
- 3.1.5 Intranet Recrawl
- 3.2 爬行全网
- 3.2.1 nutch数据集的基本组成
- 3.2.2 爬行"官方"网址
- 3.2.3 爬行中文网址
- 4. nutch基本原理分析
- 4.1 nutch的基本组成
- 4.2 nutch工作流程
- 5. nutch工作流程分析
- 5.1 爬虫
- 5.1.1 工作策略
- 5.1.2 工作流程分析
- 5.1.3 其它
- 5.2 索引
- 5.2.1 索引主要过程
- 5.2.2 工作流程分析
- 5.2.3 倒排索引(inverted index)
- 5.2.4其它
- 5.3 搜索
- 5.4 分析
- 5.5 nutch的其他一些特性
- 6. nutch分析方法和工具
- 6.1 Crawldb
- 6.2 Linkdb
- 6.3 Segments
- 6.4 Index
- 7. nutch分布式文件系统
- 7.1 概述
- 7.2 MapReduce
- 7.3 文件系统语法
- 7.4 文件系统设计
- 7.5 系统的可用性
- 7.6 Nutch文件系统工作架构
- 8. nutch应用
- 8.1 修改源码
- 8.2 插件机制---plugin
- 8.2.1 什么是plugin
- 8.2.2 使用plugin的好处
- 8.2.3 plugin工作原理
- 8.2.4 编写plugin
- 8.3 API接口
- 8.3.1使用Nutch API
- 8.3.2使用OpenSearch API
- 8.4 nutch的应用前景
- 附录一: nutch的相关网站
- 附录二: 参考文献
下载地址
- 注意:因微信支付已关闭,需要下载的用户请点我前往新域名地址使用支付宝下载!! 点我前往新域名地址使用支付宝下载
- 您的一份支助是对我们最大的支持!愿资源分享可以帮助更多需要的人!