抓取jsp网页源代码(什么需要隐瞒,也没有动机去扭曲搜索的结果？)

优采云发布时间: 2022-04-09 14:28

　　nutch Nutch 是一个用 Java 实现的开源网络搜索引擎。尽管网络搜索是漫游 Internet 的基本要求，但现有网络搜索引擎的数量正在下降。而这很可能会进一步演变成一家为其商业利益垄断几乎所有网络搜索的公司。这显然对绝大多数网民不利。Nutch 为我们提供了如此不同的选择。与那些商业搜索引擎相比，Nutch 作为开源搜索引擎会更加透明，因此更加值得信赖。现在所有主要的搜索引擎都使用专有的排名算法，而没有解释为什么一个页面排名在一个特定的位置。另外，有些搜索引擎排名是根据网站支付的费用，而不是自己的价值。与他们的不同，Nutch 没有什么可隐瞒的，也没有扭曲搜索结果的动机。Nutch 将尽最大努力为用户提供最好的搜索结果。Nutch 的最新版本是版本1.5。Nutch 必须能够做到 Nutch 致力于让每个人都能够以极少的成本轻松配置世界一流的网络搜索引擎。为了实现这个雄心勃勃的目标，Nutch 必须能够： * 每月获取数十个数百万个网页 * 为这些网页维护一个索引 * 每秒对索引文件进行数千次搜索 * 提供高质量的搜索结果 *以最小的成本运营 Nutch 主要分为爬虫爬虫和查询搜索器两部分。Nutch 的最新版本是版本1.5。Nutch 必须能够做到 Nutch 致力于让每个人都能够以极少的成本轻松配置世界一流的网络搜索引擎。为了实现这个雄心勃勃的目标，Nutch 必须能够： * 每月获取数十个数百万个网页 * 为这些网页维护一个索引 * 每秒对索引文件进行数千次搜索 * 提供高质量的搜索结果 *以最小的成本运营 Nutch 主要分为爬虫爬虫和查询搜索器两部分。Nutch 的最新版本是版本1.5。Nutch 必须能够做到 Nutch 致力于让每个人都能够以极少的成本轻松配置世界一流的网络搜索引擎。为了实现这个雄心勃勃的目标，Nutch 必须能够： * 每月获取数十个数百万个网页 * 为这些网页维护一个索引 * 每秒对索引文件进行数千次搜索 * 提供高质量的搜索结果 *以最小的成本运营 Nutch 主要分为爬虫爬虫和查询搜索器两部分。

　　爬虫主要用于从网络上抓取和索引网页。Searcher主要是利用这些索引来检索用户的搜索关键词来生成搜索结果。两者的接口是索引，所以除了索引部分，两者的耦合度很低。尽可能将Crawler和Searcher这两个部分分开的目的主要是为了让这两个部分能够以分布式的方式配置在硬件平台上。例如，将 Crawler 和 Searcher 分别放在两台主机上可以提高性能。Crawler，Crawler Crawler 主要关注两个方面，Crawler 的工作流程和所涉及的数据文件的格式和含义。数据文件主要包括三种类型，即web数据库、一系列segment加索引、而三者的物理文件分别存放在爬取结果目录下的db目录下的webdb子文件夹、segments文件夹和index文件夹中。那么三者存储的信息是什么？Web数据库，也叫WebDB，存储了爬虫爬取的网页之间的链接结构信息。它只用于爬虫的工作，与Searcher的工作无关。WebDB 中存储了两个实体的信息：页面和链接。页面实体通过描述网络上一个网页的特征信息来代表一个实际的网页，因为需要描述的网页很多。存储爬虫爬取的网页之间的链接结构信息。它只用于爬虫的工作，与Searcher的工作无关。WebDB 中存储了两个实体的信息：页面和链接。页面实体通过描述网络上一个网页的特征信息来代表一个实际的网页，因为需要描述的网页很多。存储爬虫爬取的网页之间的链接结构信息。它只用于爬虫的工作，与Searcher的工作无关。WebDB 中存储了两个实体的信息：页面和链接。页面实体通过描述网络上一个网页的特征信息来代表一个实际的网页，因为需要描述的网页很多。

　　Page实体描述的网页特征主要包括网页中的链接数、网页的抓取时间等相关的抓取信息、网页的重要性得分。同样，Link实体描述了两个页面实体之间的链接关系。WebDB 构成了爬取的网页的链接*敏*感*词*。在这个图中，Page 实体是图的节点，Link 实体代表图的边。一次爬取会生成很多segment，每个segment存储着爬虫Crawler在一次爬取周期内抓取到的网页以及这些网页的索引。爬虫爬取时，会按照一定的爬取策略，根据WebDB中的链接关系，生成每个爬取周期所需的fetchlist，然后Fetcher会通过fetchlist中的url对这些网页进行爬取和索引，然后存储到segment中。分段是有时间限制的。当这些网页被Crawler重新爬取时，之前爬取生成的Segment无效。在存储中。Segment文件夹以生成时间命名，方便我们删除过时的Segment，节省存储空间。Index是Crawler爬取的所有网页的索引，由所有单个Segment中的索引合并得到。Nutch 使用 Lucene 技术进行索引，因此在 Lucene 中操作索引的界面对 Nutch 中的索引也是有效的。上一次爬取生成的段是无效的。在存储中。Segment文件夹以生成时间命名，方便我们删除过时的Segment，节省存储空间。Index是Crawler爬取的所有网页的索引，由所有单个Segment中的索引合并得到。Nutch 使用 Lucene 技术进行索引，因此在 Lucene 中操作索引的界面对 Nutch 中的索引也是有效的。上一次爬取生成的段是无效的。在存储中。Segment文件夹以生成时间命名，方便我们删除过时的Segment，节省存储空间。Index是Crawler爬取的所有网页的索引，由所有单个Segment中的索引合并得到。Nutch 使用 Lucene 技术进行索引，因此在 Lucene 中操作索引的界面对 Nutch 中的索引也是有效的。

　　但需要注意的是，Lucene 中的段与 Nutch 中的段不同。Lucene中的segment是索引的一部分，但是Nutch中的segment只是WebDB中网页各个部分的内容和索引，最后它生成的索引和这些segment无关用它。爬虫工作流程在分析了爬虫工作中设计的文件之后，我们接下来检查爬虫的爬取过程以及这些文件在爬取中所起的作用。Crawler的工作原理：首先Crawler根据WebDB生成一个待爬取网页的URL集合叫做Fetchlist，然后下载线程Fetcher根据Fetchlist抓取网页。如果下载线程很多，那么会生成很多Fetchlist，即一个Fetcher对应一个Fetchlist。然后 Crawler 用检索到的网页更新 WebDB，根据更新后的 WebDB 生成一个新的 Fetchlist，其中收录未爬取或新发现的 URL，然后重新开始下一轮爬取循环。这个循环过程可以称为“生成/获取/更新”循环。指向同一主机上的网页资源的 URL 通常会分配到同一个 Fetchlist，这样可以防止过多的 Fetcher 同时抓取一个主机而导致主机过载。

　　此外，Nutch 遵守机器人排除协议，网站可以通过自定义 Robots.txt 来控制爬虫。在 Nutch 中，Crawler 操作的实现是通过一系列子操作的实现来完成的。这些子操作 Nutch 提供了可以单独调用的子命令行。下面是这些子操作和命令行的功能描述，括号内是命令行。1. 创建一个新的 WebDb (admin db -create)。2. 将获取开始 URL 写入 WebDB（注入）。3. 基于WebDB生成一个fetchlist并写入对应的segment(generate)。4. 根据 fetchlist 中的 URL 获取网页（fetch）。5. 根据获取的网页（updatedb）更新WebDb。6. 重复步骤 3-5，直到设置爬行深度。7. 根据来自 WebDB 的网页评级和链接更新段 (updatesegs)。8. 索引爬取的网页（索引）。9. 丢弃索引中具有重复内容和重复 URL 的页面 (dedup)。10. 合并段中的索引，生成最终的索引，用于检索（合并）。Crawler 的详细工作流程是在创建 WebDB 之后（步骤 1)，“生成/获取/更新”循环（步骤 3 - 6) 以一些*敏*感*词* URL 开始。合并段中的索引以生成最终的索引以进行检索（合并）。Crawler 的详细工作流程是在创建 WebDB 之后（步骤 1)，“生成/获取/更新”循环（步骤 3 - 6) 以一些*敏*感*词* URL 开始。合并段中的索引以生成最终的索引以进行检索（合并）。Crawler 的详细工作流程是在创建 WebDB 之后（步骤 1)，“生成/获取/更新”循环（步骤 3 - 6) 以一些*敏*感*词* URL 开始。

　　Nutch 和 Lucene Nutch 基于 Lucene。Lucene 为 Nutch 提供了文本索引和搜索 API。一个常见的问题是：我应该使用 Lucene 还是 Nutch？最简单的答案是：如果你不需要抓取数据，你应该使用 Lucene。一个常见的用例是：您有需要提供的数据源搜索页面。在这种情况下，最好的方法是直接从数据库中提取数据并使用 Lucene API 对其进行索引。当您没有本地数据源，或者数据源非常分散时，应该使用 Nutch。在这种情况下，最好的方法是直接从数据库中提取数据并使用 Lucene API 对其进行索引。当您没有本地数据源，或者数据源非常分散时，应该使用 Nutch。在这种情况下，最好的方法是直接从数据库中提取数据并使用 Lucene API 对其进行索引。当您没有本地数据源，或者数据源非常分散时，应该使用 Nutch。

0

2022-04-09

抓取jsp网页源代码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取jsp网页源代码(什么需要隐瞒,也没有动机去扭曲搜索的结果？)

0 个评论

发起人