搜索引擎优化毕业论文(关于爬虫网络论文范文,可以做为相关论文参考文献,与写作提纲思路参考)

优采云发布时间: 2022-01-09 02:18

　　简介：本文是关于爬虫网络论文模型的，可以作为相关论文的参考，也可以作为写大纲思路的参考。

　　（济宁师范学院，内蒙古乌兰察布 01200 0）

　　摘要：基于网络爬虫的分类及其特点，讨论了网络爬虫在搜索引擎应用中存在的搜索URL定位过程中数据下载效率低、下载过程中CPU空闲、URL搜索等问题。策略不合理导致URL重复等问题，并在此基础上提出相关策略，包括在数据传输过程中使用gzip/deflate压缩编码传输，异步无阻塞下载，提高CPU利用率，规范URL提取策略等。这样可以提高搜索引擎中网络爬虫的效率。

　　关键词：网络爬虫；数据传输; 网址策略；搜索引擎

　　CLC 编号：TP-9 文件识别码：A 文章编号：1673-260X (2013）10-0021-03

　　1.简介

　　在说网络爬虫之前，首先要了解计算机“机器人”、计算机机器人及其必备的软件程序，它们依靠计算机和网络无限循环地执行网络任务。在搜索信息时，它就像一个爬虫在网络中穿梭，根据用户提供的关键词信息自动过滤重要信息。在万网中，网络拓扑由多个节点组成。网络爬虫的任务是根据用户关键词获取网页链接，并将其与网页对应的服务器端关联起来，让用户可以轻松、快速地找到自己需要的信息.

　　通常，网络爬虫也称为网络蜘蛛。它贯穿网络，并有自己的算法来自动选择有效信息并保存相关网页。如果用户想检查保存在自己网站上的网页链接是否有效，也可以使用这种技术。

　　在搜索网络信息时，搜索引擎通常会执行网络爬虫程序。网络爬虫使用一种特殊的算法来提取网页中与用户关键字相关的信息，提取其 URL，并将其与之关联。在搜索过程中，它的搜索路径就像一张蜘蛛网，爬虫在路径检索的过程中采集相关信息。

　　2.网络爬虫分类及其特点

　　就目前的搜索引擎原理而言，网络爬虫程序有两种，通用网络爬虫和专注网络爬虫。

　　通用网络爬虫的使用范围比较广，比如谷歌搜索中使用的搜索引擎。通用网络爬虫爬取整个网络，选择的信息太多，其中很多是网络用户不需要的。，造成系统资源的浪费。随着网络技术的进步，网络数据的形式不断丰富。网页充满了多媒体数据、音频、视频和图片数据。这些数据信息丰富，结构复杂。但是我们的通用网络爬虫通常难以处理这些数据。

　　聚焦网络爬虫是对通用网络爬虫的补充。它专注于在搜索过程中最大限度地采集与用户特定需求相关的网页信息，并在必要时自动屏蔽无关的网页数据。它是一种网络爬虫，可以提高用户对特定信息的需求。

　　3.网络爬虫对搜索引擎有问题

　　网络爬虫在搜索引擎中扮演着重要的角色，但仍然存在很多问题，比如。

　　3.1 独立网络中的性能问题。随着网络时代信息的不断增长，海量数据带来了性能问题，用户可以在极端时间从海量数据中得到用户想要的东西。数据信息本身就是对搜索引擎的挑战，而网络爬虫程序是搜索引擎的关键，而提高网络爬虫程序的性能是当前需要解决的问题。

　　3.2 网络爬虫一般从一个或多个初始网页的URL开始，获取初始网页上的URL。在抓取网页的过程中，它不断地从当前页面中提取新的 URL 并放入队列中，直到满足系统的某些停止条件。在这个过程中，需要进行数据操作，不断下载资源，但目前网络传输速度比较慢，网络传输过程中CPU资源处于空闲状态。

　　3.3 URL搜索策略问题，制定搜索策略的基础是如何安排URL的访问顺序，以实现网络爬虫在网络间爬取的最大网络覆盖。

　　二是网络爬虫的URL提取问题，即网络爬虫在URL下载后如何从已有的网页数据（具体指网页源代码）中获取新的超链接，从而实现新的网络爬虫爬取。爬虫的URL规范策略，这个问题主要是基于很多网页中的超链接结构不完整，形式也多种多样，难以完全规范。因此，为了方便网络爬虫更方便、更流畅地访问资源数据，提高网址的系统化程度，必须对各种形式的网址进行标准化，形成一个全面的标准。

　　最后是网络爬虫的URL去重问题。之所以会出现URL去重问题，是因为互联网本身就是一个结构复杂、资源覆盖面广、相互之间引用关系复杂的系统。因此，在网络中当爬虫在不同的页面上工作时，会提取到相同的 URL。此时，网络爬虫必须对多个 URL 进行去重，并选择最合适的 URL。

　　3.4 页面资源下载慢。网络爬虫从几个 URL 链接中提取相关资源。相关链接资源需要下载并定位。页面资源下载慢，是目前需要解决的问题。除此之外，目前的网络爬虫技术只能提取文本内容，但对于网页来说，对于页面元素的提取，最后到网页内容的精准定位，到目前为止，相关的研究还很少。

　　爬虫：Python网络爬虫项目培训视频教程：看我怎么下载韩寒博客文章 Python视频教程02

　　4.对策分析

　　网络爬虫是一种自动提取网页的程序。它从网站下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。目前，国际网络对网络爬虫的研究越来越深入。虽然研究不全面，但是分布式网络爬虫的协同分工和文件存储系统的效率研究，专注于网络爬虫的页面相关性算法，以及PageRank等URL重要性算法的研究比较详细，而且研究资料也比较详细。很少有相关的性能研究。

　　4..1 页面下载政策

　　4..1.1 使用gzip/deflate压缩编码进行传输

　　随着信息产业的快速发展，网络资源的种类也多种多样，资源的形式、质量和运行环境也各不相同。对于网络资源，大小变化很大，从几百KB到几KB不等。在2000年的网络运行环境下，网络传输时间较长，证明网络数据包较大。因此，为了加快数据传输和传入过程的完成，必须尽可能减少网络数据传输量。

　　有效减少网络数据传输量的方法之一是文件数据压缩。gzip 是一个 GNU 自由软件文件压缩程序。这种压缩方式是一种常用的压缩程序算法，没有任何数据丢失。应用gzip压缩时，效果最显着的是纯文本文件的gzip压缩，可以将文件大小压缩到原创大小的75%以上。程序经过gzip压缩后，不仅可以提高网页的运行速度，改善用户的浏览体验，还可以节省浏览网页的时间。去很多流量使用。

　　Gzip压缩编码也可以应用于超文本传输协议，主要目的是提高和提高网络应用的性能。通过gzip压缩使用更多流量的网络站点可以在一定程度上提高用户的网页浏览速度。Web服务器中都收录gzip压缩功能，所以一旦用户访问某个网站，服务器中的功能立即将gzip压缩的网页内容传输到计算机浏览器并显示出来。gzip/deflate压缩编码传输直接缓解了服务器加载大量信息的负载，也提高了用户接收网页传输数据的速率。

　　论文模型文章网中gzip压缩函数的处理过程如下：

　　(1）http将用户的请求发送到web服务器，如果用户的请求中收录类似于Accept-Encoding字符的请求，则表示收录gzip压缩后的页面数据信息，需要检查预先服务器配置是否收录gzip压缩功能。

　　(2）如果服务器收录gzip压缩设备，压缩后会直接显示在浏览器上。

　　(3）如果用户请求的文件是html、css等静态文件，服务器会自动检查目录中是否存在最新的压缩文件。

　　(4）如果请求的压缩文件没有出现在buffer目录中，web服务器会将未压缩的请求文件反馈给用户，请求会保存在buffer目录中进行压缩。

　　(5）如果最新的压缩文件已经在缓冲目录下，直接压缩文件即可。

　　(6）如果用户请求的文件类型是动态文件，则web服务器动态压缩内容返回给用户，压缩后的内容不存储在压缩缓存目录中。

　　4..1.2 异步非阻塞下载，提高CPU利用率

　　网络爬虫的工作效率实际上受网页数据的影响。网络爬虫根据URL请求发送数据请求到页面接收数据并返回之间有一段时间。在这段时间里，如果网络爬虫只在等待，不从事其他工作，那么CPU将没有得到充分利用，导致资源闲置，网络爬虫的工作效率比较低。相反，如果网络爬虫能够充分利用这段时间间隔从事其他工作，等到数据返回后立即分析，CPU的资源利用率将大大提高。这种机制就是我们所说的非阻塞异步请求。

　　4..2 URL 相关策略

　　通常人们所说的URL格式主要由三部分组成：第一部分是必要部分，即协议部分，一般也成为网络服务模式；第二部分代表资源存储的主机TP地址，也可以用主机名或端口号代替。第二部分也是URL格式的必要部分；第三部分是资源在宿主机中存放的具体位置，比如目标资源的文件名、网络参数等，这部分不是必须的。, 有时可根据实际情况省略。URL相关策略中必须收录以下问题和部分：

　　4..2.1 网址搜索策略

　　网络爬虫查找和选择页面的工作策略有两种：一种是使用遍历图对主题进行搜索，遍历顺序一般遵循广度优先或深度优先的原则；二是坚持“最好先”的原则。智能搜索的主题。

　　非主题搜索中的广度优先原则是最常见的，其实现原则也是基于互联网的存在，即选择一个网页，然后抓取与之相关的网页，逐层循环，以获取所有网页。以 HTML 文件为例。文件中有三个超链接。网络爬虫会选择其中一个进行下载处理，然后通过关系网络处理另一个连接。URL.广度优先搜索的优势是显而易见的：

　　（1）因为广度优先搜索是从浅层URL处理的，所以无论结构如何复制，最终都可以返回文档。

　　（2）广度优先原则优先处理位于浅层的高相关页面，可以快速全面的发现优质页面。

　　（3）广度优先的原则可以实现多个网络爬虫同时协作抓取数据，从站内链接开始，再推广到站外链接，真正做到全面覆盖。

　　深度优先是网络爬虫早期的工作策略。它的工作原理是在最浅层选择一个链接，然后深入搜索链接下的数据，等到链接到达末尾再返回数据选择新的链接开始。.它来回移动，直到所有的链接都被操作，搜索结束。

　　4..2.2 URL提取策略

　　网络爬虫从站点请求页面数据，但返回 HTML 代码。用户在浏览器上查看的内容实际上是网页渲染后一系列动态代码和HTML代码执行。网络爬虫只需从返回的网页源文件中提取所有的URL超链接即可完成整个爬取过程，并可以进行新的爬取。

　　4..2.3 URL 规范策略

　　*URL 规范化的定义是搜索引擎选择最佳 URL* 作为真实 URL* 的过程，强调唯一选择作为规范化的 URL*。具体来说，当多个页面链接收录相同的内容时，必须通过各种方法筛选导致大量重复内容的网页，只保留唯一标准规范化的网页，其他网页被不保留。从网络爬虫的角度来看，归一化的 URE 减少了大量重复内容的网页数据。分析，减少向服务器请求资源的URL，避免出错率。

　　(1）超链接的域名*要填写。网页中的超链接地址大部分没有协议类型或主机名，要根据超链接网页的URL填写。一般来说，有些网页没有协议类型或主机名，超链接会省略协议名或主机名，表示与母版页的域名相同。

　　(2）将网页的存在形式的相对路径转换为绝对路径，并通过处理文件路径和参数对URL进行归一化处理。在所有的互联网页面中，大多数超链接*的存在形式都是相对的，即，相对路径，当主机名与主机IP地址相同时，可以将主机名转换成IP地址，或者改变名称中参数的顺序，保证同一主机只能出现在一种形式。

　　5.结束语

　　网络爬虫技术在网络搜索引擎的应用中起着举足轻重的作用。爬虫程序的算法逻辑和URL的处理方式直接影响页面搜索的响应效率和网页库的新鲜度。本文首先分析了网络爬虫在信息搜索中的应用。过程中面临的技术问题，并在此基础上提出解决问题的相关策略，并对网址进行严格规范化，希望能有效降低网址错误率和爬虫的误导性，真正发挥搜索引擎中的网络爬虫技术。中的作用。

　　参考：

　　[1] 曹忠，赵文静. 一种优化的网络爬虫的设计与实现[J]. 计算机知识与技术，2008(35).

　　[2] 王军，彭健。网络爬虫的结构设计研究[J]. 科技信息（学术研究），2007（27).

　　[3] 何才平，秦世刚，刘建勋。Web服务搜索引擎的设计与实现[J]．计算机应用与软件，2011(01).

　　[4] 刘雷安，傅志强．基于Web爬虫的设计与实现[J]．计算机知识与技术，2010(08).

　　[5] 何志文，郭立刚。搜索引擎技术在互联网音视频节目监控系统中的应用[J]. 广播电视技术, 2009 (03).

　　[6] 石克，周立兵，陶文兵。基于移动端的MAISE爬虫设计与实现*[J]. 华中科技大学学报（自然科学版），2005（S1).

　　[7] 周维维. 网络爬虫网络图书馆智能更新策略分析研究[J]．计算机知识与技术，2010(31).

　　爬虫网络示例

　　1、基于 Scrapy 的深网爬虫

　　2、如何选择新颖的网络党校论文题目

　　3、最新网络技术员论文选题参考网络技术员论文选题哪个好

　　4、如何确定最终在线论文的标题

　　5、如何选择新颖的网络学士论文题目

　　6、如何准备与在线学位相关的论文主题

　　爬虫参考总结：

　　爬虫网相关高校硕士、本科毕业论文、论文大纲、爬虫网论文开题报告、文献综述、参考文献。

0

2022-01-09

搜索引擎优化毕业论文

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化毕业论文(关于爬虫网络论文范文,可以做为相关论文参考文献,与写作提纲思路参考)

0 个评论

发起人