网页信息抓取软件(陈前进:搜寻引擎蜘蛛和网页的三大问题(图))

优采云 发布时间: 2022-02-20 02:00

  网页信息抓取软件(陈前进:搜寻引擎蜘蛛和网页的三大问题(图))

  搜索引擎蜘蛛和网页的三大问题

  陈千金

  1

  .

  1. 搜索引擎蜘蛛能找到你的网页吗?

  2. 搜索引擎蜘蛛找到网页后可以抓取吗?

  获取网页

  三、搜索引擎蜘蛛爬取网页后,能否

  可以提取有用的信息

  2

  .

  他们的报告并非完全免费供搜索者查看,因此需要向网络蜘蛛提供相应的用户名和密码;网络蜘蛛可以通过给定的权限抓取这些网页以提供搜索;并且当搜索者点击查看网页时,搜索者还需要提供相应的权限验证;

  10

  .

  ⑵网站和网络蜘蛛

  网络蜘蛛需要爬取网页,这与普通的访问不同。如果没有掌握好,会导致网站服务器负担过重;每个网络蜘蛛都有自己的名字。网站表明你的身份;网络蜘蛛在抓取网页时会发送一个请求。在这个请求中,有一个名为 User-agent 的字段,用于标识网络蜘蛛的身份:

  谷歌网络蜘蛛被识别为 GoogleBot,

  百度网络蜘蛛的标志是BaiDuSpider,

  雅虎网络蜘蛛被识别为 Inktomi Slurp;

  如果网站上有访问日志记录(robots.txt),网站管理员可以知道哪些搜索引擎蜘蛛访问过,何时访问过,读取了多少数据等;如果 网站 管理器发现蜘蛛有问题,它会通过它的 ID 联系它的主人;

  11

  .

  现在一般的网站希望搜索引擎能更全面的抓取自己的网站网页,因为这样可以让更多的访问者通过搜索引擎找到这个网站;这个网站的网页爬取比较全面,网站管理员可以创建网站地图,即Site Map;很多网络蜘蛛都会把sitemap.htm文件作为网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接都放在这个文件里,然后网络蜘蛛可以轻松抓取整个 网站 ,防止部分网页遗漏,同时也减轻了 网站 服务器的负担;(Google 专门为 网站 管理员提供 XML Sitemaps)

  12

  .

  (3) 网络蜘蛛提取内容

  搜索引擎建立网页索引,处理对象为文本文件;对于网络蜘蛛来说,爬取的网页包括各种格式。

  包括html、图片、doc、pdf、多媒体、动态网页等格式;

  抓取这些文件后,需要提取这些文件中的文本信息;这些文档信息的精确提取一方面对搜索引擎的搜索准确性起着重要作用,另一方面对网络蜘蛛正确跟踪其他链接也有积极作用。影响;

  对于doc、pdf等文档,以及专业厂商提供的软件生成的文档,厂商会提供相应的文本提取接口

  由于目前主流的网站大部分都是用HTML编写的,这里就泛泛的说一下HTML;

  13

  .

  HTML有自己的语法,它使用不同的命令标识符来表示不同的字体、颜色、位置和其他布局,例如:、、等。在提取文本信息时,需要过滤掉这些标识符;过滤标识符并不难,由于这些标识符有一定的规定,只需要根据不同的标识符获取相应的信息即可;

  但是在识别这个信息的时候,需要同时记录很多布局信息,比如文字的字体大小,是否是标题,是否显示为粗体,是否是关键词页面的重要性等页面的重要性;

  同时,对于HTML页面,除了标题和正文外,还会有很多广告链接和公共频道链接。这些链接与正文无关。在提取网页内容的时候,也需要过滤掉这些无用的链接;

  比如某网站有一个“医院介绍”频道。由于网站中每个网页都有导航栏,如果不过滤导航栏中的链接,在搜索“产品介绍”时,会搜索到网站中的每个网页,这无疑会带来大量的垃圾邮件;

  14

  .

  那么如何用 ASP 构建一个网络蜘蛛呢?答案是:互联网传输控制(ITC information transfer control);Microsoft 提供的这种控制将使您能够通过 ASP 程序访问 Internet 资源;您可以使用 ITC 搜索网页、访问 FTP 服务器,甚至发送电子邮件标头;

  有几个缺陷必须首先解释;首先,ASP无权访问Windows注册表,这使得一些通常由ITC保留的常量和值无法使用;通常可以将 ITC 设置为“不使用默认值”来解决这个问题,需要在每次运行时指定该值;另一个更严重的问题是关于许可证的问题;因为ASP没有调用License Manager(Windows中的一个功能,可以保证组件和控制合法使用)的能力,那么当License Manager检查当前组件的密钥密码并与Windows注册表进行比较时,如果发现它们不同,则组件将无法工作;所以,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线