网页抓取数据百度百科(5.抢票软件什么是网络爬虫？(数据冰山知乎))

优采云发布时间: 2021-11-18 10:01

　　爬虫的实际例子：1.百度、谷歌（搜索引擎）、

　　2.新闻联播（各种资讯网站），

　　3.各种购物助手（比价程序）

　　4.数据分析（数据冰山知乎）

　　5.什么是网络爬虫？来自：百度百科

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐）是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

　　背景

　　随着互联网的飞速发展，万维网已经成为海量信息的载体。如何有效地提取和利用这些信息成为一个巨大的挑战。搜索引擎，如传统的通用搜索引擎 AltaVista、Yahoo! 谷歌等作为辅助人们检索信息的工具，成为用户访问万维网的入口和向导。但是，这些通用的搜索引擎也有一定的局限性，例如：

　　一般搜索引擎大多提供基于关键字的搜索。，难以支持基于语义信息的查询。

　　为了解决上述问题，针对相关网络资源进行针对性抓取的聚焦爬虫应运而生。Focus Crawler 是一个自动下载网页的程序。它根据建立的爬取目标有选择地访问万维网上的网页和相关链接，以获取所需的信息。与通用网络爬虫不同，聚焦爬虫不追求大的覆盖范围，而是将目标设定为抓取与特定主题内容相关的网页，并为面向主题的用户查询准备数据资源。

0

2021-11-18

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(5.抢票软件什么是网络爬虫？(数据冰山知乎))

0 个评论

发起人