chrome 插件抓取网页qq聊天记录(如何安装和配置WebScraper？（一）写代码 )

优采云发布时间: 2022-01-26 17:01

　　chrome 插件抓取网页qq聊天记录(如何安装和配置WebScraper？（一）写代码

)

　　今天我将讨论一种无需编写代码即可捕获数据的方法。这种方式可以满足相当一部分人的需求。

　　爬取数据通常需要程序编写网络请求代码来获取网页。当一些网页异步加载或者被JS混淆的时候，需要耗费精力去分析。尤其是很多爬虫玩家都是非专业玩家，写代码其实挺难的。据我了解，大部分公司或者爬取数据的需求都是一次性的，获取到的数据量级很小，上千甚至上千。10万条数据的规模是一次性的。这可以在不开发程序的情况下使用一些工具来完成，例如 Web Scraper 工具。

　　网络刮刀

　　Web Scraper 是一款无需复杂安装和配置，以 Chrome 插件形式运行在 Chrome 浏览器上的网页抓取工具。不用担心抓取到的网页是不是异步加载或者有JS混淆。可能需要数小时甚至数天）。非常适合一次性/短期/非爬虫类职业玩家爬取数据的需求。

　　例如，为了演示，我们想在这个网站 URL 下获取商店名称和用户评论。

　　如何安装和配置 Web Scraper？

　　1.在Chrome浏览器的插件商店中搜索Web Scraper进行安装。如果无法访问 Chrome 插件商店，请在猿人学习 Python 公众号上回复 Web Scraper。你可以在本地安装 Chrome 插件，以后就不行了。反复。

　　2.安装Web Scraper插件后，打开Chrome浏览器的开发者工具，看到Web Scraper选项，表示安装成功。

　　3.配置爬取规则

　　配置也很简单。首先，我们在编写爬取网页的程序时，通常需要一个入口页面（这个页面通常是频道页、列表页等），程序提取入口页面的URL，然后访问这些 URL 然后提取我们需要的详细信息。

　　例如，需要提取大众点评私厨菜品类下的小店名和评论。我们首先需要一个入口页面（也就是私厨频道的网址），提取页面中的小店网址，程序访问这些小店网址，然后提取小店名、评论等信息店铺。

　　配置 Web Scraper 也是如此。您需要一个入口页面（Start URL），然后配置提取入口页面的URL规则。配置完成后，配置提取详细页面信息的规则。详细的Web Scraper教程，可以查看原文。我在猿人学网站上写了一个简单的Web Scraper配置教程。

　　比如你想在大众点评私厨频道里抢小店，评论评论。

　　第一步是使用私厨频道的 URL 作为开始 URL。

　　如果要翻页，查看大众点评的翻页规则，它的翻页是这样的：

　　第二页

　　第三页

　　翻页规则可以这样写

　　[0-5]

　　表示从第 1 页翻到第 5 页

　　第二步，创建入口页面中的URL提取规则，即提取店铺的URL，看gif最直观：

　　完全是可视化操作。在Type中选择Link，在Selector中选择Select，然后用鼠标在页面上选择店铺，自动编写提取店铺URL的xpath规则。点击数据预览，查看并预览抽取规则是否生效。

　　第三步是提取店铺详情的常用规则，比如提取评论：

　　如果熟练的话，10-20分钟就可以配置一条爬取规则。当然，对于更复杂的数据抽取规则，你可以阅读其官网的文档。

　　使用 Web Scraper 一次捕获数千条数据不是问题。适用于抓取少量数据进行数据分析，或者对抓取的数据进行补充。当然，如果配合切换代理ip软件使用，也可以长时间抓取大量数据，但效率没那么高。

　　总结一下Web Scraper的优势：

　　1.可以通过ajax捕获动态加载的数据，比如翻页数据；

　　2.可以将采集到的数据以CSV文件格式导出到本地；

　　3.抓取需要登录的数据比较方便，因为这个插件是运行在浏览器上的；

　　4.不用担心 JS/CSS 混淆数据；

　　5.简单配置，可视化配置抽取规则。

　　最后，小编有六年的开发经验。我做过python资料的整合，完整的python编程学习路线，学习资料和工具。想要这些素材的可以关注小编后台私信：发“01”领取，希望对你有帮助。

0

2022-01-26

chrome 插件抓取网页qq聊天记录

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

chrome 插件抓取网页qq聊天记录(如何安装和配置WebScraper？（一）写代码 )

0 个评论

发起人

AI时代内容工厂

chrome 插件 抓取网页qq聊天记录(如何安装和配置WebScraper？（一）写代码 )

0 个评论

发起人

相关问题

chrome 插件抓取网页qq聊天记录(如何安装和配置WebScraper？（一）写代码 )