chrome 插件 抓取网页qq聊天记录(如何安装和配置WebScraper?(一)写代码 )
优采云 发布时间: 2022-01-26 17:01chrome 插件 抓取网页qq聊天记录(如何安装和配置WebScraper?(一)写代码
)
今天我将讨论一种无需编写代码即可捕获数据的方法。这种方式可以满足相当一部分人的需求。
爬取数据通常需要程序编写网络请求代码来获取网页。当一些网页异步加载或者被JS混淆的时候,需要耗费精力去分析。尤其是很多爬虫玩家都是非专业玩家,写代码其实挺难的。据我了解,大部分公司或者爬取数据的需求都是一次性的,获取到的数据量级很小,上千甚至上千。10万条数据的规模是一次性的。这可以在不开发程序的情况下使用一些工具来完成,例如 Web Scraper 工具。
网络刮刀
Web Scraper 是一款无需复杂安装和配置,以 Chrome 插件形式运行在 Chrome 浏览器上的网页抓取工具。不用担心抓取到的网页是不是异步加载或者有JS混淆。可能需要数小时甚至数天)。非常适合一次性/短期/非爬虫类职业玩家爬取数据的需求。
例如,为了演示,我们想在这个 网站 URL 下获取商店名称和用户评论。
如何安装和配置 Web Scraper?
1.在Chrome浏览器的插件商店中搜索Web Scraper进行安装。如果无法访问 Chrome 插件商店,请在猿人学习 Python 公众号上回复 Web Scraper。你可以在本地安装 Chrome 插件,以后就不行了。反复。
2.安装Web Scraper插件后,打开Chrome浏览器的开发者工具,看到Web Scraper选项,表示安装成功。
3.配置爬取规则
配置也很简单。首先,我们在编写爬取网页的程序时,通常需要一个入口页面(这个页面通常是频道页、列表页等),程序提取入口页面的URL,然后访问这些 URL 然后提取我们需要的详细信息。
例如,需要提取大众点评私厨菜品类下的小店名和评论。我们首先需要一个入口页面(也就是私厨频道的网址),提取页面中的小店网址,程序访问这些小店网址,然后提取小店名、评论等信息店铺。
配置 Web Scraper 也是如此。您需要一个入口页面(Start URL),然后配置提取入口页面的URL规则。配置完成后,配置提取详细页面信息的规则。详细的Web Scraper教程,可以查看原文。我在猿人学网站上写了一个简单的Web Scraper配置教程。
比如你想在大众点评私厨频道里抢小店,评论评论。
第一步是使用私厨频道的 URL 作为开始 URL。
如果要翻页,查看大众点评的翻页规则,它的翻页是这样的:
第二页
第三页
翻页规则可以这样写
[0-5]
表示从第 1 页翻到第 5 页
第二步,创建入口页面中的URL提取规则,即提取店铺的URL,看gif最直观:
完全是可视化操作。在Type中选择Link,在Selector中选择Select,然后用鼠标在页面上选择店铺,自动编写提取店铺URL的xpath规则。点击数据预览,查看并预览抽取规则是否生效。
第三步是提取店铺详情的常用规则,比如提取评论:
如果熟练的话,10-20分钟就可以配置一条爬取规则。当然,对于更复杂的数据抽取规则,你可以阅读其官网的文档。
使用 Web Scraper 一次捕获数千条数据不是问题。适用于抓取少量数据进行数据分析,或者对抓取的数据进行补充。当然,如果配合切换代理ip软件使用,也可以长时间抓取大量数据,但效率没那么高。
总结一下Web Scraper的优势:
1.可以通过ajax捕获动态加载的数据,比如翻页数据;
2.可以将采集到的数据以CSV文件格式导出到本地;
3.抓取需要登录的数据比较方便,因为这个插件是运行在浏览器上的;
4.不用担心 JS/CSS 混淆数据;
5.简单配置,可视化配置抽取规则。
最后,小编有六年的开发经验。我做过python资料的整合,完整的python编程学习路线,学习资料和工具。想要这些素材的可以关注小编后台私信:发“01”领取,希望对你有帮助。