浏览器抓取网页( Python公众号学的值得收藏|菜鸟学Python【入门文章大全】)
优采云 发布时间: 2022-02-01 06:22浏览器抓取网页(
Python公众号学的值得收藏|菜鸟学Python【入门文章大全】)
一直有一个传说,世界上有两种程序员:一种是程序员,一种是女程序员。如果你的女票是程序员,那么恭喜你好运!请多加小心,否则,我分分钟教你怎么做人。
前段时间,助教和我聊天,我吐出一肚子苦涩,说女人懂Python太可怕了。
1.事件起因
小马哥的女朋友也是懂Python的程序员(据说刚开始看我的菜鸟学Python公众号也值得采集|菜鸟学Python【简介文章大全】),相*敏*感*词*朋友逛街看电视剧,让她不开心,情绪激动。
我去洗了个澡,偷偷打开他的电脑看看他整天在看什么。你为什么不考虑妇女的选票?没想到女票只用了一行Python代码就获取了浏览器历史,让小马的上网记录一目了然。事发后,一切安好,没有危险。今天给大家介绍一下这款神器。
1.神库浏览器历史库介绍
browserhistory 是 Python 的第三方库 browserhistory。获取浏览器的历史记录非常方便。Python真是无所不能,现成的轮子太多了,你只需要学会组装。
对于 browserhistory 的安装,可以使用命令 pip install browserhistory 来安装。
browserhistory是一个简单的python脚本库,支持Linux、Mac和Windows系统,支持Firefox、Google和Safari浏览器的历史记录。使用的方法非常简单。
2.如何使用
我们先来看看 browserhistory 的简单用法。需要注意的是,在使用浏览器历史库之前需要关闭浏览器。一个简单的应用程序如下所示:
程序首先导入 browserhistory 库,然后使用 get_browserhistory 函数获取浏览器的历史记录。dict_obj.keys() 返回要抓取的浏览器类型。爬取的浏览器历史记录收录网页地址和网页标题。
3.抓取浏览记录并写入本地文件
browserhistory库有四个函数,我们主要用到两个:
get_browserhistory 函数是获取浏览器的历史记录;write_browserhistory_csv函数是将获取的历史浏览记录写入本地csv文件。
get_database_paths函数用于输出浏览器的历史存储路径,get_username是获取用户名。
我们可以直接使用browserhistory.write_browserhistory_csv,一行代码就可以将浏览器的历史写入本地。
4.窥探历史
获得上述浏览器历史记录后,可以通过简单的数据分析进一步窥探秘密。
1)。用五行代码统计你经常浏览的网址的域名:
程序使用urlparse解析网页地址,输入网页地址的域名(netloc)。接下来,您可以进行统计并获取浏览时间最长的网页的域名。
2)。使用 Pyecharts 进行可视化分析
为了更好的展示,可以使用pyecharts库进行可视化展示。结果如下所示:
可以看出,访问量最大的网页域名是虎扑域名。当他的女朋友检查并分析了他的浏览器历史时,她终于满意地笑了,一个潜在的危机解决了。
所以,一个友好的提醒,不要继续一些奇怪的网站。另外,记得及时清理你的历史!友情提示,没事的话,回去看看浏览器记录吧!
好了,今天的分享就到这里了,欢迎大家在评论区吆喝~记得给个三连哦!