Python模拟采集器搜寻网页内容并采集网页

优采云发布时间: 2020-08-09 05:41

　　python爬虫模拟抓取网页内容，采集网页内容，这里主要模拟新浪微博的内容，包括[源代码]抓取客户端微博信息，[源代码]抓取移动终端信息注意id和fan id（速度慢），[源代码]爬行移动终端的微博信息（强制推送）以及许多其他示例. 有关运行此示例的一些注意事项:

　　1. 首先安装Python环境，作者是Python 2.7.8

　　2. 重新安装PIP或easy_install

　　3. 通过命令pip install selenium安装selenium，这是一个用于自动测试和爬网的工具

　　4. 然后在代码中修改用户名和密码，填写您自己的用户名和密码

　　5. 运行该程序并自动调用Firefox浏览器以登录到微博

　　注意: 移动终端上的信息更加精致和简单，并且对动态加载没有任何限制. 但是，如果微博或粉丝ID仅显示20页，这是它的缺点；尽管客户端可能具有动态加载功能，例如评论和微博，但其信息更加完整.

　　注意:

　　输入:

　　名人用户ID列表，使用URL +用户ID进行访问（这些ID可以从用户的监视列表中获得）

　　SinaWeibo_List_best_1.txt

　　输出:

　　微博信息和基本用户信息

　　SinaWeibo_Info_best_1.txt

　　Megry_Result_Best.py

　　此文件的用户组织特定日期（例如2018年4月23日）的用户微博信息

0

2020-08-09

内容采集

0 个评论

要回复文章请先登录或注册