python抓取网页数据(Python模拟登陆新浪微博数据教程(withpy2021-11-12))

优采云发布时间: 2021-12-15 11:05

　　首页>博客文章BeautifulSoup+Regular+Python 抓取网页数据

　　withpy2021-11-12

　　简介最近在研究使用Python抓取新浪微博上的数据。花了五天时间，终于写出了这段代码。我从很多人的经验中学习，接触到了很多新事物。这里是一个简短的总结。（一)Python模拟登录新浪微博这个主要是用网上找的例子。（二)BeautifulSoup登录后就是数据抓取部分。这里我主要用了两种技巧。首先是 BeautifulSoup ，这个需要自己安装，安装方法如下：Windows平台安装B" />

　　最近在研究使用Python抓取新浪微博数据。花了五天时间，终于写出了这段代码。我从很多人的经验中学习，也接触到了很多新的东西。这里是一个简短的总结。

　　（一)Python模拟登陆新浪微博

　　这主要是基于在互联网上找到的例子。

　　(二)美丽的汤

　　登录后就是抓取数据部分了。这里我主要使用两种技术。第一个是BeautifulSoup，需要自己安装。安装方法如下：

　　在 Windows 上安装 Beautiful Soup

　　我们来谈谈如何在Windows下安装Beautiful Soup：

　　1.下载，最新版本是beautifulsoup4-4.3.2。

　　2. 下载完成后需要解压，假设放在D:/python下。

　　3.运行cmd，切换到D:/python27/beautifulsoup4-4.3.2/目录（根据解压后的目录和下载的版本号修改），

　　cd /d D:/python27/beautifulsoup4-4.3.2

　　4.运行命令：

　　setup.py 构建

　　setup.py 安装

　　5.IDE from bs4 import BeautifulSoup下，没有报错，说明安装成功。

　　Beautiful Soup 的官方文档很齐全，你可以通过练习官方的例子来掌握它。官方英文文件，

　　我主要使用 BeautifulSoup 来获取 HTML 文档中的结构化数据列表。如果只得到某条数据，可以使用正则性。下面是一起使用regular和soup的例子

　　webpage = self.fetch(url)

soup = BeautifulSoup(webpage)

top_div=soup.findAll('div',{'id':'anything'})

all_a = top_div[0].findAll('a')

userID = ''

for a in all_a:

str_href = a.get('href')

#print str_href

pattern = '/(\d+)/info'

my_href = re.findall(pattern,str_href)

if my_href:

userID = my_href[0]

print 'userID: ' + userID

　　(三)常规

　　Python+正则例子很多，我主要参考这个教程

　　核心应该是这张图

　　代码示例如下：

　　#获取页数

def get_page_count(self,url):

pattern = 'type="hidden" value="(\d+?)"'

page_number = re.findall(pattern,self.fetch(url))

if page_number:

return page_number[0]

return 1

　　总结

　　以上是本站为您采集的BeautifulSoup+Regular+Python抓取网页数据。希望文章可以帮助大家解决BeautifulSoup+Regular+Python抓取网页数据遇到的程序开发问题。

　　如果您觉得本站网站的内容还不错，欢迎向程序员朋友推荐本站网站。

0

2021-12-15

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(Python模拟登陆新浪微博数据教程(withpy2021-11-12))

0 个评论

发起人

AI时代内容工厂

python抓取网页数据(Python模拟登陆新浪微博数据教程(withpy2021-11-12))

0 个评论

发起人

相关问题