python抓取网页数据(一种比较简单的实现方法有哪些？比较简单怎么做？)

优采云发布时间: 2021-12-04 15:16

　　最近想在网上抓取资料研究一下，刚懂一点python，我们来看一个比较简单的实现方法。

　　比如我要抓取奥巴马每周演讲的内容，如果是手动提取，需要一一点进去，然后复制保存，非常麻烦。

　　有没有一种可以用python这样强大的语言快速实现的一步法。

　　首先我们来看一下这个网页的源码

　　可以发现我们想要的信息是这样的

　　一个小网址。

　　更具体地说，我们需要像这样遍历每个URL，并且需要从上面的网页中提取这个URL。

　　OK，开始写代码

　　首先打开这个目录页并保存在content中

　　import sys,urllib

url="http://www.putclub.com/html/radio/VOA/presidentspeech/index.html"

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

　　以下是提取每个演讲的内容

　　具体思路是搜索“center_box”后搜索“href=”和“target”之间的内容。为什么会在这两者之间？请参阅网络源代码。

　　你得到的是每篇文章的网址，每篇文章的网址文章都加在前面。

　　print content.count("center_box")

index = content.find("center_box")

content=content[content.find("center_box")+1:]

content=content[content.find("href=")+7:content.find("target")-2]

filename = content

url ="http://www.putclub.com/"+content

print content

print url

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

　　有了文章的内容的url后，同样的过滤内容。

<p>#print content

print content.count("

0

2021-12-04

python抓取网页数据

0 个评论

要回复文章请先登录或注册