python抓取网页数据(一种比较简单的实现方法有哪些?比较简单怎么做?)
优采云 发布时间: 2021-12-04 15:16python抓取网页数据(一种比较简单的实现方法有哪些?比较简单怎么做?)
最近想在网上抓取资料研究一下,刚懂一点python,我们来看一个比较简单的实现方法。
比如我要抓取奥巴马每周演讲的内容,如果是手动提取,需要一一点进去,然后复制保存,非常麻烦。
有没有一种可以用python这样强大的语言快速实现的一步法。
首先我们来看一下这个网页的源码
可以发现我们想要的信息是这样的
一个小网址。
更具体地说,我们需要像这样遍历每个URL,并且需要从上面的网页中提取这个URL。
OK,开始写代码
首先打开这个目录页并保存在content中
import sys,urllib
url="http://www.putclub.com/html/radio/VOA/presidentspeech/index.html"
wp = urllib.urlopen(url)
print "start download..."
content = wp.read()
以下是提取每个演讲的内容
具体思路是搜索“center_box”后搜索“href=”和“target”之间的内容。为什么会在这两者之间?请参阅网络源代码。
你得到的是每篇文章的网址,每篇文章的网址文章都加在前面。
print content.count("center_box")
index = content.find("center_box")
content=content[content.find("center_box")+1:]
content=content[content.find("href=")+7:content.find("target")-2]
filename = content
url ="http://www.putclub.com/"+content
print content
print url
wp = urllib.urlopen(url)
print "start download..."
content = wp.read()
有了文章的内容的url后,同样的过滤内容。
<p>#print content
print content.count("