python抓取网页数据(一种比较简单的实现方法有哪些?比较简单怎么做?)

优采云 发布时间: 2021-12-04 15:16

  python抓取网页数据(一种比较简单的实现方法有哪些?比较简单怎么做?)

  最近想在网上抓取资料研究一下,刚懂一点python,我们来看一个比较简单的实现方法。

  比如我要抓取奥巴马每周演讲的内容,如果是手动提取,需要一一点进去,然后复制保存,非常麻烦。

  有没有一种可以用python这样强大的语言快速实现的一步法。

  首先我们来看一下这个网页的源码

  

  

  可以发现我们想要的信息是这样的

  

  一个小网址。

  更具体地说,我们需要像这样遍历每个URL,并且需要从上面的网页中提取这个URL。

  OK,开始写代码

  首先打开这个目录页并保存在content中

  import sys,urllib

url="http://www.putclub.com/html/radio/VOA/presidentspeech/index.html"

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

  以下是提取每个演讲的内容

  具体思路是搜索“center_box”后搜索“href=”和“target”之间的内容。为什么会在这两者之间?请参阅网络源代码。

  你得到的是每篇文章的网址,每篇文章的网址文章都加在前面。

  print content.count("center_box")

index = content.find("center_box")

content=content[content.find("center_box")+1:]

content=content[content.find("href=")+7:content.find("target")-2]

filename = content

url ="http://www.putclub.com/"+content

print content

print url

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

  有了文章的内容的url后,同样的过滤内容。

<p>#print content

print content.count("

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线