网页抓取qq(2019独角兽企业重金招聘Python工程师标准gt;gtgt)
优采云 发布时间: 2022-04-05 16:03网页抓取qq(2019独角兽企业重金招聘Python工程师标准gt;gtgt)
2019独角兽企业招聘Python工程师标准>>>
实施思路:
在一个电影中抓取所有电影网站的思路如下:
根据一个URL获取所有类别的电影网站获取每个类别的电影页数根据其电影类别的URL规律构造每个类别中每个页面的URL分析每个类别中的html page ,并用正则表达式过滤掉电影信息
准备工作:
安装python(我用的是mac系统,默认版本是python2.7.1) 安装mongodb,从官网下载最新版本,然后启动。如果你在外网,必须将验证密码或绑定地址设置为127.0.0.1,否则黑客很容易进去安装BeautifulSoup和pymongo模块安装一个python编辑器。我个人喜欢用sublime text2
写作部分:
本次以腾讯视频为例,其他视频网站改正则表达式即可。
根据所有视频类别的url获取网站中所有视频类别
所有腾讯视频的网址是:
首先我们导入urllib2包,在url中封装一个读取html的方法。详细代码如下:
导入所需模块并定义全局变量:
# -*- coding: utf-8 -*-
import re
import urllib2
from bs4 import BeautifulSoup
import string, time
import pymongo
NUM = 0 #全局变量,电影数量
m_type = u'' #全局变量,电影类型
m_site = u'qq' #全局变量,电影网站
gethtml方法,传入一个url,返回url的html内容:
#根据指定的URL获取网页内容
def gethtml(url):
req = urllib2.Request(url)
response = urllib2.urlopen(req)
html = response.read()
return html
然后查看这个URL的源代码文件就知道它的电影分类的信息在