网页源代码抓取工具(美女图片镇场子，免得你们说我光说不练假把式！)

优采云发布时间: 2021-12-29 13:41

　　首先，爬取镇上美女的图片，免得你说我刚才讲了！

　　话不多说，开始吧！首先了解需要额外安装的第三方库

　　由于淘女郎网站收录

AJAX技术，因此只需与后台交换少量数据即可实时更新，这意味着直接抓取网页源代码并分析信息的方法行不通。

　　对于这类网站，一般有两种抓取方式：

　　使用selenium库模拟浏览器的用户行为，使服务器认为真实用户在浏览网页，从而获得完整的网页源代码

　　使用Chrome等浏览器自带的分析工具对网页的网络进行监控，分析数据交换API，利用API捕获数据交换的JSON数据，然后进行捕获。

　　从效率上看，第一种方法比较慢，也占用系统资源，所以我们用第二种方法来实现。

　　先写请求，然后从淘女孩网站获取JSON文件。

　　将请求发送到服务器。然后获取服务端的JSON数据，对返回的数据进行处理，再转换成Python字典类型返回。具体代码如下：

def getInfo(paeNum):

tao_datas ('vievFiag':"A", "currentPage": pageNum)

try:

r=requests. post ("http://nn. taobao. com/tatar/seateh/tatar_nodel. do?_input_charset=utf-8*， data = tao. data)

except:

return None

rav_datas = json. loads(r.text)

datas rav_datas['data']['searchDoList']

returh dat as

　　返回后，我们连接MongoDB，保存返回的信息。

　　def main():

client = MongoClient ()

db =client. TaoBao

col = db. TaoLady

for pageNun in range(I，411): 淘女郎一共有410页，所以我们抓取从1到第411页的内容。

print (pageNun)

datas=getInfo(pageNun)

if datas;

col.insert_nany(datas)

if__nane__='__main__';

main()

　　分析返回的信息，然后提取消息中的图片URL信息，将过度使用的图片保存到PIC文件夹中：

　　def downPic():

client=HongoClient()

db = client.TaoBao

col=db.TaoLady

for data in col, find():

nane = data['realName']

url =“http:" + data[" avatarUr1']

pie=urlopen(url)

vith, open("pic/" + name +"，jpa，vb”) as file:

print(name)

file.vrite(pic. read())

if __nane__='__main__':

downPic()

　　OK，大功告成，原图全部超清晰，不过由于图片数量多，我的16G U盘几乎装不下，这里就不一一展示了，只截了一部分大家来看看。如果觉得文章还行，不妨点个赞。任何意见或意见，欢迎评论！

　　我是python开发工程师，整理了一套python学习资料。如果你想提升自己，对编程感兴趣，请关注我，私信后台编辑：《08》可免费领取素材！希望能帮到你！

0

2021-12-29

网页源代码抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页源代码抓取工具(美女图片镇场子，免得你们说我光说不练假把式！)

0 个评论

发起人