网页抓取qq(一基本概念在Python中抓取网页的组件来解析当前页面 )

优采云 发布时间: 2022-02-18 14:01

  网页抓取qq(一基本概念在Python中抓取网页的组件来解析当前页面

)

  一个基本概念

  在 Python 中,我们使用 urllib2 组件来抓取网页。 urllib2 是一个用于获取 URL(统一资源定位器)的 Python 组件。它以 urlopen 函数的形式提供了一个非常简单的接口。

  HTML 的第二部分

  (1)DTD header,用来告诉浏览器用什么语言来解析当前页面。

  (2)head 告诉浏览器一些相关信息。

  (3)正文收录供人们查看的数据。

  按F12显示页面代码信息

  

  三用python抓取图片源码

  四用python爬取网页文本信息源代码

  # coding=utf-8

import urllib2

import urllib

import re

import thread

import time

from bs4 import BeautifulSoup

url="http://toutiao.sogou.com/?fr=qqxwtt"

page = urllib.urlopen(url)#打开网址

html = page.read() #读取网页内容,保存到htlm中

bs0bj=BeautifulSoup(html) #创建一个beautifulsoup的类

namelist=bs0bj.findAll("a")#通过标签筛选文字信息

for name in namelist:

print (name.get_text())

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线