网页抓取qq(一基本概念在Python中抓取网页的组件来解析当前页面 )

优采云发布时间: 2022-02-18 14:01

　　网页抓取qq(一基本概念在Python中抓取网页的组件来解析当前页面

)

　　一个基本概念

　　在 Python 中，我们使用 urllib2 组件来抓取网页。 urllib2 是一个用于获取 URL（统一资源定位器）的 Python 组件。它以 urlopen 函数的形式提供了一个非常简单的接口。

　　HTML 的第二部分

　　(1）DTD header，用来告诉浏览器用什么语言来解析当前页面。

　　(2）head 告诉浏览器一些相关信息。

　　(3）正文收录供人们查看的数据。

　　按F12显示页面代码信息

　　三用python抓取图片源码

　　四用python爬取网页文本信息源代码

　　# coding=utf-8

import urllib2

import urllib

import re

import thread

import time

from bs4 import BeautifulSoup

url="http://toutiao.sogou.com/?fr=qqxwtt"

page = urllib.urlopen(url)#打开网址

html = page.read() #读取网页内容，保存到htlm中

bs0bj=BeautifulSoup(html) #创建一个beautifulsoup的类

namelist=bs0bj.findAll("a")#通过标签筛选文字信息

for name in namelist:

print (name.get_text())

0

2022-02-18

网页抓取qq

0 个评论

要回复文章请先登录或注册