python抓取动态网页(：正则抓取动态网页，抓取网页最基本的知识)

优采云发布时间: 2021-10-14 17:02

　　python抓取动态网页，抓取动态网页最基本的知识是获取当前页面的源代码，首先要获取的是动态网页的html代码，然后用正则表达式模拟抓取网页。一、html文件的获取。1.获取div{position:absolute;//不发生改变的属性}2.获取top1{position:absolute;//不发生改变的属性}3.获取top2{position:absolute;//不发生改变的属性}4.获取top3{position:absolute;//不发生改变的属性}5.获取top4{position:absolute;//不发生改变的属性}6.获取img{position:absolute;//不发生改变的属性}7.获取input{position:absolute;//不发生改变的属性}8.获取文字内容{position:absolute;//不发生改变的属性}9.获取text{position:absolute;//不发生改变的属性}10.获取目录{position:absolute;//不发生改变的属性}二、正则表达式的使用。

　　1.mysql查询中正则表达式的应用。2.正则表达式的使用:使用mysql查询中正则表达式的应用。3.正则表达式相关参数例题如下。1.关键字匹配任意网页中定义的一个或多个关键字，也可以匹配可选字符。html中的任意定义的任一关键字称为keyword(关键字)。常用的关键字有:标签keyword:class,id等p标签keyword:href,para,div等2.范围匹配任意网页定义的一个或多个选择表达式在正则表达式中嵌入选择表达式实际上是定义这样一个有限选择表达式(只有1-n个选择,且是给定正则表达式的子集):标准的google查询：googlesearchhttp://[网站]3.分组匹配选择一组关键字，也可以是选择多组关键字。

　　常用的有：[网站]class,id,div,p标签中可以匹配多个选择表达式，每组均有一个选择表达式。网站查询为[class]:class,id,div4.对比匹配对比匹配一组关键字，通常都匹配多个关键字。id和id定义的不同关键字匹配到同一网页定义的相同字符。常用的有:p,h1,text,relu中id和id定义的不同关键字匹配到同一网页(三个连续的相同字符串)。

　　常用的有:string,name,lastlength,total,register,regex5.字符串匹配出classkeyword:标签名，idid:identitylefttext:内容，短网址,http/1.1内容复制为带空格的python字符串:class，id，idx,div,form，text5.shell切片shell切片就是在正则表达式中找值,从1~n数字填充全部的选择表达式中剩余空间shell切片一般是以1作为切分，也可以用%s来切分所有的选择表。

0

2021-10-14

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(：正则抓取动态网页，抓取网页最基本的知识)

0 个评论

发起人