php抓取网页标签(反馈您可以通过推送后返回的状态码和字段来判断数据是否成功)
优采云 发布时间: 2022-04-12 22:25php抓取网页标签(反馈您可以通过推送后返回的状态码和字段来判断数据是否成功)
);
curl_setopt_array($ch, $options);
$result = curl_exec($ch);
回显 $result;
4)ruby 推送示例
需要'net/http'
网址 = ['#39;, '#39;]
uri = URI.parse('
site=&token=eTk7ychrWZP1pDQD')
req = Net::HTTP::Post.new(uri.request_uri)
req.body = urls.join("\n")
req.content_type = '文本/纯文本'
res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body 如何查看推送反馈
可以通过推送后返回的状态码和字段判断数据是否推送成功。
1,状态码为200,表示推送成功,可能返回以下字段:
字段
是否需要
参数类型
说明
成功
是的
int
成功推送的网址数
留下
是的
int
当天剩余的可推送网址数
not_same_site
没有
数组
未处理的网址列表,因为它们不是本网站的网址
无效
没有
数组
非法网址列表
成功返回示例:
{
“剩余”:4999998,
“成功”:2,
"not_same_site":[],
"not_valid":[]
}
2、状态码为4XX或500,表示推送失败,返回字段为:
字段
是否需要
类型
说明
错误
是的
int
错误码,同状态码
消息
是的
字符串
错误描述
常见推送失败返回示例说明:
错误
消息
意义
400
网站错误
网站未经站长平台验证
空内容
帖子内容为空
一次只允许 2000 个网址
一次最多只能提交 2000 个链接
超额
超过每日限额,超过限额后提交无效
401
令牌无效
令牌错误
404
找不到
接口地址填写错误
500
内部错误,请稍后再试
偶尔服务器异常,一般重试会成功
1、与原来的sitemap提交界面有什么区别?
答:状态反馈更及时。本来,提交后需要登录站长平台查看是否提交成功。目前只能根据提交后返回的数据来判断。
2、现有提交站点地图数据的程序代码需要修改什么?
回答:主要有两个变化。第一点是提交的接口需要修改;第二点是需要对接口返回的信息进行处理。失败后,需要根据错误进行处理。报错链接无法提交成功
3、为什么提交成功后看不到数据变化?
回答:我们的反馈是新提交的链接数量。如果您提交的链接之前已经提交过(即重复提交),则不计入内
4。什么时候使用主动推送提交功能最有效?
回答:页面链接生成或发布时立即提交,这样效果最好
5、一次提交一份数据和多份数据有什么区别?
答案:没有区别
6。重新提交已经发布的链接有什么问题?
A:会有两种效果。首先,您提交的配额将被浪费。每个站点每天可以提交的提交数量是有限制的。如果您提交了旧链接,当有新链接时,您可能会因为配额用尽而无法提交。二、如果您频繁重复提交旧链接,我们会减少您的配额,您可能会失去主动推送功能的权限
7、主动推送可以推送多少个链接?
回答:主动推送可以提交的链接数量上限是根据您提交的新生成的有价值链接的数量来确定的。百度会根据提交新链接的数量不时调整上限。链接数越多,可以提交的链接数限制就越高。
站点地图是您的 网站 上的页面列表。创建和提交站点地图有助于百度发现和了解您 网站 上的所有页面。您也可以通过 Sitemap 提供关于您的其他信息网站,例如最后更新日期、Sitemap 文件的更新频率等,供百度蜘蛛参考。
百度不保证所有网址都会被抓取并索引提交的数据。但是,我们会使用 Sitemap 中的数据来了解 网站 的结构,这可以帮助我们改进我们的抓取策略,并在未来更好地抓取 网站。
此外,站点地图对搜索排名没有影响。
百度Sitemap协议支持三种格式:文本格式、xml格式、Sitemap索引格式。您可以根据自己的情况选择任何格式来组织站点地图。具体格式说明及示例如下:
以txt文本列出需要提交给百度的链接地址,通过站长平台提交txt文本文件
此文本文件需要以下准则:
·文本文件每行必须有一个URL。 URL 中不能有换行符。
·不应收录除 URL 列表以外的任何信息。
·你必须写完整的URL,包括http。
·每个文本文件最多可收录 50,000 个 URL,并且应小于 10MB(10,485,760 字节)。如果 网站 收录超过 50,000 个 URL,您可以将列表拆分为多个文本文件并单独添加每个文件。
·文本文件需要使用UTF-8编码或者GBK编码。
单个xml数据的格式如下:
2009-12-14
每天
0.8
2010-05-01
每天
0.8
以上Sitemap向百度提交了一个url:
如果有多个url,按照上面的格式重复分段,列出所有url地址,打包成xml文件,提交给站长平台。
首先,站点地图文件收录的网址不得超过 50,000 个,并且大小不得超过 10 MB。如果您的站点地图超出这些限制,请将其拆分为几个较小的站点地图。这些限制有助于确保您的网络服务器不会因提供大文件而过载。
其次,站点支持的站点地图文件数量必须少于 50,000 个。如果sitemap文件数量超过50000个,则不处理,并提示“链接数过多”。
第三,如果网站的主域被验证,Sitemap文件可以收录网站主域下的所有URL。
第一步是制作要提交到站点地图文件中的网页列表。文件格式请阅读百度站点地图协议支持哪些格式。
第二步是将Sitemap文件放到网站目录下。比如你的网站是,你已经创建了sitemap_example.xml的Sitemap文件,上传sitemap_example.xml到网站根目录或者/sitemap_example.xml
第三步,登录百度站长平台,确保提交Sitemap数据的网站已经验证了归属。
第四步,进入Sitemap工具,点击“Add New Data”,文件类型选择“URL List”,并填写爬取周期和Sitemap文件地址
最后,提交后,可以在Sitemap列表中看到提交的Sitemap文件。如果Sitemap文件中有新的网站链接,可以选中该文件,点击Update进行选择,即更新网站链接。 @网站链接已提交。
百度推出了移动站点地图协议,用于将 URL 提交到移动搜索收录。百度手机Sitemap协议是在标准Sitemap协议的基础上制定的,增加了标签。它有四个值:
没有上述标签,表示为PC网页
下面的例子相当于向百度手机搜索提交了一个手机网页:,
向 PC Search 提交了一个传统网页:,
向移动和 PC 搜索提交了自适应网页:
xmlns:mobile="">
2009-12-14
每天
0.8
2009-12-14
每天
0.8
2009-12-14
每天
0.8
2009-12-14
每天
0.8
按照Mobile Sitemap协议完成Sitemap后,在Sitemap工具中点击Add New Data提交,与提交普通Sitemap相同。
百度蜘蛛会参考设置周期抓取Sitemap文件,请根据Sitemap文件内容的更新进行设置(如添加新的url)。请注意,如果url保持不变,只是更新了url对应的页面内容(例如论坛发帖页面有新回复),则不在本次更新范围内。 Sitemap 工具无法解决页面更新问题。
Sitemap数据提交后,百度一般会在1小时内开始处理。在以后的定时爬取中,如果您的站点地图支持etag,我们会更频繁地爬取站点地图文件,及时发现内容更新;否则,爬取周期会更长。
百度不保证提交的数据会被抓取到收录所有的网址。 收录 是否与页面质量有关。
是的。请使用 gzip 压缩站点地图。站点地图应小于 10MB(10,485,759 字节),无论是否压缩。
没有。 Sitemap 中的“优先级”提示仅表明该 URL 相对于您自己 网站 上的其他 URL 的重要性,不会影响页面在搜索结果中的排名。
没有。站点地图中 URL 的位置不会影响百度识别或使用它的方式。
由于转码问题,建议不要收录中文。
【特别提醒】本工具暂时下线,如恢复,将另行通知。
自动推送JS代码是百度站长平台最新推出的轻量级链接提交组件。站长只需要将自动推送的JS代码放置在网站各个页面的源码中即可。当页面被访问时,页面链接会自动推送到百度,有利于百度更快发现新页面。
为了更快速地发现网站每天产生的最新内容,百度站长平台推出了主动推送工具。产品上线后,有站长反映使用主动推送的技术门槛比较高,所以我们顺势推出了成本更低的JS自动推送工具。一步安装,实现页面自动推送,成本低,利润高。
站长需要在每个页面的HTML代码中收录如下自动推送JS代码:
如果站长使用PHP语言开发的网站,可以按照以下步骤进行:
1、创建一个名为“baidu_js_push.php”的文件,文件内容为上述自动推送JS代码;
2、在每个PHP模板页面文件的标签后添加一行代码:
基于自动推送的实现原理,每次浏览新页面,页面URL都会自动推送到百度,无需站长聚合URL再进行主动推送操作。
利用用户的浏览行为触发推送动作,节省站长手动操作的时间。
链接提交中已经使用主动推送(或站点地图)的网站是否还需要部署自动推送代码?
两者不冲突,相得益彰。已经使用主动推送的站点仍然可以部署自动推送的JS代码,两者可以一起使用。
自动推送适用于技术能力相对较弱,无法支持全天候实时主动推送方案的站长,因为实施方便,后续维护成本低。
站长只需要部署一次自动推送JS代码的操作,就可以实现浏览时推送新页面的效果,低成本实现链接的自动提交。
同时我们也支持使用主动推送和自动推送代码,两者互不影响。