php 循环抓取网页内容(动态网站的出现和优势最早互联网出现时,怎么办?)

优采云 发布时间: 2021-12-05 04:17

  php 循环抓取网页内容(动态网站的出现和优势最早互联网出现时,怎么办?)

  无法更改服务器配置。.

  无需生成htm页面方法。

  有没有办法更换?之类的 /

  看这个文章想到了:

  【摘要】:动态网站丰富了网站的功能,但对于搜索引擎来说,情况就不一样了。动态页面是在用户“输入内容”或“选择”时动态生成的,但搜索引擎的“搜索机器人”无法“输入”和“选择”。此外,搜索引擎应避免“蜘蛛陷阱”脚本错误。

  -------------------------------------------------- ------------------------------

  一、动态的出现和优势网站

  互联网刚出现时,网站的内容以HTML静态页面的形式存储在服务器上,访问者浏览的页面就是这些实际存在的静态页面。随着技术的发展,特别是数据库和脚本技术PERL、ASP、PHP和JSP的发展,越来越多的网站开始采用动态页面发布方式。比如我们在GOOGLE.COM上搜索一个内容时,得到的搜索结果页面文件“本身”在GOOGLE服务器上并不存在,而是在我们输入搜索内容时调用后台数据库实时生成的,即即,这些结果页面是动态的。

  静态页面站点只涉及文件传输问题,而动态站点要复杂得多。用户和网站之间有很多互动。网站不再只是内容的发布,而是一种“应用”(Application),是软件产业向互联网的扩展。从软件的角度来看,动态站点是逻辑上的分离应用层和数据层,数据库负责站点数据的存储和管理,而ASP、PHP、JSP等则负责处理站点的逻辑应用。除了添加了很多交互功能,更重要的是网站的维护、更新、升级都方便很多,可以说没有动态网站技术,

  二、搜索引擎抓取动态网站页面时面临的问题

  从用户的角度来看,动态网站很好,丰富了网站的功能,但对于搜索引擎来说,情况就不一样了。(关于搜索引擎和目录的区别,以及搜索引擎的工作原理,请“了解搜索引擎”)

  根本问题在于“投入”和“选择”。动态页面是在用户“输入内容”或“选择”时动态生成的,但搜索引擎的“搜索机器人”无法“输入”和“选择”。例如,我们想在当当书店网站上查看冯英健的《网络营销基础与实践》。介绍页面是动态生成的,URL地址为:

  这里,“?”后面的product_id参数值 需要我们输入。“搜索机器人”可以通过链接找到页面,但是无法在“?”后输入product_id参数值,因此无法抓取页面文件。

  此外,对于带有“?”的页面 通过链接到达,搜索引擎技术上可以抓取,但一般情况下,搜索引擎选择不抓取。这是为了避免一种“蜘蛛陷阱”。这个错误的脚本错误会让搜索机器人无限循环爬行,无法退出,浪费时间。

  三、动态网站搜索引擎策略

  动态网站 为被搜索引擎抓取,您可以使用内容发布系统软件将动态站点转换为静态页面。这种方式更适合页面发布后变化不大的网站,比如一些新闻网站(比如新浪新闻中心:)。

  一般动态网站可以通过以下方式被搜索引擎抓取:

  首先,我们需要让动态页面的 URL 不带“?”,这样动态页面看起来就像一个“静态页面”。看看下面的页面。这显然是一个动态页面,但 URL 地址看起来像一个“静态页面”。针对不同的动态技术,可以使用以下技术来实现:

  ·对于使用ASP技术的动态页面,可以用一个叫做XQASP()的工具来代替“?” 和 ”/”。

  ·对于使用ColdFusion技术的站点,需要在服务器端重新配置ColdFusion,用“/”代替“?” 将参数传输到 URL。有关更多详细信息,请参阅网站。

  ·对于使用Apache服务器的站点,可以使用rewrite模块将带参数的URL地址转换成搜索引擎支持的形式。默认情况下,Apache 服务器中未安装此模块 mod_rewrite。详情请参阅。

  对于其他动态技术,也可以找到相应的方法来改变URL的形式。

  然后,创建一些指向这些动态页面(带有更改的 URL 链接)的静态页面。

  前面已经提到,搜索引擎robot本身不会“输入”参数,所以为了让这些动态页面被搜索引擎抓取,我们还需要将这些页面的地址(即参数)告诉robot。我们可以创建一些静态页面,在网络营销中一般称为“gatewaypage”(入口页面),这些页面上有很多指向这些动态页面的链接。

  将这些入口页面的地址提交给搜索引擎,这些页面和链接的动态页面(改变了URL格式)都可以被搜索引擎抓取。

  四、对动态网站支持的搜索引擎改进

  随着我们调整动态网站以适应搜索引擎,搜索引擎也在不断发展。目前大部分搜索引擎不支持动态页面的抓取,但GOOGLE、HOTBOT等和国内百度已经开始尝试抓取动态网站页面(包括?"?"页面)。这就是为什么我们在这些搜索引擎上搜索时,结果中会出现动态链接的原因。

  这些搜索引擎在抓取动态页面时,为了避免“搜索机器人陷阱”,他们只抓取从静态页面链接的动态页面(至少“看”静态页面),从动态页面链接的动态页面不再抓取。

  所以如果一个动态站点只针对这些搜索引擎,可以按照上节介绍的方法进行简化:只需要创建一些入口页面,链接到许多动态页面,然后将这些入口页面提交给这些搜索引擎。

  直接使用动态URL地址,请注意:

  · 文件URL中不要收录SessionId,也不要使用ID作为参数名(尤其是GOOGLE);

  ·参数越少越好,尽量不要超过2;

  ·尽量不要在URL中使用参数。一些参数被转移到其他地方,这可以增加被抓取的动态页面的深度和数量。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线