抓取网页新闻(#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来)

优采云发布时间: 2021-12-05 12:12

　　编辑：我抓取的内容，用记事本打开查看htm文件，遇到#cmt_login好像没有内容，如何修改抓取完整的网页...我抓取的内容，用Open记事本查看htm文件，遇到#cmt_login好像没有内容，如何修改捕获完整网页，选择以下一项或多项关键词，搜索相关信息

　　我抓取了内容并用记事本打开它以查看htm文件。遇到#cmt_login的时候好像没有内容。如何修改它以获取完整的网页...

　　我抓取了内容并用记事本打开它以查看htm文件。遇到#cmt_login的时候好像没有内容。如何修改它以获取完整的网页？

　　您可以选择以下一个或多个关键词来搜索相关信息。您也可以直接点击“搜索信息”来搜索整个问题。

　　展开你的全是因为下面的数据是用js脚本ajax加载的，源文件估计找不到了。仅使用支持 ajax 的采集器。

　　另外，看到你有几十万，防止腾讯屏蔽你的IP也很重要。访问量大的时候，正常访问的人可能不止一个，很有可能是IP被封了。

　　如果您有任何问题，我可以帮助您。我有多年web数据采集的经验，你遇到的问题我基本都遇到过。呵呵，希望能帮到你。请问我爬的是腾讯的新闻网页，即使是ajax加载，爬虫应该也能在本地抓取文件，就像你在浏览器中打开一个网页一样，数据不是全部加载好么？

　　浏览了爬取的网页，想登录的地方没有内容，不登录就可以在浏览器中看到新闻。

　　我使用 nutch-1.2 来捕获数据并跟进答案。这与登录无关。Ajax加载的爬虫现在功能更强大，会加载这些数据，但是你这样保存的一般只是源代码。里面的Javascript

　　javascript运行后，数据显示在界面上。所以你用浏览器可以看到，你说的采集器我没用过。我不明白，你搜索数据农场。看，他们正在专业地突破各种反采集措施。我已将其用于采集Asia*Maxun 的产品。ajax有很多，可以做的比较好。你可以参考一下。这个回答是网友推荐的，已经点赞踩了。你对这个答案的评价是什么？评论收起

　　展开全部，有的需要模拟登录才能爬取。您需要对其进行配置。或者进行二次开发来抓紧。我是二次开发后抓的。喜欢已经不喜欢你对这个答案的评价是什么？评论收起

　　全部展开，直接下载网页。问一个简单的下载就好了，但是有数百个，我不知道它们在哪里？喜欢已经不喜欢你对这个答案的评价是什么？评论收起收起更多答案（1）推荐给您：1 2 3

　　当前网址：

0

2021-12-05

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来)

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来)

0 个评论

发起人

相关问题