php登录抓取网页指定内容(很多时候,“点击按钮”和“填写表格”并不要求你真正做任何这些事情)
优采云 发布时间: 2022-03-26 08:09php登录抓取网页指定内容(很多时候,“点击按钮”和“填写表格”并不要求你真正做任何这些事情)
很多时候,“单击按钮”和“填写表单”并不要求您实际执行任何这些操作。做任何这些事情。它只是浏览器用来从您那里获取数据,然后通过 POST 将其提交给服务器的方法。您实际上可以直接执行这些 POST 请求。
使用 Javascript,同样的事情正在发生,它只是提交 POST 而不重新加载页面,并用新数据修改当前页面。在下方提交 POST 并使用新数据修改当前页面。
在大多数情况下,您只需弄清楚 POST 是在哪里进行的,以及您需要填写哪些字段,然后自己完成。以及需要填写的字段,然后自己填写。一些好的起点是使用 FormRequest.from_response() 模拟用户登录,以及这个 SO Scrapy/Ajax 问题。
这将允许您简化并坚持使用 Scrapy,而不是使用 Selenium 获取整个页面内容,并将数据以文件的形式传递给 Scrapy,所有这些都会显着变慢。这将使您能够简化并坚持使用 Scrapy,而不是使用 Selenium 获取整个页面内容并将数据以文件的形式传递给 Scrapy,所有这些都会显着变慢。
顺便说一句,如果您确实想使用 Selenium,并且想要在之后解析数据,请不要使用 Scrapy。请不要使用 Scrapy。它是一个成熟的框架,不适合仅解析 HTML。相反,使用它的解析库,解析提到的 eLRuLL,或者使用 BeautifulSoup4 `(文档和主页在这里)