采集网站内容(你想要的中国互联网公司很多时候你都找不到)

优采云 发布时间: 2022-01-30 22:02

  采集网站内容(你想要的中国互联网公司很多时候你都找不到)

  采集网站内容,压缩后爬取互联网;python获取国外网站,然后做分词或词云制作。我自己采集过的网站有:(我自己爬取过的站点有facebookmessenger-postblog/tripinstagrampaperpinzzthas-home/wechat:yinshakedjj/xgcappsgithub-djangorestjs/awesome-python-user-screenshots-rsstumblrlibgoogle翻译youtube练习。

  完全可以自己采集,不要从google爬,尽量从国内论坛爬

  用selenium可以模拟浏览器,

  appium,

  用国内app推广平台或互联网公司的api接口

  我觉得还是不要走这种...传统的爬虫吧。

  用我的不要钱我是zhaoyu

  嗯,然后买我的东西。

  我还是能,楼主不妨试试。

  说到互联网公司里的api,一时之间是找不到,真的找不到。不过现在还是有些公司开放这方面的api的(比如当当,网易云阅读)不过这些api平台的抓取数据基本上都是抓取国外公司,是否能找到中国公司开放这些数据,就不好说了,需要调查一下。你想要的中国互联网公司很多时候你都找不到,因为这个圈子实在是太小了。

  用爬虫试一下~其实像天猫京东这些现在国内主流网站并不缺流量~或者上智联招聘也可以找到很多符合要求的大公司~ps.不要钱

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线