自动关键词采集(以百度为例,思路如下:读取数据库中标记为未抓取的网址)

优采云 发布时间: 2022-02-04 14:16

  自动关键词采集(以百度为例,思路如下:读取数据库中标记为未抓取的网址)

  以百度为例,思路如下:

  1、搜索主关键词,分析相关搜索链接,存入URL库,标记为未爬取。

  2、读取数据库中标记为未爬取的URL,爬取后分析相关搜索,存入URL库,标记为未爬取。

  3、重复2直到指定深度(一般流行的关键词6层几乎都读完了,一般关键词4层,理论上无限层,但是需要catch的数据量采取指数增长,相关性越来越差,这是不必要的)。

  4、手动处理长尾词,这里需要手动去掉一些不相关的关键词,保留合适的(目前搜索引擎的语义处理能力还很弱) .

  至此,长尾关键词的处理已经基本完成,可以得到一个比较完整的长尾关键词列表。由于个人还需要研究不同层级关键词之间的关系,所以存储搜索结果的网页,定义父子关系,不过滤不同层级之间相同的关键词。言辞用处不大。

  自动获取文件指定目标的php实现关键词见附件:spider_keywords

  这是我自己使用的程序。它提供了一种实现方法。如果我打算使用它,我需要根据自己的使用环境进行修改。需要了解php和SQL。相关关键词分析提取等关键部分已经比较稳定,请放心使用。其中:

  mykeyword.dat 是一个存储 关键词 的文件,每行一个主 关键词。

  $depth为爬取深度,默认为5层,对于一般关键词来说已经足够了。

  程序挖掘数据后,存储在我的 PostgreSQL 数据库中。数据库默认为UTF-8编码,可根据实际需要进行修改。数据表结构如下:

  – 表:mykeywords

  – DROP TABLE mykeywords;

  创建表 mykeywords

  (id 序列号 NOT NULL,

  父亲的文字,

  “内容”文本,

  儿子的文字,

  深度文字,

  键名文本,

  备注文字,

  is_spidered 布尔值,

  CONSTRAINT mykeywords_pkey PRIMARY KEY (id)

  )

  WITH (OIDS=FALSE);

  ALTER TABLE mykeywords OWNER TO postgres;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线