自动关键词采集(以百度为例，思路如下：读取数据库中标记为未抓取的网址)

优采云发布时间: 2022-02-04 14:16

　　以百度为例，思路如下：

　　1、搜索主关键词，分析相关搜索链接，存入URL库，标记为未爬取。

　　2、读取数据库中标记为未爬取的URL，爬取后分析相关搜索，存入URL库，标记为未爬取。

　　3、重复2直到指定深度（一般流行的关键词6层几乎都读完了，一般关键词4层，理论上无限层，但是需要catch的数据量采取指数增长，相关性越来越差，这是不必要的）。

　　4、手动处理长尾词，这里需要手动去掉一些不相关的关键词，保留合适的（目前搜索引擎的语义处理能力还很弱） .

　　至此，长尾关键词的处理已经基本完成，可以得到一个比较完整的长尾关键词列表。由于个人还需要研究不同层级关键词之间的关系，所以存储搜索结果的网页，定义父子关系，不过滤不同层级之间相同的关键词。言辞用处不大。

　　自动获取文件指定目标的php实现关键词见附件：spider_keywords

　　这是我自己使用的程序。它提供了一种实现方法。如果我打算使用它，我需要根据自己的使用环境进行修改。需要了解php和SQL。相关关键词分析提取等关键部分已经比较稳定，请放心使用。其中：

　　mykeyword.dat 是一个存储关键词的文件，每行一个主关键词。

　　$depth为爬取深度，默认为5层，对于一般关键词来说已经足够了。

　　程序挖掘数据后，存储在我的 PostgreSQL 数据库中。数据库默认为UTF-8编码，可根据实际需要进行修改。数据表结构如下：

　　– 表：mykeywords

　　– DROP TABLE mykeywords;

　　创建表 mykeywords

　　(id 序列号 NOT NULL,

　　父亲的文字，

　　“内容”文本，

　　儿子的文字，

　　深度文字，

　　键名文本，

　　备注文字，

　　is_spidered 布尔值，

　　CONSTRAINT mykeywords_pkey PRIMARY KEY (id)

　　)

　　WITH (OIDS=FALSE);

　　ALTER TABLE mykeywords OWNER TO postgres;

0

2022-02-04

自动关键词采集

0 个评论

要回复文章请先登录或注册