输入关键字抓取所有网页(WebspiderofChinese)

优采云发布时间: 2021-09-15 18:01

　　#欢迎来到聚集平台

　　------

　　[中文自述]（gsh199449/spider）

　　[！[buildstatus]（/gsh199449/spider.svg？branch=master）]（自信地测试和部署代码）

　　Gather Platform是基于[Webmagic]（代码4Craft/Webmagic）的网络蜘蛛控制台。它&#39；s可以编辑任务配置并搜索由web spider采集的数据

　　>*根据配置从网页采集数据

　　>*对网页数据进行自然语言处理，如：提取关键字、提取摘要、提取实体词

　　>*自动检测网页的主要内容，无需对爬行器进行任何配置

　　>*从网页中提取动态字段

　　>*管理采集的数据，如：搜索、删除等

　　##Windows/Mac/Linux全平台支持

　　依赖项：

　　-JDK 8以上

　　-Tomcat8.3在上面

　　-Elasticsearch5.0

　　##部署

　　该平台提供两种部署方式，一种是下载pre-complie软件包，另一种是自行部署

　　###1.使用预编译包采集网页数据

　　-从[link]（/s/1i4IoEhB）下载重新编译包和依赖项密码：v3jm，对于*nix用户，请下载'elasticsearch-5.0.@0.zip`，对于windows用户，请下载`elasticsearch-5.@@0.0双赢`

　　-安装JDK 8，[ORACLE]（JavaSE开发工具包8)）@

　　-解压elasticsearch5.0.@0.zip

　　-进入'bin'目录，对于*nix用户运行'elasticsearch'，对于windows用户运行'elasticsearch.bat`

　　-使用浏览器打开“：9200”，如果该网页与其他网页相同，则表示已成功安装elasticsearch

　　```json

　　{

　　“名称”：“AQYRo1f”

　　“集群名称”：“elasticsearch”

　　“集群uuid”：“0LJm-YOGQ2QGLLZNRLVWQ”

　　“版本”：{

　　“编号”：“5.”0.0“

　　“构建哈希”：“080bb47”

　　“建造日期”：“2016-11-11T22:08：49.812Z“

　　“生成快照”：false

　　“lucene_版本”：“6.”2.1"

　　},

　　“标语”：“你知道，搜索”

　　}

　　```

　　-解压'apachetomcat-8.zip`，将`spider.war`放入`Tomcat/webapp`目录

　　-进入'tomcat/bin'目录，对于*nix用户运行'startup.sh'，对于windows用户运行'startup.bat'`

　　-使用浏览器open`:8080/spider`使用采集平台的控制台

　　###@2.自行建造

　　-安装JDK 8，[ORACLE]（JavaSE开发工具包8)）@

　　-关闭并安装Elasticsearch5.0，[开源搜索与分析·Elasticsearch]（Elasticsearch5.0.0)）@

　　-安装“ansj elasticsearch”插件[github]（NLPchina/elasticsearch分析ansj）

　　-层弹性搜索

　　-安装Tomcat 8，[ApacheTomcat]（ApacheTomcat®-欢迎！）

　　-克隆此项目的源代码

　　-使用“mvn package”来编译和打包

　　-将'spider.war'放入'Tomcat/webapp'目录

　　-启动雄猫

　　##用法

　　部署打开浏览器后，转到“：8080/spider”，单击“普通网页捕获”以显示菜单

　　！[data采集platform homepage]（/gsh199449/Spider/Master/Doc/IMGs/home.PNG）

　　###配置spider

　　单击菜单中的“编辑模板”按钮，在此页面中可以配置爬行器

　　！[编辑模板]（/gsh199449/Spider/Master/Doc/IMGs/spiderinfo.PNG）

　　配置爬虫模板后，单击下面的“采集sample data”按钮。请稍等片刻，以显示根据刚才配置的模板捕获的数据。如果数据错误，请在上面的模板中进行修改，然后再次单击“采集sample data”按钮再次捕获

　　！[采集sample data]（/gsh199449/Spider/Master/Doc/IMGs/testspiderinfo.PNG）

　　注意：在您完全掌握爬虫模板之前，请不要在爬虫模板下选择几个“网页是否必须有XXX”的配置项，以文章标题为例，因为如果文章标题的配置项（即标题）如果配置错误，爬虫程序将无法抓取网页的标题。如果选择此时网页是否必须有标题，爬虫程序将不受限制地抓取

　　！[needXXX]（/gsh199449/spider/master/doc/imgs/need.png）

　　配置模板后，单击下面的“导出模板”按钮。此时，在下面的大输入框中显示的JSON格式的文本就是爬虫模板。您可以将此文本保存到文本文件以备将来使用，或者单击“保存此模板”存储此模板，以后可在本平台的爬虫模板管理系统中找到

　　###赶快开始吧

　　平台给出了在examples文件夹中抓取腾讯新闻的两个示例，一个是使用预定义的发布时间抓取规则，另一个是使用系统自动检测到的文章发布时间

　　以预定义的爬虫模板为例，open[.JSON]（/gsh199449/Spider/tree/Master/examples/.JSON），将所有文件内容复制到爬虫模板编辑页面底部的大输入框中，点击“自动填充”，爬虫配置文件中的爬虫模板信息将自动填充到上表中，点击“捕获样本数据”按钮，稍等片刻，即可看到通过t捕获的新闻数据他的模板位于当前页面的底部

　　如果模板配置有问题，导致数据采集页面长时间卡住，请转到爬虫监控页面，停止刚刚提交的爬虫任务

　　###爬行动物监测

　　单击导航栏中的〖查看进度〗按钮，可以查看当前爬虫的运行状态，在此界面可以进行停止、删除、查看进度、查看捕获数据、查看模板等操作

　　！[spiderList]（/gsh199449/spider/master/doc/imgs/spiderList.png）

　　请注意，根据采集平台的默认配置，此处所有爬虫运行记录将每两小时删除一次。如果您不希望系统定期自动删除任何爬虫记录或更改删除记录的时间段，请参阅advanced configu中配置文件的说明配给

　　###数据管理和搜索

　　单击导航栏下拉菜单中的搜索，查看elasticsearch库中存储的所有网页数据。默认情况下，这些网页数据根据捕获时间排序，即在单击导航栏上的搜索后，显示的第一个数据是最新捕获的数据

　　！[搜索]（/gsh199449/spider/master/doc/imgs/search.png）

　　在搜索页面顶部，您可以输入关键词来搜索所有捕获的网页数据，或者您可以指定网站域名来查看指定网站.如果指定关键词进行搜索，搜索结果将根据输入的关键词的相关性进行排序，如果输入域名查看所有da根据捕获时间对网站的ta进行排序。捕获的数据位于顶部

　　单击导航栏中的“网站list”按钮，查看当前捕获数据中网站的信息。对于每个网站您可以单击“查看数据列表”按钮查看网站的所有数据，并单击“删除网站data”删除网站下的所有数据@

　　！[domainList]（/gsh199449/spider/master/doc/imgs/domainList.png）

　　###高级用途

　　####动静场

　　配置网页模板时，有一个“添加动态字段”按钮。此功能用于捕获不在预设字段中的其他字段。例如，可在爬虫模板中配置的预设字段有：标题、正文、发布时间等。如果要捕获文章的作者或文章的发布文档编号，需要使用动态字段

　　！[动态字段]（/gsh199449/Spider/Master/Doc/IMGs/dynamic.PNG）

　　单击“添加动态字段”按钮，然后在弹出的输入框中输入要捕获的字段的名称。我们以要捕获的作者文章为例，在框中输入作者。请注意，此动态字段的名称必须为英语。然后，在模板编辑页面上，将有两个额外的输入框，一个是author reg，另一个是author XPath，另一个是配置author字段正则表达式和XPath表达式来配置author字段

　　静态字段的使用方法与动态字段类似，但与动态字段不同的是，静态字段与爬虫模板相比是静态的，也就是说，这个值是在模板配置阶段预置的，通过这个模板捕获的所有数据都会有这个字段和预置值，这个功能主要是为了litate辅助开发人员保存搜索中存储的数据

　　####使用Lucene查询进行数据查询

　　在数据查询页面上进行数据查询时，关键词输入框中输入的搜索词默认在文章正文中检索。如果在此框中输入“Title:China”，则将检索所有文章标题中收录China的网页。支持的字段名为（括号前的字段名称和括号内字段的含义）：

　　-内容（正文）

　　-标题（标题）

　　-URL（网页链接）

　　-域（网页域名）

　　-Spideruid（爬网程序ID）

　　-关键词（文章关键词）

　　-摘要（文章Summary）

　　-发布时间（文章publish time）

　　-类别（文章Category）

　　-动态_字段

　　####相同的网站不同的模板

　　同一个网站可以有不同的提取模板的问题可以通过配置另一个模板来解决

　　###高级配置

　　项目的配置文件位于spider.war/web-inf文件夹中

　　####输出我们

0

2021-09-15

输入关键字抓取所有网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

输入关键字抓取所有网页(WebspiderofChinese)

0 个评论

发起人

AI时代内容工厂

输入关键字 抓取所有网页(WebspiderofChinese)

0 个评论

发起人

输入关键字抓取所有网页(WebspiderofChinese)