利用网页采集技术消除“信息孤岛”,搭建内部新闻平台

优采云 发布时间: 2021-07-25 07:23

  利用网页采集技术消除“信息孤岛”,搭建内部新闻平台

  利用webpage采集technology搭建内部新闻平台,医务人员可以通过信息系统的内部网络及时了解*敏*感*词*新闻动态。 关键词网页采集内网新闻cms简介 我院信息系统网络与公网均采取了严格的物理隔离措施,内外网之间的数据访问通过一个网守实现。医院在内网上建立了内部网站,用于发布医院新闻、通知等信息。信息系统用户只能浏览网站提供的内部新闻,不能浏览公网信息。随着医院的不断发展和互联网的普及,临床工作人员通过网络渴望通过信息系统网络了解他们关心的国家的时事、新闻、政策和法规。利用信息技术消除“信息孤岛”,为临床医生和医院管理人员提供更多的服务选项来实现上述功能。有两种方案: 方案一:利用现有的网守将公网地址映射到内网,解决用户浏览新闻的问题。方案二:在外网搭建自己的新闻平台,及时发布新闻信息,通过看门人将网站映射到内网。方案一实现起来比较简单,只需要简单的配置就可以实现上述功能,但是也有缺点。主要原因是一旦将公网网站上的内容映射到内网,用户就可以浏览网站中的所有信息。部分娱乐信息和无关信息无法屏蔽,浏览无法控制,故未采用该方案。方案二需要自己搭建新闻平台,实现起来比方案一复杂,但是可以对新闻信息进行管理,避免一些不相关的信息,所以采用了第二套方案。

  按照第二个方案,问题是依靠人力逐条复制录入新闻,必然造成资源的巨大浪费。因此,可以考虑使用网页信息采集技术来实现新闻信息的批量获取和发布。网页信息采集技术是通过分析网页的HTML代码,获取网络中的超链接信息,采用广度优先搜索算法和增量存储算法,实现自动连续分析链接、抓取文件、处理和处理的过程。保存数据。具体实现过程如下:3.1 cms选型cms是Content Management System的缩写,意思是“内容管理系统”。它有很多优秀的基于模板的设计,可以加快网站的开发速度,降低开发成本。为了节省投资,比较了比较流行的“empirecms”、“PHPcms”、“织梦cms”等免费的cms。感觉织梦cms好用。模板很多,尤其是后端的网页采集模块,最终选择了织梦内容管理系统(以下简称Dedecms)。 3.2 搭建服务器环境,作者使用Windows2003 Server IIS+PHP+ MySQL模型搭建。 PHP 是超文本预处理器的缩写。 PHP 是一种 HTML 嵌入语言,一种嵌入在服务器端执行的 HTML 文档中的脚本语言。语言风格与语言相似,应用广泛。

  现在PHP部署很简单,下载5.4.0版本安装包安装即可。 MySQL 是一个小型的关系型数据库管理系统。由于其体积小、速度快、总拥有成本低,尤其是其开源特性,很多网站选择了MySQL作为网站数据库。下载并安装 MySQL Installer 5.5.21 版本进行安装。为了保证数据库的安全,在MySQL安装过程中要注意设置root用户密码。如果忘记设置,可以在系统安装后使用mysqladmin命令设置密码。安装完成后,测试PHP和MySQL服务是否正常。 3.3 MySQL 数据库管理,可以使用 PhpMyAdmin 或 Navicat MySQL。 PhpMyAdmin 的缺点是必须安装在Web 服务器中,如果没有适当的访问权限,其他用户可能会损坏SQL 数据。 Navicat MySQL 是一个强大的 MySQL 数据库服务器管理和开发工具。它可以与任何3.21或更高版本的MySQL一起工作,并支持大多数最新的MySQL特性,包括触发器、存储过程、函数、事件、视图、管理用户等。它不仅对专业开发人员来说是一项非常前沿的技术,而且对于新手来说也很容易学习和使用。因为是本地服务器,综合考虑,安装了Navicat MySQL,用于MySQL数据库管理。

  3.4 安装Dedecms并下载“Dedecms V5.7”版本。按照网站提供的教程进行安装,安装过程中注意以下问题。 3.4.1 数据,模板,上传,一个或html目录,设置读写,非执行权限; 3.4.2 不需要设置topic,建议删除special目录,需要能生成HTML后,删除special/index.php,设置该目录为可读写和不可执行的权限; 3.4.3 include、member、plus、后台管理目录设置为可执行脚本,可读,但不可写(如果安装了附加模块,book、ask、company、group目录为也以同样的方式设置)。 3.4.4 安装完成后,删除安装目录。 3.5 设置网站列,根据自己的需要设置不同的网站列。作者开设人民网、健康日报、地方报等栏目。 3.6 网页采集的实现是本方案的核心部分。 dedecms自带的网络采集模块也可以实现网页自动采集,但是采集比较瘦,不能同时采集和发布多个网站,需要登录网站后台操作,操作过程繁琐,需要找一套可以实现自动批量采集的软件。目前采集software的在线数据主要包括以下几类:“优采云”、“网络矿工”、“优讯软件”、“网络神才”、“一菜”、“优采云”、“三人行”“等等。

  以上都是付费软件。有免费试用版,但有功能限制。因为采集大部分是纯静态页面,数据结构简单,尝试了很多采集软件后,最终选择了“优采云采集器V7免费版”。 “优采云采集器V7”自带“Dedecms5.7”版本的Web发布模块,无需编写发布接口代码。直接运行“优采云采集器”,在任务栏中添加需要采集网页的任务,编辑采集网址规则,采集内容规则,发布内容设置等,实*敏*感*词*。

  但是,一些网站采取了阻止采集的措施,无法采集数据。另外,由于全部使用免费软件,目前只实现了图片的自动发布,没有更好的发布附件的方式,需要进一步改进。参考文献 校园网新闻及其管理[J].计算机知识与技术(学术交流),2007,05:1191-1197 李强。院内网站建设的一些经验与建议[J].现代医院管理,2011,41(2):66-68

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线