关键词文章采集工具(医学中文分子生物学,一篇文章采集工具及关键词发布工具)
优采云 发布时间: 2021-09-06 01:02关键词文章采集工具(医学中文分子生物学,一篇文章采集工具及关键词发布工具)
关键词文章采集工具及关键词发布工具在本地搭建一个网站还是比较麻烦的,比如我要写一篇关于‘发表论文’的论文。但是如果我直接把论文发到中国知网,论文降权,抓不到高质量内容。采集论文主要是为了做相关方面研究的话,还是很有必要弄一个本地的论文采集器,采集第一手内容,提高效率,及时发现文章的作者、期刊、年份等情况。
本地论文采集器常用的有2004-2017各大期刊专刊的,今天我们要采集的是:2018年最新的2篇一篇是医学中文分子生物学,一篇是生物学中文临床前中医药理。ncbiplosone|home,好多人都推荐用ncbi本地采集器,大家都知道基本上全球都要数据库全都有。经常用pubmed下载文章,一般要搞一个好几个小时,有没有快速,稳定的呢?最近刚好遇到这个问题,用了12款网上基本上每款能够采集到5000万个文章的下载器,综合使用projectofjava编辑器,westernblot+gcs数据库、数据包/centos7+ncbi以及mysql数据库后,我感觉mysql是最适合采集数据的。
python编程的话,不方便使用我是发现好几家采集数据的工具,虽然可以用,但是比较贵,3百多。我准备改良一下mysql采集工具。2webfilesanddatabases|home,这家采集服务的主要功能是“网页以及数据库采集”,但是我发现虽然采集的效率有点慢,但是数据质量不错,数据量大的话数据量有点小,最起码日采集数量1万多篇,还是绰绰有余的。
2017年最新的一个数据发表技术汇总postscript|home,这个是基于ncbi标准分析数据的采集工具,也是最高效最稳定的采集工具。2016年最新的两款采集工具—数据包库和mysql数据库,都是带有gcp标准数据库的,无需额外开发环境即可接入。2018年最新的两款采集工具是分层采集,数据包库和全文库两个版本。
mysql数据库只支持数据包,不支持全文。如果你是医学中文分子生物学,建议采用数据包库,虽然全文数据采集比较麻烦,但是全文数据全中文还是很方便的。如果你是医学临床前中医药理和生物药人体生物动力学等研究,建议使用全文库,因为你用数据包库会发现采集效率低于全文库的采集。另外两个工具还支持api,比如用rmysql、candlebiqa,根据数据库提供的api命令去采集数据。
目前比较热门的两款采集工具是intellij和paperfree,现在intellij和paperfree价格比较昂贵,使用体验很一般。还有一些小众采集工具:欧城插件和兽硕云。欧城插件还支持包括pubmed、medline和scientificreport等国外期刊的中文摘要文章,有自己的ocr识别字库。兽硕云的收录功能比较多,技术力比较强。有专门做。