简单的Web内容采集器(C#)

优采云 发布时间: 2020-08-06 23:26

  操作环境

  windows nt / xp / 2003或更高版本

  .net Framework 1.1

  SqlServer 2000

  开发环境VS 2003

  目的在学习网络编程之后,总有事情要做.

  所以我想到了构建一个Web内容采集.

  作者主页:

  下载链接:

  使用方法测试数据来自cnBlog.

  看下面的图片

  

  用户首先填写“开始页面”,即开始采集的页面.

  然后填写数据库连接字符串,这里是定义采集的数据插入到哪个数据库中,然后选择表名,不用说.

  网页编码,如果不是意外的话,中国大陆可以使用UTF-8

  用于爬网文件名的常规规则: 哈哈此工具显然适合程序员. 您必须直接填写常规规则. 例如,cnblogs都是数字,因此\ d

  表创建帮助: 用户指定创建几种varchar类型和几种文本类型,主要用于短数据和长数据. 如果表中已经有列,请避免使用它们. 该程序中没有验证.

  在网络设置中:

  在采集内容之前和之后进行标记:

  例如,两者都有

  xxx

  如果我想采集xxx,请输入“

  到

  ”当然是

  到

  之间的内容.

  以下文本框用于显示内容.

  单击“获取URL”以查看其捕获的网址是否正确.

  单击“获取”将采集的内容放入数据库中,然后使用Insert xx()(选择xx)直接插入目标数据.

  程序代码的数量非常小(而且非常简单),并且需要进行一些更改.

  不足

  适用于正则表达式和网络编程

  因为这是最简单的事情,所以没有多线程,没有其他优化方法,并且不支持分页.

  我对其进行了测试,获得了38条数据,并使用了700M的内存. . .

  如果有用,可以进行更改. 这对程序员来说很方便,并且避免了编写大量代码.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线