vb抓取网页内容(Insus.NET图:要汲取的数据应该是高亮部分的 )
优采云 发布时间: 2021-09-09 07:03vb抓取网页内容(Insus.NET图:要汲取的数据应该是高亮部分的
)
今天在浏览论坛时,我看到了另一个关于阅读 TXT 文本文件的话题。 Insus.NET也想用自己的想法去实现,在这里分享一下。
文本文件比较复杂,获取数据也是一些文本行的一部分。为了得到更准确的数据,Insus.NET 写了几个步骤来实现。每一步使用一个类。毕竟,我们现在编写的程序是面向对象的。首先在站点下创建一个文本文件:
class="code_img_closed" src="/Upload/Images/2013081913/0015B68B3C38AA5B.gif" alt="" />
logs_code_hide('ab8f400e-39e7-4383-a87b-2ade5d84bf3a',event)" src="/Upload/Images/2013081913/2B1B950FA3DF188F.gif" alt="" />
==================================================
Sat Feb 12, 16:45 CST-0800 2011 (OK)
--------------------------------------------------
CELLPAG: 'D51179C'
Number Value Name
1 32 PAGPCHCONG
2 524 PAGETOOOLD
--------------------------------------------------
Sat Feb 12, 16:45 CST-0800 2011 (OK)
--------------------------------------------------
CELLPAG: 'D5143A'
Number Value Name
1 64 PAGPCHCONG
2 537 PAGETOOOLD
--------------------------------------------------
Sat Feb 12, 16:45 CST-0800 2011 (OK)
--------------------------------------------------
CELLPAG: '516A'
Number Value Name
1 75 PAGPCHCONG
2 3677 PAGETOOOLD
--------------------------------------------------
查看代码
如下图:
要提取的数据应该是突出显示的数据。我们先写一个SourceDataList类:
该类处理粗略数据,去除每行文本的前后空格,去除每行文本中连续的几个空格,只留下一个。然后文本行用空格隔开,只要分成两三个文本行即可。
此外,编写另一个类,DataParse。根据类名,你大概就知道这是第一次对得到的数据进行分析。
这个类可以得到基本定型的数据。对传输的文本进行分段(空格为分隔符),分别以二段和三段判断。
如果是两段文字。第一个元素以“:”结尾。冒号符号截断后,需要判断是否全是大写字母。第二个元素以单引号“'”开始和结束。只要满足这些条件,我们就需要一个文件行。
如果是三段文本行,第一个和第二个元素都是整数,第三个元素应该都是大写字母。满足条件的文本行就是需要获取的文本行。
接下来我们再写一个类,就是把上面得到的数据组合起来,DataStructures:
从这个类处理的数据接近我们需要的数据行。每行数据有三个字段,一个是字符串,第二个和第三个字段是整数。
最后一个类 DataHelper:
处理文本文件以获取数据并将其采集到 List(Of DataStructures) 集合中。
OK,现在我们可以显示获取到的数据了,在站点中,创建一个网页.aspx,去Page_Load事件中写:
运行网页时,查看效果: