php 网页内容抓取(开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的 )

优采云 发布时间: 2022-04-09 04:10

  php 网页内容抓取(开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的

)

  要开发爬虫,首先要知道你的爬虫要做什么。我将使用 文章 转到不同的 网站 以查找特定关键字并获得指向它的链接,以便我可以快速阅读。

  根据我的个人习惯,我首先要写一个界面来理清思路。

  1、与众不同网站。然后我们需要一个url输入框。

  2、查找 文章 的特定关键字。然后我们需要一个文章标题输入框。

  3、获取 文章 链接。然后我们需要一个用于搜索结果的显示容器。

  

文章URL抓取

文章标题

网站URL

抓取

文章URL

  直接放代码,然后添加一些自己的样式调整,界面就完成了:

  

  那么接下来就是功能的实现了。我使用 PHP 来编写它。第一步,获取网站的html代码。获取html代码的方法有很多。我就不一一介绍了。我在这里使用 curl。要获取它,请传入 网站url 以获取 html 代码:

  

private function get_html($url){

$ch = curl_init();

$timeout = 10;

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36');

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$html = curl_exec($ch);

return $html;

}

  虽然拿到了html代码,但是很快就会遇到一个问题,就是编码问题,可能会导致你下一次匹配不成功。这里我们将获取到的html内容统一转换为utf8编码:

  

$coding = mb_detect_encoding($html);

if ($coding != "UTF-8" || !mb_check_encoding($html, "UTF-8"))

$html = mb_convert_encoding($html, 'utf-8', 'GBK,UTF-8,ASCII');

  获取网站的html,获取文章的url,下一步就是匹配网页下所有的a标签,需要使用正则表达式,经过多次测试,终于得到一个更可靠的谱的正则表达式,不管a标签下的结构有多复杂,只要是a标签:(最关键的一步)

  

$pattern = '|]*>(.*)</a>|isU';

preg_match_all($pattern, $html, $matches);

  匹配的结果在 $matches 中,大概是这样的多维组:

  

array(2) {

[0]=>

array(*) {

[0]=>

string(*) "完整的a标签"

.

.

.

}

[1]=>

array(*) {

[0]=>

string(*) "与上面下标相对应的a标签中的内容"

}

}

  只要能拿到这个数据,剩下的就可以完全操作了。你可以遍历素数组,找到你想要的a标签,然后得到a标签的对应属性。操作一个标签更方便:

  

$dom = new DOMDocument();

@$dom->loadHTML($a);//$a是上面得到的一些a标签

$url = new DOMXPath($dom);

$hrefs = $url->evaluate('//a');

for ($i = 0; $i < $hrefs->length; $i++) {

$href = $hrefs->item($i);

$url = $href->getAttribute('href'); //这里获取a标签的href属性

}

  当然,这只是一种方式,你也可以使用正则表达式来匹配你想要的信息与数据玩新花样。

  获取并匹配您想要的结果。当然,接下来就是将它们发回前端显示,编写界面,然后在前端使用js获取数据,并使用jquery动态添加内容显示:

  

var website_url = '你的接口地址';

$.getJSON(website_url,function(data){

if(data){

if(data.text == ''){

$('#article_url').html('<p>暂无该文章链接');

return;

}

var string = '';

var list = data.text;

for (var j in list) {

var content = list[j].url_content;

for (var i in content) {

if (content[i].title != '') {

string += '' +

'[.website.web_url + ']' + list[j].website.web_name + ']' +

'.url + ']' + content[i].title + '' +

'';

}

}

}

$('#article_url').html(string);

});

</p>

  在最终效果图上:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线