易语言伪原创源码(怎么检查一篇文章的原创度获取源代码?访问函数源代码)
优采云 发布时间: 2022-01-27 02:03易语言伪原创源码(怎么检查一篇文章的原创度获取源代码?访问函数源代码)
前言
我去年写了一个PHP伪原创工具,但是有时候需要查看伪原创后面的文章原创度数,也就是说,在搜索引擎上是有一个类似的文章。
本次原创学位测试源码来源于百度搜索。
先拼出百度搜索的url,百度限制搜索词不超过38个汉字,其余的将被丢弃。
好的,现在百度搜索的url也有了,怎么查看文章的原创度数?
PHPcurl访问函数源码
function curl($url){
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
$httpheader[] = "Accept:*/*";
$httpheader[] = "Accept-Encoding:gzip,deflate,sdch";
$httpheader[] = "Accept-Language:zh-CN,zh;q=0.8";
$httpheader[] = "Connection:close";
curl_setopt($ch, CURLOPT_HTTPHEADER, $httpheader);
curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0');
curl_setopt($ch, CURLOPT_ENCODING, "gzip");
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$ret = curl_exec($ch);
curl_close($ch);
return $ret;
}
首先需要把一个文章的html标签全部去掉,然后需要用下面的代码去掉无用的html和字符。
function ClearHtml($str){
$str = trim($str);
$str = strip_tags($str,"");
$str = preg_replace("/\t/","",$str);
$str = preg_replace("/\r\n/","",$str);
$str = preg_replace("/\r/","",$str);
$str = preg_replace("/\n/","",$str);
$str = preg_replace("/ /","",$str);
$str = preg_replace("/ /","",$str);
return trim($str);
}
那么需要把重新排列的文章分成一个每38个汉字组成的数组,使用的代码是
function mbStrSplit ($string, $len=38) {
$start = 0;
$strlen = mb_strlen($string);
while ($strlen) {
$array[] = mb_substr($string,$start,$len,"utf8");
$string = mb_substr($string, $len, $strlen,"utf8");
$strlen = mb_strlen($string);
}
return $array;
}
如果你的PHP环境是PHP7.4,可以直接使用下面的内置函数将文章拆分成38个汉字的一组,但是我用的是上面的,而且我尚未搭建最新的PHP环境。
mb_str_split ( string $string [, int $split_length = 1 [, string $encoding = mb_internal_encoding() ]] ) : array
注:https://www.php.net/manual/zh/function.mb-str-split.php
以下是文章中38个汉字之一的原创的源码,我就不一一解释了,感觉我这里的代码不太好,如果你优化好了,请回复,谢谢。
function bdycl($content){
$info=curl('https://www.baidu.com/s?ie=utf8&wd='.urlencode($content));
preg_match_all("/(.*?)(.*?)href=\"(.*?)\"/is", $info,$baidu);
$count1=count($baidu['1']);
for($i=0;$i1){
$baiduem='';
foreach($baidu_em[1] as $value){
$baiduem.=$value;
}
$bdem[]=[
'content'=>$baiduem,
'url'=>$baidu['3'][$i]
];
}else{
$bdem[]=[
'content'=>@$baidu_em[1][0],
'url'=>$baidu['3'][$i]
];
}
}
if(is_array($bdem)){
$count=count($bdem);
$in=[];
for($i=0;$i90){
$in[]=[
'similar'=>$ii,
"content"=>$bdem[$i]['content'],
'url'=>$bdem[$i]['url']
];
}
}
array_multisort(array_column($in,'similar'),SORT_DESC,$in);
if(isset($in['0'])){
$in=$in['0'];
}
return ['similar'=>(100-array_sum($similar)/count($bdem)),'content'=>$in];
}
}
一个原创学位测试
我们已经写完了单组38个汉字,现在需要查询多组。以下是源码
function ycl($content){
$info=mbStrSplit($content);
$count=count($info)-1;
if($count$str];
}
然后从网上找了一篇文章的文章,测试的结果是:
好的,就是这样,谢谢观看。