实用文章:「PHP源码」文章原创度检测源码

优采云 发布时间: 2022-10-27 17:17

  实用文章:「PHP源码」文章原创度检测源码

  前言

  我

  去年写了一个PHP伪原创工具,但有时我需要在伪原创后检查文章原创,换句话说,搜索引擎上是否有类似的文章。

  此原创测试的来源使用百度搜索。

  首先,拼凑百度搜索的URL,百度将搜索词限制为38个汉字,其余的将被丢弃。

  关键词

  那么,既然百度搜索URL也可用,那么如何检查文章文章原创?

  凤凰网访问函数源代码

  function curl($url){

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);

$httpheader[] = "Accept:*/*";

$httpheader[] = "Accept-Encoding:gzip,deflate,sdch";

$httpheader[] = "Accept-Language:zh-CN,zh;q=0.8";

$httpheader[] = "Connection:close";

curl_setopt($ch, CURLOPT_HTTPHEADER, $httpheader);

curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0');

curl_setopt($ch, CURLOPT_ENCODING, "gzip");

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);

$ret = curl_exec($ch);

curl_close($ch);

return $ret;

}

  首先,到

  删除一个文章的所有HTML标签,则需要使用以下代码来删除无用的HTML和字符。

  function ClearHtml($str){

$str = trim($str);

$str = strip_tags($str,"");

$str = preg_replace("/\t/","",$str);

$str = preg_replace("/\r\n/","",$str);

$str = preg_replace("/\r/","",$str);

$str = preg_replace("/\n/","",$str);

$str = preg_replace("/ /","",$str);

$str = preg_replace("/ /","",$str);

return trim($str);

}

  然后将重新排列的文章分成一个由38个汉字组成的数组,使用代码

  :

  function mbStrSplit ($string, $len=38) {

$start = 0;

$strlen = mb_strlen($string);

while ($strlen) {

$array[] = mb_substr($string,$start,$len,"utf8");

$string = mb_substr($string, $len, $strlen,"utf8");

$strlen = mb_strlen($string);

}

return $array;

<p>

}</p>

  如果你的PHP环境是PHP 7.4,可以直接使用下面的内置函数将文章分成一组38个汉字,但是我在这里使用的是上面的内容,暂时还没有构建最新的PHP环境。

  mb_str_split ( string $string [, int $split_length = 1 [, string $encoding = mb_internal_encoding() ]] ) : array

注:https://www.php.net/manual/zh/function.mb-str-split.php

  以下是原创38个汉字中的一个,文章得到的源代码,我就不一一解释了,我觉得我的代码在这里不是很好,如果你有优化,请回复,谢谢。

  

function bdycl($content){

$info=curl(&#39;https://www.baidu.com/s?ie=utf8&wd=&#39;.urlencode($content));

preg_match_all("/(.*?)(.*?)href=\"(.*?)\"/is", $info,$baidu);

$count1=count($baidu[&#39;1&#39;]);

for($i=0;$i1){

$baiduem=&#39;&#39;;

foreach($baidu_em[1] as $value){

$baiduem.=$value;

}

$bdem[]=[

&#39;content&#39;=>$baiduem,

&#39;url&#39;=>$baidu[&#39;3&#39;][$i]

];

}else{

$bdem[]=[

&#39;content&#39;=>@$baidu_em[1][0],

&#39;url&#39;=>$baidu[&#39;3&#39;][$i]

];

}

}

if(is_array($bdem)){

$count=count($bdem);

$in=[];

for($i=0;$i90){

$in[]=[

&#39;similar&#39;=>$ii,

"content"=>$bdem[$i][&#39;content&#39;],

&#39;url&#39;=>$bdem[$i][&#39;url&#39;]

];

}

}

array_multisort(array_column($in,&#39;similar&#39;),SORT_DESC,$in);

<p>

if(isset($in[&#39;0&#39;])){

$in=$in[&#39;0&#39;];

}

return [&#39;similar&#39;=>(100-array_sum($similar)/count($bdem)),&#39;content&#39;=>$in];

}

}</p>

  单一原创检测

  我们已经编写了一组38个汉字,现在我们需要查询其中的多组。以下是源代码

  function ycl($content){

$info=mbStrSplit($content);

$count=count($info)-1;

if($count$str];

}

  然后从互联网上找到一个随机文章,测试结果为:

  好了,到此为止,谢谢大家的收看。

  教程:在线伪原创工具_中文在线伪原创文章*敏*感*词*_一次可支持7000汉字

  在线

  伪原创 Tool_Chinese在线伪原创文章 Generator_Can支持7000个汉字

  烟雾和雨水

  烟雨黑帽搜索引擎优化

  

  伊海马奥西

  烟雨黑帽

  SEO:可以定制和开发主流黑帽SEO技术方案——已经开发且不限于以下几类黑帽SEO软件,如动态寄生虫、蜘蛛池、泛目录站群、反向代理泛目录、静态二级目录生成、批量网站建设和快速举重程序、百度搜狗推送程序等;

  张贴在

  

  收录系列中

  在线

  伪原创 Tool_Chinese在线伪原创文章 Generator_Can支持7000个汉字

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线