易语言伪原创源码(怎么检查一篇文章的原创度获取源代码？访问函数源代码)

优采云发布时间: 2022-01-27 02:03

　　前言

　　我去年写了一个PHP伪原创工具，但是有时候需要查看伪原创后面的文章原创度数，也就是说，在搜索引擎上是有一个类似的文章。

　　本次原创学位测试源码来源于百度搜索。

　　先拼出百度搜索的url，百度限制搜索词不超过38个汉字，其余的将被丢弃。

　　关键词

　　好的，现在百度搜索的url也有了，怎么查看文章的原创度数？

　　PHPcurl访问函数源码

　　function curl($url){

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);

$httpheader[] = "Accept:*/*";

$httpheader[] = "Accept-Encoding:gzip,deflate,sdch";

$httpheader[] = "Accept-Language:zh-CN,zh;q=0.8";

$httpheader[] = "Connection:close";

curl_setopt($ch, CURLOPT_HTTPHEADER, $httpheader);

curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0');

curl_setopt($ch, CURLOPT_ENCODING, "gzip");

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);

$ret = curl_exec($ch);

curl_close($ch);

return $ret;

}

　　首先需要把一个文章的html标签全部去掉，然后需要用下面的代码去掉无用的html和字符。

　　function ClearHtml($str){

$str = trim($str);

$str = strip_tags($str,"");

$str = preg_replace("/\t/","",$str);

$str = preg_replace("/\r\n/","",$str);

$str = preg_replace("/\r/","",$str);

$str = preg_replace("/\n/","",$str);

$str = preg_replace("/ /","",$str);

return trim($str);

}

　　那么需要把重新排列的文章分成一个每38个汉字组成的数组，使用的代码是

　　function mbStrSplit ($string, $len=38) {

$start = 0;

$strlen = mb_strlen($string);

while ($strlen) {

$array[] = mb_substr($string,$start,$len,"utf8");

$string = mb_substr($string, $len, $strlen,"utf8");

$strlen = mb_strlen($string);

}

return $array;

}

　　如果你的PHP环境是PHP7.4，可以直接使用下面的内置函数将文章拆分成38个汉字的一组，但是我用的是上面的，而且我尚未搭建最新的PHP环境。

　　mb_str_split ( string $string [, int $split_length = 1 [, string $encoding = mb_internal_encoding() ]] ) : array

注:https://www.php.net/manual/zh/function.mb-str-split.php

　　以下是文章中38个汉字之一的原创的源码，我就不一一解释了，感觉我这里的代码不太好，如果你优化好了，请回复，谢谢。

function bdycl($content){

$info=curl('https://www.baidu.com/s?ie=utf8&wd='.urlencode($content));

preg_match_all("/(.*?)(.*?)href=\"(.*?)\"/is", $info,$baidu);

$count1=count($baidu['1']);

for($i=0;$i1){

$baiduem='';

foreach($baidu_em[1] as $value){

$baiduem.=$value;

}

$bdem[]=[

'content'=>$baiduem,

'url'=>$baidu['3'][$i]

];

}else{

$bdem[]=[

'content'=>@$baidu_em[1][0],

'url'=>$baidu['3'][$i]

];

}

if(is_array($bdem)){

$count=count($bdem);

$in=[];

for($i=0;$i90){

$in[]=[

'similar'=>$ii,

"content"=>$bdem[$i]['content'],

'url'=>$bdem[$i]['url']

];

}

array_multisort(array_column($in,'similar'),SORT_DESC,$in);

if(isset($in['0'])){

$in=$in['0'];

}

return ['similar'=>(100-array_sum($similar)/count($bdem)),'content'=>$in];

}

　　一个原创学位测试

　　我们已经写完了单组38个汉字，现在需要查询多组。以下是源码

　　function ycl($content){

$info=mbStrSplit($content);

$count=count($info)-1;

if($count$str];

}

　　然后从网上找了一篇文章的文章，测试的结果是：

　　好的，就是这样，谢谢观看。

0

2022-01-27

易语言伪原创源码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

易语言伪原创源码(怎么检查一篇文章的原创度获取源代码？访问函数源代码)

0 个评论

发起人

AI时代内容工厂

易语言伪原创源码(怎么检查一篇文章的原创度获取源代码？访问函数源代码)

0 个评论

发起人

相关问题