php网页抓取标题( Google搜索如何限制在具体的一个州或城市州)
优采云 发布时间: 2022-01-26 22:03php网页抓取标题(
Google搜索如何限制在具体的一个州或城市州)
前两天有个朋友问了一个问题:
如何将谷歌搜索限制在特定的州或城市,例如美国的宾夕法尼亚州(Pennsylvania),请指教。谢谢!
对于这个问题,首先要理清思路,有思路,然后再考虑如何实现。
如果你脑子里根本没有一个清晰的界线,那么你就在搜索的时候随意改变关键词,最终的结果越来越偏离原来的目的。
因此,在开始搜索之前先在脑海中思考几行是个好主意。如果不清楚,可以在白纸上画。
好的,回到这个问题。我们考虑从大到小的有限范围。
1. 我们先考虑如何将搜索范围限制在一个国家或地区?
有朋友说很简单,直接上网址:国家二字代码
其实这仅限于谷歌搜索,在收录的数据库中,只能找到域名以.xx结尾的网页。
这样,在美国 网站 的商业公司搜索将仅限于 site:us。确实有些美国商业公司网站域名以我们结尾,但是大部分商业公司网站还是用.com
另一个例子是法国的 网站。顶级国家域名以.fr结尾,但是很多法国公司的网站也应该有.com作为域名。因此,如果您符合 .fr 的条件,您实际上排除了其他类型,例如以 .com 结尾的 网站。
这种方式是不完整的。因此,最好的方法是打开GOOGLE的高级搜索,在Region(国家/地区)中选择France,然后输入关键词进行搜索。这样,你会发现搜索结果中的网站全部来自法国,从.fr到.的各个域名都有网站。
不禁要问?以.fr为域名的网站直观上是法语网站,那么谷歌是如何确定某些. 网站位于法国的呢?
有人说是服务器的IP地址,这种说法是错误的。服务器在日本网站,也可以在GOOGLE上使用Region=China,结合某关键词搜索。
有人说网站的代码中使用的字符集,比如国内的网站,在网页的Meta标签中会有一个字符集属性“GB2312”。这个说法也是错误的,因为很多英文网站字符集都是国际UTF-8。
那么谷歌究竟是如何识别它的呢?对于搜索引擎来说,其实是相当人性化的。其独特的运行机制使得可以根据大部分浏览者所在的区域来判断网站的归属,同时搜索引擎还具有数据分析处理的功能。
作为一个有趣的例子,假设 CL 1024 社区。众所周知,服务器在国外。不过,谷歌还是认定他属于中国的网站,有些童鞋可能不信,搜索引擎有这么聪明吗?答案是肯定的。
让我们看一下 Alexa 数据:
你能看到CL 1024论坛有多少NB流量吗?此外,Alexa还直接给出了网站世界和中国的流量排名。
可见,无论您的服务器IP地址位于世界哪个国家,搜索引擎和一些统计分析网站总会判断您的“家乡”。
2. 解决了针对国家/地区的问题,让我们考虑针对城市或州
首先,谷歌不提供特定城市的搜索选项。因此,我们只能调整我们的思维如何去实现它。我们需要考虑的第一件事是我们经常在页面上看到城市和州名的位置。
答案可能很多,但是在企业站点中(注意我默认考虑的最优站点是公司网站,即企业网站),应该出现在Contact页面。
那么如何才能准确定位到这个页面呢?
通常在做网站的时候,需要写一个网页的链接地址,比如or(.asp/.aspx/.jsp/.php),这个页面的标题往往会是Contact Us ,所以我们完全可以考虑限制这两个方面,一个是inurl:contact,一个是intitle:contact
3. 美国州名宾夕法尼亚,通常缩写为 PA
考虑到GOOGLE默认支持同义词,就不用多写一个宾夕法尼亚| PA(竖线表示“或”,相当于大写的OR)
最后,我们的关键词组合结构是:
主关键词 (inurl:contact | intitle:contact) PA
比如你的关键词是汽车配件,那么你可以输入:"auto parts" PA(inurl:contact | intitle:contact),如果能一眼看出逻辑关系,也可以省略括号,效果是一样的
我们将“汽车*敏*感*词*”视为 A,将 PA 视为 B,将 inurl:contact 视为 C,将 intitle:contact 视为 D。
这实际上是 A AND B AND C 或 A AND B AND D 的逻辑表达式。(同时满足 A,B,C关键词 的条件或同时满足 A,B,D 的条件同时)
至于如何合理使用关键词,需要根据不同的搜索目的和具体情况进行分析,最终确定搜索关键词的组合结构。此外,请务必在搜索时不断微调以尝试最佳搜索关键词结构。
或者,您可以使用谷歌地图搜索位于宾夕法尼亚州的地区。