推荐文章:敏感词写个爬取it博客的网站-框架搭建

优采云发布时间: 2022-11-26 20:59

　　推荐文章:*敏*感*词*写个爬取it博客的网站-框架搭建

　　折腾了一周的网站陆续上线了。地址在这里

　　本站主要汇集了一些优秀IT博客的文章索引。用户在这里可以看到很多全网大牛和牛X团队的技术博客，可以说干货满满。

　　对于本站的实现过程，分8篇来讲解：

　　0.手写一个爬取IT博客的网站-大纲

　　1.手写一个爬取IT博客的网站——需求分析

　　2.手写一个爬取IT博客的网站——技术选型

　　3、手写一个爬取IT博客的网站——框架搭建

　　4.写一个爬取IT博客的网站——数据

" rel="nofollow" target="_blank">采集

　　5.手写一个爬取IT博客的网站-数据展示

　　6、写一个爬取IT博客的网站——域名申请及服务器采购

　　7.手写一个爬取IT博客的网站-系统上线

　　8.手写一个爬取IT博客的网站——网站优化

　　本文是本系列文章的第二篇：手写一个爬取IT博客的网站——框架搭建

　　项目框架搭建的基本过程其实就是最基本的spring boot项目的启动过程。网上有很多资料。下面简单介绍一下项目建设的关键过程。

　　新项目

　　使用idea新建一个maven项目，在pom.xml中引入核心依赖：

org.springframework.boot

spring-boot-dependencies

${spring.boot.version}

pom

import

org.springframework.boot

spring-boot-starter-data-jpa

${spring.boot.jpa.version}

org.springframework

spring-context-support

${springframework.version}

org.xerial

sqlite-jdbc

3.20.0

org.apache.commons

commons-dbcp2

2.1.1

org.hibernate

hibernate-entitymanager

5.0.3.Final

com.enigmabridge

<p>

" />

hibernate4-sqlite-dialect

0.1.2

org.ehcache

ehcache

${ehcache.version}

net.sf.ehcache

ehcache-core

${ehcache.core.version}

org.projectlombok

lombok

compile

${lombok.version}

org.jsoup

jsoup

1.8.1

com.baidu.aip

java-sdk

4.4.1

org.springframework.boot

spring-boot-starter-test

test

${spring.boot.version}

</p>

　　在之前的技术选型中提到：

　　核心配置

　　server.port=8081

#模版热部署

spring.thymeleaf.cache=false

spring.thymeleaf.mode=LEGACYHTML5

#数据库配置

spring.jpa.show-sql=true

<p>

" />

spring.jpa.database-platform=com.enigmabridge.hibernate.dialect.SQLiteDialect

spring.jpa.generate-ddl=true

sqlite.url=jdbc:sqlite:/data/website/blog.db

#百度自然语言处理api调用参数

api.baidu.nlp.app.id=myAppid

api.baidu.nlp.app.key=myA*敏*感*词*ey

api.baidu.nlp.secret.key=myKey

</p>

　　sqlite数据库配置

　　数据库使用sqlite，需要配置其数据源

　　@Configuration

public class DataSourceConfiguration

{

@Value("${sqlite.url}")

private String sqliteUrl;

@Bean(destroyMethod = "", name = "EmbeddeddataSource")

public DataSource dataSource() {

DataSourceBuilder dataSourceBuilder = DataSourceBuilder.create();

dataSourceBuilder.driverClassName("org.sqlite.JDBC");

dataSourceBuilder.url(sqliteUrl);

dataSourceBuilder.type(SQLiteDataSource.class);

return dataSourceBuilder.build();

}

　　定时采集任务配置

　　@Component

public class ScheduledCollect {

private Logger logger = LoggerFactory.getLogger(ScheduledCollect.class);

@Autowired

CollectorRepository collectorRepository;

@Autowired

private ApplicationContext applicationContext;

/**

* 每天夜里23点采集数据

**/

@Scheduled(cron="0 0 23 * * ?")

public void collect() {

List collectors = collectorRepository.findAllByState(true);

for(Collector collector :collectors){

AbstractCollect collect = (AbstractCollect) applicationContext.getBean(collector.getClassName());

logger.info("采集:{}",collector.getAuthor());

collect.collect();

}

　　使用百度自然语言处理API对文章进行分类标注

　　虽然主要抓取IT博客，但不排除有些博客会发布一些非技术文章，可以使用上述API对这些非技术文章进行分类。这里推荐百度自然语言处理API。腾讯等其他大公司也有类似的API。百度的这些API没有调用限制，只有QPS限制（不超过5个），基本可以满足我的需求。百度上有很全的文档介绍如何使用，这里就不赘述了。

　　以上就是项目主体的关键配置和代码，剩下的就是实现各个模块：数据库层、采集层、页面等，就不一一赘述了。

　　推荐文章:网站如何不被收录（网站最近不收录了怎么办）

　　今天我将与您分享该网站如何不是

　　收录

在知识中，这也将解释如果最近没有收录的网站怎么办，如果你能碰巧解决你现在面临的问题，别忘了关注这个网站，现在就开始吧！

　　本文目录：

　　如何解决网站未收录的问题？

　　一、新网站，一个月没收录

　　首先，您需要消除服务器访问和攻击缓慢的情况，其次排除网站上的灰色和非法内容，然后在网站源代码中排除DIV+CSS的问题。

　　以上都没问题，那就去发外链，最简单的，百度搜索“超级外链工具”，这个是免费的。

　　如果你觉得免费还不够，你可以购买付费的外部链接，几十美元和几百个酒吧。

　　然后你可以去百度站长平台提交反馈，请百度工作人员帮忙排查原因，发布首页收录。一般

　　情况下，新网站的首页一般在两周到一个月之间收录，如果超过一个月没有收录，大概率就是有问题，如果你的外部链接、好友链接都做过了，文章也是每天按时发布的，那么基本上你可以判断网站服务器，网站内容、源码这三者，肯定有问题，那么就需要进一步深入调查了！

　　二、

　　企业站已经建了一段时间，首页已经收录，但新发布的文章没有收录

　　首先排查原因：

　　网站是否

　　修改或更改首页关键词中途，这是影响百度收录的一个很大因素，尽量不要对网站做太大改动，关键词要在网站开头就确定。

　　企业站，基本上有一个通病，就是内容一般不持续更新或者更新次数少，导致百度抓取次数相对较少，如果抓取不及时，会导致收录缓慢或者没有收录。

　　而且企业网站存在内容同质化问题的严重问题，很多网站

" rel="nofollow" target="_blank">采集

复制内容，文章原创性差。

　　3. 网站降级或K，内容页面未收录怎么办？

　　如果网站是

　　KED或降级，首先要找出降级的原因，期间要保证网站能够正常访问，保证网站正常更新，及时提交新链接。

　　一个好的网站被K处罚了，那一定是自己的问题，百度官方后台是记录每个网站是否被处罚，可以查具体程度。

　　如果首页是K，请继续通过内容页面进行补救，需要很长时间;如果栏目或

　　频道页面为K，请打开其他栏目或二级域名救济，时间较长;

　　优化网站还是需要形式化的方法，否则成本非常大！

　　网站被K或降级的恢复周期一般从1个月开始，3-6个月是正常的！

" />

　　4.

　　网站新添加的聚合页面不包括或排名聚合页面

　　想要有索引和排名，最常见的是标签实践，它通过标签的超链接增加聚合页面的权重。

　　在分析了许多客户的网站后，标签页面的收录和排名通常优于文章页面。

　　如果您的聚合网页未编入索引和排名，则问题可能是：

　　1.标题的写作方式有问题

　　例如，TDK没有设置，标题只是一堆关键词或几个关键词，并没有扩展和延伸其他相关需求。

　　2、聚合页面内容相关性低，内容质量小

　　作为聚合页面，

　　它必须需要大量的文章内容来支持，建议每个聚合页面至少有10条内容，并且尽可能没有空白页。

　　3.网站本身权重低

　　网站的首页没有权限，更别说二次聚合页面了，建议适当交换一些内部页面友情链接，最好是相关，10个左右，不要太多！

　　5. 企业站分类栏目排名的SEO优化方法

　　企业网站的重心一般会集中在产品列表页，但一般来说，产品列表页很难获得比较大的流量，所以可以直接将产品页面设置为首页，因为首页的收录会比栏目页面快很多，并且通过主页上的营销页面，有助于更快地对产品关键词进行排名，但应该注意的是，主页必须始终更新！

　　如果网站页面未收录

在内，我该怎么办？

　　如果网站页面未收录

在内，我该怎么办？

　　如果收录

网站的主页，

　　但是不包括网站的内部页面，这对网站优化也是极其不利的。因为对于一个网站来说，搜索引擎只是一个收录

网站的空壳。鉴于网站上页面未收录的情况，本文将提出几点。

　　一、内页处于审核期

　　搜索引擎中内页的显示并不意味着百度不包括在内。有时百度可能已经收录

了内页，但尚未发布。因为百度收录的文章也需要审核时间，蜘蛛抓到成功的索引内容会被录入数据库，这也需要两次审核是否判断为SPAM，然后发布和参与排名，具体的发布时间和网站的权重有相对直接的关系，而百度循环更新只发布收录在新网站中更为常见。

　　解决方案：如果希望内页尽快发布，需要保证内容定时定量更新，并对网站日志进行观察和分析。只要蜘蛛正常爬行，那么就可以静静等待，百度会给你惊喜。

　　二、机器人设置问题

　　机器人设置还可能导致网站内的页面无法被搜索引擎索引。如果机器人、搜索引擎蜘蛛在设置网站机器人时受到太大限制，自然搜索引擎蜘蛛就不会抓取网站内部的页面。

　　解决方案：检查语法错误是否阻止爬虫爬行，包括元机器人和nofollow标签。

　　三、内部链接有问题

　　不正确的网站内部链接也会给搜索引擎爬行带来极大的困扰。例如，如果大量的不良链接，不良链接，蜘蛛爬行顺畅，或者根本无法抓取，那么这些不良URL也会导致网站降级。

　　解决方案：百度会检查网站首页、频道等重要页面的错误链接，会检查留言板、评论区等网友可以互动功能的不良链接，因此站长需要尽量避免不良的网站链接。

" />

　　4. 在网站内部页面作弊

　　如果网站的页面是设置的，则有很多作弊方法。例如，通过设置黑色链接，关键词堆叠等作弊方法，自然搜索引擎蜘蛛也会减少此类页面的抓取。

　　解决方案：不做关键词堆，不分组发送，不做黑链等黑帽行为，网站保持稳定，网站优化是一步一步进行的，不进行一些作弊，那么网站优化会越来越好。

　　4. 与文章原创性的相关性

　　标题标签的设置会导致类似的重复页面，或者当采集

的页面太多时，百度的数据库中已经有大量类似的信息并且不包括你，如果是长期操作，会导致百度降级。

　　解决方法：保持文章原创性（高度

" rel="nofollow" target="_blank">伪原创）质量比数量更重要，最好能够每天定时定量更新，这样百度也有守时的好习惯。

　　5. 服务器访问

　　如果网站服务器出现问题，例如无法访问，速度慢，挂起等。当百度蜘蛛来索引内容时，反复识别出网站有大量服务器无法访问的乱码或遭遇，那么该网站也会被列入观察名单。

　　解决方案：做好网站代码优化，提高页面阅读速度，选择安全空间服务商，成熟网站程序编码，定期更新补丁，定期跟踪修改文件的痕迹。

　　;

　　如何防止您的网站被纳入百度

　　百度严格遵循搜索引擎机器人协议。用户可以设置漫游器文件，以限制您网站的所有页面或目录中的某些页面收录

在百度中。

　　如果系统在将“漫游器”文件设置为在以下时间后被屏蔽之前未抓取您的网站

　　被百度编入索引后，新的 Robots 文件通常会在 48 小时内生效，生效日期后新页面将不再编入索引。需要注意的是，机器人.txt禁止收录

以前来自百度的内容，并且可能需要几个月的时间才能将其从搜索结果中删除。

　　如果你拒绝收录的需求非常紧急，可以在反馈中心反馈，百度会尽快处理。

　　新手应该如何学习SEO技术？新手快速学习SEO的———方法。

　　现在很多朋友都喜欢在网上找视频资料来学习SEO，但是只是看视频而没有人指导你，你学不到SEO技术，一个人能自己学的只是皮。而且很多视频已经过时且无用！

　　如果你想成为SEO技术大师，学习真正的SEO干货，可以来这条裙子，前面是192，中间是586，最后是795！这里有最新的网站优化课程免费学习也有很多人指导你进步，不需要你付出任何代价，只要你真的想学，随便看就不要加，加也是浪费大家的时间。

　　如何将网站设置为禁止抓取工具收录

　　1.网站建好了，当然我们希望搜索引擎收录的网页越多越好，但有时候我们也会遇到网站不需要被搜索引擎收录的情况。要启用新域名作为镜像网站，主要用于PPC推广，此时，我们必须找到一种方法来防止搜索引擎蜘蛛抓取和索引我们镜像网站的所有页面。因为如果镜像网站也收录

在搜索引擎中，很可能会影响官方网站在搜索引擎中的权威性。

　　2.阻止主流搜索引擎爬虫（蜘蛛）抓取/索引/索引网页的几种想法。这是一个全站范围的封锁，是尽可能屏蔽主流搜索引擎的所有爬虫。

　　3、通过机器人.txt

　　文件筛选，可以说机器人.txt文件是最重要的渠道（可以与搜索引擎建立直接对话）。要阻止元标记，请将以下语句添加到页面的所有头文件中：meta name=“robots” content=“noindex， nofollow”。直接通过服务器（例如 Linux/nginx）配置文件设置过滤蜘蛛/机器人的 IP 范围。

　　这是

　　最后介绍网站如何不包括，如果网站最近没有收录怎么办，不知道你是否从中找到你需要的信息？如果您仍然想了解更多信息，请记住关注此网站。

0

2022-11-26

文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

推荐文章:敏感词写个爬取it博客的网站-框架搭建

0 个评论

发起人

AI时代内容工厂

推荐文章:*敏*感*词*写个爬取it博客的网站-框架搭建

0 个评论

发起人

相关问题

推荐文章:敏感词写个爬取it博客的网站-框架搭建