关键词自动采集生成内容系统(群里一老哥写了一个教程(宝塔安装教程))

优采云 发布时间: 2022-03-20 07:25

  关键词自动采集生成内容系统(群里一老哥写了一个教程(宝塔安装教程))

  采集说明:爬虫下的每个文件都是一个独立的爬虫,对应一个站。如果你需要采集那个站,修改那个文件,默认的采集主页,根据标题去重。爬虫里有笔记

  另外建议第一次采集全站,然后修改配置,只采集第一页,写入linux定时任务

  本地图片发布说明:cd到爬虫,执行python3 AutoPost.py,根据提示输入本地图片的路径,输入自动发布时间

  图片压缩说明:部分网站图片可能无法压缩。1m甚至几m的图片,不仅会降低传输速度,而且会占用空间。cd到爬虫,执行python3 Compress.py,

  根据提示输入,默认10线程压缩,如果服务器配置高,可以适当增加,只有压缩图片的质量,大小不变,实测1m图片肉眼压缩到100k看不出区别

  宝塔安装教程:最初因为这是一个Python程序,只需要安装mysql和nginx(可选),所以没有写教程。群里一位老哥写的教程,这里借用

  直接上老哥的博客地址:

  演示地址:模板1、模板2(联通有墙)

  git地址:

  1.环境需求Python3.6.5、mysql5.7、nginx(可选)。系统版本推荐centos7 64位

2.环境搭建

  python3.6.5参考 http://blog.51cto.com/wenguonideshou/2083301,软链地址有问题,注意看回复

  mysql5.7安装,参考https://blog.csdn.net/qq_38663729/article/details/79327305

  python-dev安装,参考https://blog.csdn.net/default7/article/details/73368665

  安装程序依赖,进入程序目录,输入:pip3 install -r requirements.txt

3.程序安装

  修改silumz下settings.py文件中数据库的配置

  DATABASES = {

      'default': {

          'ENGINE': 'django.db.backends.mysql',

          'NAME': 'xxxx',

          'USER': 'root',

          'PASSWORD': 'xxxx',

          'HOST': '127.0.0.1',

          'PORT': '3306',

      }

  }

  创建相应数据库,导入程序目录下的sql文件

  修改nginx配置文件(centos7  /etc/nginx/nginx.conf)

  配置文件的server中的location字段如下修改

  location / {

            proxy_pass   http://127.0.0.1:8000;

            index  index.html index.htm;

        }

  重启nginx,访问网站即可

4.修改爬虫中的数据库地址

  爬虫位于crawler目录下,每一个文件都是独立的,可单独执行

  建议第一次运行时修改爬虫参数为采集全站,运行完修改参数为采集第一页,然后在linux中添加定时任务。实现自动采集

5.启动程序

  进入程序目录,uwsgi --ini uwsgi.ini

6.模板修改

  修改silumz下settings文件中的模板配置

  TEMPLATES = [

    {

        'BACKEND': 'django.template.backends.django.DjangoTemplates',

        'DIRS': [os.path.join(BASE_DIR, 'templates'+"/"+"94imm")]

  94imm为模板名

  模板文件位于templates文件夹下,修改相应页面

7.其他配置

  将模板目录下的pagination.html文件放入python安装目录的/site-packages/dj_pagination/templates/pagination/下

  (centos7  /usr/lib/python3.6/site-packages/dj_pagination/templates/pagination)

8.备注说明

  其他系统请自行百度mysql python3.6.5 nginx的安装方法,程序安装方法相同

更新内容

9.自动发布位于crawler下,执行python3 AutoPost.py 即可,注意输入文件夹时选择图片根目录,脚本会自动获取根目录下的所有子目录,并将子目录名作为标题,并复制子目录下所有文件到static/images/随机7个字母/ 下并删除源文件

10.压缩脚本位于crawler下,执行python3 Compress.py 即可,演示时使用兔玩的图片,发现图片太大,平均每张1M左右,600多套就占30G。所以写了个批量压缩脚本,同样是输入图片根目录,可以选在覆盖原图或在新目录压缩

  不明白线程或添加

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线