- A+
所属分类:环境配置
根据公司需求开发了一套分布式爬虫系统,但因为人懒的问题一直放在Win服务器下跑,毕竟就再终端执行下那个文件,然后就不管,随着运维的成本逐渐增长,所以将原有的Win服务器全部更新为Linux,使用军哥的lnmp(lnmp配置教程)。虽网站搬家很辛苦,但是先苦后甜的道理大家都懂。
Linux环境说明
1、CentOS7
2、Python3.6
3、pip3
4、爬虫相关:requests、bs4
Linux安装Python3
CentOS7默认的安装版本是Python2.7.5,切记不要删除,在很久之前我尝试把苹果的python2.7.5删除,导致后面很多服务都没有用了。
- #下载python3.6.0
- wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0a1.tar.xz
- #解压
- tar xvf Python-3.6.0a1.tar.xz
- #进入到目录中
- cd /Python-3.6.0a1
- #编译
- ./configure
- #安装
- make && make install
至此你输入Python3,即可看到Python3.6.0的版本信息。Python3默认带有pip3。
安装爬虫环境
- #安装requests
- pip3 install requests
- #安装bs4
- pip3 install bs4
爬虫本身只安装这两个服务,切记一定是执行pip3,默认的pip为python2.7.5所用,在python3开发环境下会出现问题。
Linux脚本配置
脚本文件为分布式爬虫文件,需要将文件分布至各个服务器当中,以此来提高爬虫的效率。
假设执行文件为:/home/qiyoutuo/reptile.py
创建Unit配置文件
- sudo vim /lib/systemd/system/reptile.service
配置文件相关内容(vi编辑了解以下)
- [Unit]
- Description=Reptile Service
- After=multi-user.target
- [Service]
- Type=idle
- #切记这里使用的是python3,不知道python3位置的可以which python3来查看位置,默认如下
- ExecStart=/usr/local/bin/python3 /home/qiyoutuo/reptile.py
- [Install]
- WantedBy=multi-user.target
脚本文件输出内容
- ExecStart=/usr/local/bin/python3 /home/qiyoutuo/reptile.py > /home/qiyoutuo/reptile.log 2>&1
更改配置文件的权限:
- sudo chmod 644 /lib/systemd/system/reptile.service
配置文件生效
- sudo systemctl daemon-reload
- sudo systemctl enable reptile.service
- #重启服务器,会退出,需要重新登录
- sudo reboot
查看服务状态
- sudo systemctl status reptile.service
参考网址: