一、技术选型
为什么需要系统学爬虫,是因为得数据者,得天下。(备注:百度就是一个很好的例子,他就是一个非常庞大的一个爬虫系统!)
之前小编利用火车头,八爪鱼等,因好多公司编辑,甚至开发,统计都在用!但是缺点太不灵活,且高级功能需付费!
且工具对接人群是需要有一点编程经验!知道什么是url,正则表达式!怎么知道过滤网页内容就可以了。但是唯一缺点炒鸡不灵活。
为了高效、灵活得到自己想要的数据,接下来开始带大家系统学习爬虫
想要做一个爬虫工程师,其实不是那么简单的!之前也很多人学爬虫,看了很多书,其实爬虫难度很大啊!知识储备不比开发、测试、运维的知识少,最后达到想爬撒,就爬啥的程度,那部分人都是被大企业养起来,且见不得光的!
因为随着国家对大数据安全的意识提高,so,一般网站如果做声明,就不能去爬取了,个人隐私也不要随意爬取,以免犯罪哈~,除非你有非常高超的技术,偷吃东西也能把嘴擦得很干净!
例如淘宝就做了不准爬取的声明!这个声明文件叫做:robots.txt
1、编程语言:python、HTML、JavaScript、SQL(正则表达式、字符串、数据库、url 、TCP-IP、json、xml、cookie、session等)
2、编程工具:pycharm
3、爬虫框架:scrapy
4、过滤器:Bloom-Filter
4、原理:广度优先、深度优先
4、web驱动器:selenium
4、数据存储:mysql、redis
5、搜索引擎:elasticsearch
6、web展示:django、Tableau JavaScript API
一、环境配置篇
配置python环境
去官网下载即可(安装篇略),因机器上安装了python2.7 和3.5 ,且有些功能是用2.7完成的,有些功能是用3.5下某些库完成的,为了让功能独立,版本互不影响,这里我们来安装python虚拟机:virtualenv、virtualenvwrapper 来进行隔离.
这里我说下python是如何安类库的,因安装类库比较方便的是直接在线安装,因官方安装源被国内墙了,且因地域的问题,经常出现timeout,这里面我们来配置国内的源来进行快速进行在线安装python的类库。
pip install -i https://pypi.douban.com/simple/ virtualenv
pip install -i https://pypi.douban.com/simple/ virtualenvwrapper-win linux版本 pip install -i https://pypi.douban.com/simple/ virtualenvwrapper
设置WORKON_HOME环境变量 :E:virtualenv
新建虚拟环境:mkvirtualenv ztloo
查看安装的所有虚拟环境:workon
进入虚拟环境:workon ztloo
退出虚拟环境:deactivate
接下来我们用独立环境ztloo 来安装django、scrapy
pip install -i https://pypi.douban.com/simple/ django
pip install -i https://pypi.douban.com/simple/ scrapy
Scrapy安装错误:Microsoft Visual C++ 14.0 is required...
解决方法:
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件
cp后面是Python版本,amd64代表64位,运行命令:pip install Twisted-17.5.0-cp35-cp35m-win_amd64.whl
Twisted-17.5.0-cp35-cp35m-win_amd64.whl
再次运行:pip install -i https://pypi.douban.com/simple/ scrapy