Day1-分布式爬虫并打造搜索引擎全过程-同乐学堂

一、技术选型

为什么需要系统学爬虫，是因为得数据者，得天下。（备注：百度就是一个很好的例子，他就是一个非常庞大的一个爬虫系统！）

之前小编利用火车头，八爪鱼等，因好多公司编辑，甚至开发，统计都在用！但是缺点太不灵活，且高级功能需付费！

且工具对接人群是需要有一点编程经验！知道什么是url，正则表达式！怎么知道过滤网页内容就可以了。但是唯一缺点炒鸡不灵活。

为了高效、灵活得到自己想要的数据，接下来开始带大家系统学习爬虫

想要做一个爬虫工程师，其实不是那么简单的！之前也很多人学爬虫，看了很多书，其实爬虫难度很大啊！知识储备不比开发、测试、运维的知识少，最后达到想爬撒，就爬啥的程度，那部分人都是被大企业养起来，且见不得光的！

因为随着国家对大数据安全的意识提高，so，一般网站如果做声明，就不能去爬取了，个人隐私也不要随意爬取，以免犯罪哈~，除非你有非常高超的技术，偷吃东西也能把嘴擦得很干净！

例如淘宝就做了不准爬取的声明！这个声明文件叫做：robots.txt

1、编程语言：python、HTML、JavaScript、SQL（正则表达式、字符串、数据库、url 、TCP-IP、json、xml、cookie、session等）

2、编程工具：pycharm

3、爬虫框架：scrapy

4、过滤器：Bloom-Filter

4、原理：广度优先、深度优先

4、web驱动器：selenium

4、数据存储：mysql、redis

5、搜索引擎：elasticsearch

6、web展示：django、Tableau JavaScript API

一、环境配置篇

配置python环境

去官网下载即可（安装篇略），因机器上安装了python2.7 和3.5 ，且有些功能是用2.7完成的，有些功能是用3.5下某些库完成的，为了让功能独立，版本互不影响，这里我们来安装python虚拟机：virtualenv、virtualenvwrapper 来进行隔离.

这里我说下python是如何安类库的，因安装类库比较方便的是直接在线安装，因官方安装源被国内墙了，且因地域的问题，经常出现timeout，这里面我们来配置国内的源来进行快速进行在线安装python的类库。

pip install -i https://pypi.douban.com/simple/ virtualenvwrapper-win linux版本 pip install -i https://pypi.douban.com/simple/ virtualenvwrapper

设置WORKON_HOME环境变量：E:virtualenv

新建虚拟环境：mkvirtualenv ztloo

查看安装的所有虚拟环境:workon

进入虚拟环境:workon ztloo

退出虚拟环境:deactivate

接下来我们用独立环境ztloo 来安装django、scrapy

Scrapy安装错误：Microsoft Visual C++ 14.0 is required...

解决方法：

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件

cp后面是Python版本，amd64代表64位，运行命令：pip install Twisted-17.5.0-cp35-cp35m-win_amd64.whl

再次运行：pip install -i https://pypi.douban.com/simple/ scrapy

打赏

Day1-分布式爬虫并打造搜索引擎全过程