正文 756 字预计阅读时间 10 分钟1. 爬虫以及Robots协议介绍爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。比如百度的那些数据,他需要定期的使用爬虫进行爬取,爬取之后放到数据库里,再做各种索引等。搜索引擎里面有个很重要的东西,叫做robots协议,这是整个网络大家都认可的协议。3B大战就因为robots协议产生了一场官司 => 3B大战为奇虎公司(360)新推出的搜索引擎和百度相互争夺搜索引擎市场的一场网络资源战争。战争始于2012年8月21日,当天,360将360浏览器默认搜索引擎由谷歌正式替换为360自主搜索引擎,战争就此爆发。比如百度 => https://www.baidu.com/robots.txtrobots.txt是一个文本文件,robots.txt是一个协议,不是一个命令,robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照该文件中的内容来确定访问的范围。如果别人不允许爬取数据,而你爬取了,就违反了robots协议,涉及到一些相关的用户隐私等。2. 配置爬虫系统和开发环境
了解爬虫环境需要的模块
Express是最成熟,我们开发node最常用的作为server的模块RequestCheerio在爬虫里面至关重要,可以让我们像在前端一样处理从服务端拉取来的数据我们把数据从服务端拉取过来之后,他可以动态分析所有的dom元素它可以像jquery一样去操作,前提是我们需要将这个html转换为dom树2.2 开始搭建框架
搭建express服务
方法一:一步一步创建npm initnpm install express方法二: 直接使用express创建npm install express -g全局安装expressnpm install express-generator -g如果安装未成功,再安装一次这个插件express spider使用express创建spider项目npm install或者yarn需要进入到spider目录下 => cd spider安装依赖进入到bin目录cd bin启动服务node www => 默认是3000端口访问localhost:30002.2.2. 安装request以及cherrionpm install request –save 或 yarn add requestnpm install cheerio –save 或 yarn add cheerio
最后