在当前这个大数据泛滥的时代里,很多人在热衷于掌握大数据管理和处理时却忽略了其中的关键 - 数据本身。全球互联网数据的总存储量已经远远超过10万亿GB的规模,因此在奢谈大数据之前是否应该将目光转移到一个古老而又现实的话题——互联网大数据的获取呢?抓取网站数据的程序被称之为“爬虫”,而想要开发出满足今天日益复杂的网络环境的爬虫可谓难之又难。本次分享将主要介绍如何开发出一个好爬虫,其中涉及到协议优化、网络对抗、并行处理、数据队列等因素,除此之外演讲中还将谈到Python代码、Scrapy架构以及AWS基础设施等相关内容。
By 费良宏