本章小结

在1.1节中我们体验了爬虫程序,并在1.2、1.3节中了解到爬虫的完整链条和数据应用场景。在1.4、1.5节中我们讨论了爬虫工程师常用的库,并学习了这些库的基本用法。在1.6节中,我们运用前面学到的知识完成了新闻资讯的爬取和存储。

经过第1章的学习和实践,你已经会编写爬虫程序了,实践过程中还学会了如何分析爬取目标,这值得高兴!

但是,实际的爬虫工作不会一帆风顺,你总会遇到各种各样的问题。例如,爬虫程序从页面中提取的数据和浏览器显示的不一样;爬虫项目的部署和调度;多台计算机协同工作;批量处理不同来源的文章,等等。这些内容都会在后面的章节中介绍到,现在你要做的就是动手完成实践题,巩固本章所学的知识。