前面一篇博客讲了requests、Xpath和selenium的用法,最后用selenium模拟浏览器对搜狗微信文章做了自动化爬取。从搜狗微信网页爬取的公众号文章其实是不全的,不能保证公众号的所有文章都被搜狗收录,且selenium爬取速度相对较慢(但是对动态页面爬取很有用),因此可以选择另一种方式——直接从微信公众号后台进行爬取。
前面一篇博客讲了requests、Xpath和selenium的用法,最后用selenium模拟浏览器对搜狗微信文章做了自动化爬取。从搜狗微信网页爬取的公众号文章其实是不全的,不能保证公众号的所有文章都被搜狗收录,且selenium爬取速度相对较慢(但是对动态页面爬取很有用),因此可以选择另一种方式——直接从微信公众号后台进行爬取。
这篇博客承接前面的HTTP基本原理,对requests、Xpath和selenium三个库/工具做个简单介绍,并且用三个爬虫实例由浅到深理解爬虫的构思和实现过程,最后是用selenium+chromedriver模拟浏览器,实现对微信公众号文章的爬取。