标签：爬虫 - 我的小破站

- 主页
  - 我的github
  - rss订阅
- 博客
  - 分类
  - 标签
  - 归档
- 网址导航
- 结绳
- 留言
- 更多

基于requests和Xpath改进微信公众号爬虫

前面一篇博客讲了requests、Xpath和selenium的用法，最后用selenium模拟浏览器对搜狗微信文章做了自动化爬取。从搜狗微信网页爬取的公众号文章其实是不全的，不能保证公众号的所有文章都被搜狗收录，且selenium爬取速度相对较慢（但是对动态页面爬取很有用），因此可以选择另一种方式——直接从微信公众号后台进行爬取。

2022-12-18 网络相关

应用requests、Xpath和selenium编写爬虫脚本

这篇博客承接前面的HTTP基本原理，对requests、Xpath和selenium三个库/工具做个简单介绍，并且用三个爬虫实例由浅到深理解爬虫的构思和实现过程，最后是用selenium+chromedriver模拟浏览器，实现对微信公众号文章的爬取。

2022-12-14 网络相关

HTTP基本原理

以前写过一篇博客如何爬取微博热搜的前50条，当时是从代码出发理解爬虫实现的过程。这篇博客主要讲一下HTTP的基本知识，知道从浏览器中输入网址到我们获取网页内容的过程中发生了什么，有助于进一步了解爬虫的基本原理。

2022-12-10 网络相关

简易爬虫程序编程记录——以微博热搜为例

写的这个小爬虫程序主要是应用requests库和lxml包的etree库，简单介绍一下。

2022-05-03 编程自学

复制文本粘贴文本全选文本剪切文本站内搜索在新标签页打开复制图片地址复制图片文件

常见问题
分类

标签
归档

打印页面
深色模式
简洁模式