抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

因为做课题需要用到谷歌,以前一直用的clash,买的别人搭建好的订阅链接。最近写文章要用到谷歌学术,买的订阅链接这个时候全都挂了…..不如自己配置个更稳定的节点,于是在RackNerd买了一台VPS,准备自己折腾折腾访问谷歌学术和github用。

事情是这样的,为了存放qq机器人的用户数据,昨天我下载了PostgreSQL的docker镜像,当时docker运行一切正常。然后今天下午3点过,服务器商那边发了个邮件提醒服务器存在恶意文件,一连发了三条:

作为一个从ChatGPT公测用到现在的用户,有些无奈很难言说。本来OpenAI就不对咱们这个区域开放,使用官方的API搭建应用可以不借助VPN访问,算是解除了区域限制。但是,从2023年3月2日傍晚开始,API接口就开始没有响应了,官网没有问题,四处查询发现可能是API的域名上了GFW名单(暂不确定,有可能重大会议过去后会恢复?)。

最近因为需要安装各种生信软件,用github比较多,每次登github都要翻墙很是麻烦。索性花了点时间研究了一下,下面分别列举三种情况下的解决github网站登录的问题。

以前的一篇博客讲过如何搭建反向代理服务器,从而实现在校外登录校内集群,详情点击这里。本篇博客主要记录下如果想要在校外登录学校教务平台、登录学校购买的数字资源库应该如何实现。

前面一篇博客讲了requests、Xpath和selenium的用法,最后用selenium模拟浏览器对搜狗微信文章做了自动化爬取。从搜狗微信网页爬取的公众号文章其实是不全的,不能保证公众号的所有文章都被搜狗收录,且selenium爬取速度相对较慢(但是对动态页面爬取很有用),因此可以选择另一种方式——直接从微信公众号后台进行爬取。

这篇博客承接前面的HTTP基本原理,对requests、Xpath和selenium三个库/工具做个简单介绍,并且用三个爬虫实例由浅到深理解爬虫的构思和实现过程,最后是用selenium+chromedriver模拟浏览器,实现对微信公众号文章的爬取。

以前写过一篇博客如何爬取微博热搜的前50条,当时是从代码出发理解爬虫实现的过程。这篇博客主要讲一下HTTP的基本知识,知道从浏览器中输入网址到我们获取网页内容的过程中发生了什么,有助于进一步了解爬虫的基本原理。

过一段时间要到校外学习,而学校的资源只能在校园内网下才能使用(登录集群可以看到登录ip是10开头的A类地址,无法公网ip访问)。为了方便在校外访问校园内网的集群,我手里正好也有一个备案过的服务器和域名,于是自己用frp搭建了一个反向代理服务器,穿透了校园内网,这里记录下自己搭建过程。