淘宝直播长连接弹幕分析(无乱码)

淘宝的powermsg真是个无比神奇的东西,因为现在已经过时了,特地拿出来说道一下:

  • powermsg的相关接口最早是可以直接拿到pv、uv、甚至当前在线人数,这玩意没记错的话在19年下半年被封了
  • 上边的powermsg接口被封了之后仍然可以通过websocket或nativemsg拿到上边的数据,只是没有那么方便,这玩意在20年下半年被封了
  • 淘宝的封是简单粗暴的把和淘宝直播相关的topic数据改成固定值或者随机数,所以对分析协议没有影响
  • 目前淘宝直播的powermsg(可以说web版)已经下线,可以去同源的1688直播看看,以下内容也是基于1688直播

从x-tt-trace-id来看逆向苦力

宇宙大厂在web和安卓的反扒上是当之无愧的宇宙级,更新速度更是宇宙第一

再接触在它pc版时候我从来没想过签名还能这么玩!安卓这块先是引入cronet解决可以抓包的问题,随后签名放入了so,又调整了混淆!一个字:NB!

以下内容来自对安卓19.2.0的抓包,只谈x-tt-trace-id生成的思路流水账,它只是整个伪造请求的一小部分

Tiddlywiki添加剪藏和本地图片

剪藏这里使用的是MaoXian Web Clipper(以下简称MWC),这个浏览器插件非常好用,支持Chrome和Firefox

Tiddlywiki(以下简称TW)作为一个免费的知识库也是非常棒的,如果希望快速开始可以参照林一二大佬的模版和教程

但是在TW使用过程中也有两个问题一直困扰着我:

  1. 图片只能嵌入,导致单html巨大
  2. 无法通过简单的操作收藏web页面到TW

Doris编译、容器化及踩坑

Doris目前被我们拿来给Tidb减轻压力,主要是两个用途

  1. 把大数据相关组件生成的的超大中间表从Tidb转移到Doris
  2. 定时同步线上的大表到Doris相当于一个只读库。这样大数据相关组件可以在只更改数据源情况下,将批量读写操作都放在Doris从而把Tidb还给业务

这里记录以下编译和容器化中的坑,以及如果要在容器中使用可以直接用现成的镜像febe,文章也可以跳过编译进入启动,编译还是挺慢的

以下内容基于当前(2021-02-02)的最新版(0.13.0),可能不适用于之后的版本

使用Caddy加速所有Docker仓库(包括gcr

引用一下这里的开头,这也是现在的真实感受。Envoy配置略显复杂不利于自行搭建推广,这里我们讨论下如何使用Caddy的反向代理来加速DockerQuayGCR,当然方法是通用的不止限于这些站点

在使用DockerKubernetes时,我们经常需要访问gcr.ioquay.io镜像仓库,由于众所周知的原因,这些镜像仓库在中国都无法访问,唯一能访问的是 docker.com,但速度也是奇慢无比
gcr.azk8s.cngcr.io镜像仓库的代理站点,但是目前*.azk8s.cn已经仅限于Azure中国的IP使用,不再对外提供服务了。国内其他的镜像加速方案大多都是采用定时同步的方式来缓存,不能保证及时更新,中科大和七牛云等镜像加速器我都试过了,非常不靠谱,很多镜像都没有

当我们说到爬虫时我们在说什么呢(下)

接上文,我们来看下最麻烦的反爬对策

为什么说反爬对策是最麻烦的呢(注意这里的最麻烦不是技术上最困难)?原因有下

  1. 没有明确的目标,你很难确定做对了什么或者做错了什么
  2. 会引入一些外部资源,而这些资源会大幅提高爬取成本
  3. 会显著降低爬取效率,而且随时可能会被封死
  4. 心很累,一旦封死继续去抓包、调试吧

当我们说到爬虫时我们在说什么呢(上)

当我们说到爬虫时我们在说什么呢?Spider?Robots?Python?网络协议?黑产?

上边都可能会说到吧,但是我觉得这些都是表层现象,没有触及现代爬虫技术的核心。我认为爬虫的核心在于

  1. 调度框架,包括但不限于任务发现、去重和重试,延时调度,补偿机制,分布式多队列等等
  2. 逆向工程,包括但不限于抓包分析,反编译,插桩,动态调试等等
  3. 反爬对策,这个就是让你去对抗一个团队(笑

个人认为以上三项的麻烦(e xin)程度依次递增

Webmagic备份站点静态镜像

有的网站内容很喜欢,但想要一个本地能无障碍访问的镜像怎么办?当然是wget

之前使用的如下,但是文件已存在的时候会出现各种问题,导致每次基本都要重下,对于一个有着巨量图片的站点实在是太难了

wget -r -c -p -np -nc -k -e robots=off -U=Mozilla -P /data/site -N http://$1

Webmagic默认不是干这个的,它是把页面内容抽取成结构化数据存储而不是直接把页面保存完事;不过看下文档也就是重写下PageProcessor和Pipeline的事;依然图样,保存图片还是需要开了线程池去下载

当然这样虽然减少了图片的重复下载,但并没有简单多少,以下仅作为一个记录,因为这个方案很快就放弃了

如何用JS写个外挂--不是针对某游

辣鸡游戏毁我青春废我钱财颓我精神,我不做骑空士了!JOJO(🐶

为了流程控制下面会看到乱七八糟的ObserverPromise和让人无语的跳转这些我都没这篇里写

为啥不用await和async!!!

PSV破解了?这是药丸

大清亡了,PSV居然在一个月前已破解了。现在破解已经比较成熟了,可以模拟最新版登录PSS,大多数游戏也都有dump了

不过怎么看都是药丸;大概不会有新游戏来,不过早就吃灰多年,半死不活了;高性能的手机模拟器啥时候来