当我们说到爬虫时我们在说什么呢（下）

接上文，我们来看下最麻烦的反爬对策

为什么说反爬对策是最麻烦的呢（注意这里的最麻烦不是技术上最困难）？原因有下

反爬是加剧爬虫工作者脱发的主因，它对技术的要求可能不高，但是很乏味、很枯燥、很繁琐，可能会出现大量的定制规则和无尽的逆向轮回（🐶

无目标

不仅无目标~~还无组织、无纪律、目中无人~~

这个阶段（还不用外部资源时）你

可能换一个http请求框架、更新一下header、修改一下cookie、添加一些随机值就又行了

也可能你需要深入了解一下对方的各种看起来很长的值是如何生成的

也可能你要去深入一下对方的心理（😂

花钱的地方来喽，这里包括但不限于

外部资源是限制爬虫规模的主因，尤其是IP池和帐号池，这里有几点需要注意

你可能会怀疑自己的请求是不是没有完全模拟用户行为？别傻了大规模爬虫怎么可能完全模拟用户行为

模拟用户行为、策略和流量特征确实可以少触发反爬，但是为此你要添加很多特定的、繁琐的代码来实现；而且会大大拖累爬取速度。但效果也只能说差强人意，只能说有总比没有强

从我的经验来说一旦一个接口进入风控视野，离完蛋就不远了，不存在补救措施。通常

这个时候就不用死磕了，放弃这个接口去寻找替代接口吧

如果找不到替代接口，或者发现准备好的替代接口也被一锅端时，微笑吧你就剩下这个了

身体发肤，受之父母。请善待自己的头发，及早躺平

大家一定要明白这里是有法律风险的，非商业用途除非作死绝对没人管，商业用途好自为之

商业用途的大规模爬虫从头到位都是黑的，请慎重莫要追悔莫及

#Spider #Suggest #Talking

当我们说到爬虫时我们在说什么呢（下）

https://back.pub/post/spirder-when-talking-about-2/

作者

Dash

发布于

2020年1月11日

许可协议