💻 Google Chrome headless mode. php 的爬虫方式是使用curl库函数去抓去静态界面抓取,所以正则匹配的时候不是整个渲染的界面,而现在的网页中,有很多的数据以及界面采用的是二次加载,前端的界面也越来越复杂,为了更好的解决这个问题,大牛们提出了不同的解决方案: 分析界面的JS请求,然后模拟。 想办法真实的模拟浏览器的请求、然后抓取Js 请求后渲染的界面。 本文就总结了第二种方式。 注意⚠️ google的浏览器的指定版本,已经开始支持了Chrome Headless ,这导致了一些第三方的工具不去再去维护他们的项目。 1. phantomjs (已经停止开发维护) <aside> 👉 https://phantomjs.org/ Important: PhantomJS development is suspended until […]