💻 Google Chrome headless mode. php 的爬虫方式是使用curl库函数去抓去静态界面抓取,所以正则匹配的时候不是整个渲染的界面,而现在的网页中,有很多的数据以及界面采用的是二次加载,前端的界面也越来越复杂,为了更好的解决这个问题,大牛们提出了不同的解决方案: 注意⚠️ google的浏览器的指定版本,已经开始支持了Chrome Headless ,这导致了一些第三方的工具不去再去维护他们的项目。 1. phantomjs (已经停止开发维护) 👉 https://phantomjs.org/ Important: PhantomJS development is suspended until further notice (more details). PhantomJS is a headless web browser scriptable with JavaScript. It runs on Windows, macOS, Linux, and FreeBSD. Using QtWebKit as the back-end, it offers fast and native support for various web […]
Tag: curl
fatal: unable to access git url:Recv failure: Connection reset by peer.
😀 fatal: unable to access ‘github url ‘: Recv failure: Connection reset by peer 網絡解決方案: 👉 New error: could not lock config file /home/ubuntu/.gitconfig: Permission denied Hi,Hi ,it is not working .. 最終發現使用curl 命令請求該git url的時候,出現: 查看git url的主機,發現請求到了giturl所在的服務器,但是顯示的是nginx的http code :499。 以前一直是正常的,但是最近出现的问题,检查了服务器端,目前并没有变化的配置,各种参数修改,发现并不行、由于Git服务器放在公司,通过域名供应商的ddns映射到公司的内网服务器上,我看有的用户反馈是ISP可能阻断这种git,curl,wget的http/https的请求,那如果真的是这种情况,就只能使用ssh协议进行clone代码了。 如下的文章: Nginx状态码499-错误分析 大家抄來抄去的,餅不符合所有的人。 我的问题是出现在阿里云的服务器上,比如:HongKong,华南的Linux服务器,在使用curl、wget、git请求git仓库的时候,发现都是Connection reset by peer 无奈,只能问阿里云的工程师。