掌握使用 n8n 和 ZenRows 的网页抓取
网页抓取可能是一项艰巨的任务,尤其是在处理具有强大安全措施的网站时,如 IP 封禁、验证码和 Cloudflare 阻挡。然而,使用正确的工具和技术,可以轻松抓取任何网页。在这篇文章中,我们将探讨如何使用 n8n 和 ZenRows 抓取网页而不受安全障碍的困扰。
ZenRows 简介
ZenRows 简介,可靠的代理轮换服务,帮助绕过网站安全措施
ZenRows 是一种代理轮换服务,每次请求网站时都会更改您的 IP 地址,使其成为网页抓取的理想解决方案。它可以绕过 Cloudflare 和验证码等安全措施,甚至抓取由 JavaScript 渲染的网站。使用 ZenRows,您可以每天抓取超过 100,000 个页面,使其成为大规模网页抓取项目的可靠选择。
设置工作流程
使用 n8n 和 ZenRows 设置工作流程
要使用 n8n 和 ZenRows 开始抓取网站,您需要设置一个工作流程。这包括连接您的 Google Sheets 账户、配置 ZenRows,并添加一个 HTTP 节点以向您要抓取的网站发送请求。您还需要添加一个 IF 节点以检查数据是否存在,并添加一个 AI 代理来总结网站内容并提取电子邮件和电话号码。
连接 Google Sheets
连接 Google Sheets 到 n8n
要将您的 Google Sheets 账户连接到 n8n,您需要创建一个新的 API 密钥并启用 Google Sheets API。然后,您需要将 API 密钥添加到 n8n 并授权连接。这将允许您从 n8n 写入和读取您的 Google Sheets 账户中的数据。
配置 ZenRows
配置 ZenRows 以抓取网站
要配置 ZenRows,您需要在 n8n 的 HTTP 节点中添加您的 API 密钥。您还需要指定您要抓取的网站 URL,并将 JS 渲染参数设置为 true,以确保网站正确渲染。您还可以指定其他参数,如国家和地区响应类型,以自定义抓取过程。
添加 AI 代理
添加 AI 代理以总结网站内容并提取电子邮件和电话号码
要将 AI 代理添加到您的工作流程中,您需要创建一个新节点并指定提示和输出格式。AI 代理将总结网站内容并提取电子邮件和电话号码,然后写入您的 Google Sheets 账户。
更新 Google Sheets
在 Google Sheets 中更新抓取的数据
要在您的 Google Sheets 账户中更新抓取的数据,您需要添加一个新节点并指定要更新的账户和电子表格。然后,您需要映射列并写入数据到电子表格中。
增强抓取过程
使用 ZenRows 增强抓取过程
要增强抓取过程,您可以使用 ZenRows 抓取图像、链接、电子邮件和电话号码。您还可以解析纯文本,截取网站的屏幕截图,并以 Markdown 格式导出网站。此外,您可以使用 JSON 命令动态控制网站,例如点击按钮和在字段中输入文本。
结论
使用 n8n根本就不知道从哪里开始写。和 ZenRows 抓取网页的结论和最后的思考
总之,使用 n8n 和 ZenRows 抓取网页是一种强大的方式,可以提取网页数据而不受安全障碍的困扰。通过遵循本文概述的步骤,您可以设置一个工作流程来抓取网页并提取有价值的数据。通过使用 ZenRows 增强抓取过程,您可以将网页抓取提升到新的水平,提取更宝贵的数据。