From c55880bd43689b45d3811215e5045cdbe5c636ab Mon Sep 17 00:00:00 2001 From: kang Date: Mon, 13 Apr 2026 15:49:08 +0800 Subject: [PATCH] =?UTF-8?q?feat:=20=E5=8A=A0=20=C2=A713=20=E5=AE=9E?= =?UTF-8?q?=E6=88=98=E7=94=A8=E6=B3=95=20section?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - 心智模型对比(Chrome vs Lightpanda) - 三大常见误解 - 场景判断表(文字站 vs 图片站) - Lightpanda + VLM 四层组合拳管道 - 典型项目场景映射(单跑 vs 必须配 VLM) - 实战命令速查(fetch markdown/html、Playwright 脚本) - 三个坑 + 铁律 --- index.html | 199 +++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 199 insertions(+) diff --git a/index.html b/index.html index c95bb6f..476af88 100644 --- a/index.html +++ b/index.html @@ -249,6 +249,7 @@ footer a:hover{text-decoration:underline} MCP 构建 限制 + 实战用法 ★
GitHub ↗ @@ -886,6 +887,204 @@ zig build -Doptimize=ReleaseSafe< + +
+
+
§ 13 / FIELD MANUAL · 实战用法
+

什么时候用它,什么时候别用

+

前面 12 段讲"它是什么、怎么实现"。这一段讲"你该不该用、怎么组合"。技术解析的闭环。

+
+ +
+
🧠
+
+

一句话定位

+

+ Lightpanda 不是给你用的,是给你的脚本用的。 + 就像你不会直接打开 MySQL,你写代码去查 MySQL——Lightpanda 也一样,你写代码让它去"读"网页。 + 你平时上网继续用 Chrome;写脚本批量抓 1000 个页面——用 Lightpanda。 +

+
+
+ +

心智模型对比

+ + + + + + + + + + +
你用 Chrome脚本用 Lightpanda
谁在操作人(鼠标点击)代码(goto/click/eval)
目的看、购物、娱乐提取数据 / 监控 / 自动化
速度人速每秒几十页
规模1 个页面1000 个页面
产出脑子里的记忆JSON / CSV / 数据库
界面有窗口看得到完全无 UI,看不到渲染
+ +

🚫 三个常见误解

+
+
+

✗ 不是搜索引擎

+

不索引互联网。你给一个 URL,它只处理这一个页面。想搜索得先有 URL 列表。

+
+
+

✗ 不是下载器

+

默认不存任何文件,结果流到 stdout。要留下必须自己重定向到文件或写数据库。

+
+
+

✗ 不是"批量下原始文件"

+

它是"批量读网页 → 提取结构化数据"。保存的不是 HTML 本身,是从 HTML 里挖出来的字段。

+
+
+ +

🎯 场景判断表

+ + + + + + + + + + + + + +
场景能不能用备注
新闻 / 博客 / Wiki✅ 完美纯文字,token 友好 Markdown
API 文档、技术站✅ 完美结构化强
论坛(HN / Reddit / V2EX)✅ 完美纯文字内容
SPA 后台管理系统✅ 大多行DOM 驱动,需要配合登录态
企业官网 / SaaS 介绍页🟡 部分标题在文字,卖点常在海报
电商商品详情页规格、材质、使用说明全在长图
小红书 / Instagram核心信息载体是图文笔记
PDF-as-webpage很多文档站把 PDF 转成图嵌入
视频站视频内容根本不是 DOM
+ +
+ 核心限制:Lightpanda 对"信息在图里"的站是瞎子。 + 它能看到 <img src="xxx.jpg"> 的 URL,但不下载图片字节、不做 OCR、不做视觉理解。 + 这是设计取舍——为了 11× 速度砍掉的能力,不是 bug。 +
+ +

🏗️ 正确的组合拳 · Lightpanda + VLM 管道

+

+ 单 Lightpanda 覆盖 60% 的场景,剩下 40%(中文电商、小红书、海报站)必须靠视觉大模型(VLM)补。 + 分层调度后,总成本比 "真 Chrome + 整页截图 + VLM" 便宜 5-10 倍。 +

+ +
+
+
① 抓取层
+
Lightpanda 抓页面 → DOM + 文字 + 图片 URL 列表
+
快 · 省钱
+
+
+
② 下载层
+
普通 curl / wget 下载需要的图片字节(非 Lightpanda)
+
按需精挑
+
+
+
③ 视觉层
+
VLM 读图:Claude Sonnet Vision / GPT-4V / Qwen-VL-Max / PaddleOCR
+
智能 · 贵
+
+
+
④ 合并层
+
Lightpanda 抽到的文字字段 + VLM 从图读到的字段 → 完整结构化数据
+
→ PostgreSQL / JSON
+
+
+ +
+ 分工原则:Lightpanda 负责"快省地扒骨架",VLM 负责"贵但能看懂图"。 + 加起来比用真 Chrome 方案便宜数倍——因为 Chrome 会加载一堆你不需要的字体、CSS、JS 资源, + 还要先渲染才能截屏;Lightpanda 直接给你 <img src> URL,你精确挑要看的图交给 VLM。 +
+ +

📂 典型项目的场景映射

+
+
+

✓ 单跑 Lightpanda 就够

+
    +
  • 法条/题库补抓 — 大多是纯文字
  • +
  • 新闻监控 / 技术文档同步
  • +
  • Wiki / Gitea / 文档站搜索
  • +
  • 论坛社区数据采集
  • +
  • SaaS 后台 API 数据导出
  • +
+
+
+

✗ 必须配 VLM 组合拳

+
    +
  • 电商供应商批量采购 — 80% 信息在长图
  • +
  • 淘宝/京东对标比价 — 价格、规格、活动规则全在图
  • +
  • 汽修维修手册 — 接线图、爆炸图必须视觉理解
  • +
  • 小红书爆款挖掘 — 核心是图文笔记
  • +
  • 营销活动页抓取 — 海报里写满减规则
  • +
+
+
+ +

🛠️ 实战命令速查

+ +
+

一次性抓 + 转 Markdown(最快路径)

+
ssh root@VPS '/opt/lightpanda/lightpanda fetch \
+  --dump markdown \
+  --wait-until networkidle \
+  --wait-ms 3000 \
+  https://目标站.com'
+

适合:一次性抓一个 URL,把结果直接喂给 LLM 做摘要/问答

+
+ +
+

要完整 HTML(图片 URL + 主推文案 + 所有 DOM)

+
ssh root@VPS '/opt/lightpanda/lightpanda fetch \
+  --dump html \
+  --wait-until networkidle \
+  --wait-ms 5000 \
+  --with-base \
+  https://目标站.com'
+

+ 适合:要图片 URL 列表、要页面所有内容。注意--dump markdown 会省略 hero/图片区块, + 想拿到产品主推文案必须用 html 自己 parse。 +

+
+ +
+

脚本化(需要登录态 / JS 交互 / 多步操作)

+
# 本机开 SSH 隧道
+ssh -N -L 9222:127.0.0.1:9222 root@VPS
+
+# 另一个终端跑 Python(Playwright connectOverCDP)
+browser = await p.chromium.connect_over_cdp("http://127.0.0.1:9222")
+context = await browser.new_context()
+await context.add_cookies(cookies)  # 从本机 Chrome 导的登录态
+page = await context.new_page()
+await page.goto("https://后台.com/订单")
+data = await page.eval_on_selector_all("...", "...")
+

适合:需要保持登录态的后台管理系统、多步表单交互、抓取分页列表

+
+ +

⚠️ 三个坑必须记住

+
+
+

坑 1 · wait 时机

+

默认 --wait-until=done,SPA 内容可能还没渲染就 dump 了。

+

解法:重页面加 --wait-until networkidle --wait-ms 3000。 + Apple 首页就是这样才拿到 hero 主推产品。

+
+
+

坑 2 · markdown 省略

+

--dump markdown 是"语义精简"模式,会跳过图片为主的 hero 区块、产品卡片。

+

解法:想拿到所有内容用 --dump html,自己写 parser 提取 H2/H3/class。

+
+
+

坑 3 · UA 反爬

+

默认 UA 是 Lightpanda/1.0,很容易被反爬识别封 IP。

+

解法:加 --user-agent-suffix 或自建 UA。注意代码禁止含 "Mozilla" 的伪装 UA。

+
+
+ +
+ 💡 铁律:Lightpanda 是抓取管道的"第一道工序",不是全流程方案。 + 启动任何项目前先想清楚下一道工序是什么——直接入库?给 VLM 看图?给 LLM 做摘要?触发告警? + 没想清楚下游就别用它——它只是个"不渲染的 Chrome",不是银弹。 +
+
+