browser-scrape

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Browser Scraping

Browser Scraping

Extract structured data from web pages using browser automation.
使用浏览器自动化从网页中提取结构化数据。

When to use

使用场景

When you need to gather information from web pages that require JavaScript rendering, authentication, or dynamic content loading.
当你需要从需要JavaScript渲染、身份验证或动态加载内容的网页中收集信息时。

Steps

步骤

  1. Open page — call
    mcp__claude-flow__browser_open
    with the target URL
  2. Wait for content — call
    mcp__claude-flow__browser_wait
    for dynamic content to load
  3. Get accessibility tree — call
    mcp__claude-flow__browser_snapshot
    for structured page content
  4. Extract text — call
    mcp__claude-flow__browser_get-text
    with CSS selectors
  5. Run queries — call
    mcp__claude-flow__browser_eval
    with JavaScript to extract structured data
  6. Paginate — use
    browser_click
    on next/load-more buttons, then repeat extraction
  7. Close — call
    mcp__claude-flow__browser_close
    when done
  1. 打开页面 — 调用
    mcp__claude-flow__browser_open
    并传入目标URL
  2. 等待内容加载 — 调用
    mcp__claude-flow__browser_wait
    等待动态内容加载完成
  3. 获取可访问性树 — 调用
    mcp__claude-flow__browser_snapshot
    获取结构化页面内容
  4. 提取文本 — 使用CSS选择器调用
    mcp__claude-flow__browser_get-text
  5. 运行查询 — 使用JavaScript调用
    mcp__claude-flow__browser_eval
    提取结构化数据
  6. 分页处理 — 在“下一页”或“加载更多”按钮上使用
    browser_click
    ,然后重复提取步骤
  7. 关闭浏览器 — 完成操作后调用
    mcp__claude-flow__browser_close

Best practices

最佳实践

  • Prefer
    browser_snapshot
    (accessibility tree) over raw HTML for structured extraction
  • Use
    browser_eval
    with
    document.querySelectorAll
    for bulk extraction
  • Add
    browser_wait
    between page loads to avoid timing issues
  • Respect robots.txt and rate limits
  • 对于结构化提取,优先使用
    browser_snapshot
    (可访问性树)而非原始HTML
  • 使用
    browser_eval
    结合
    document.querySelectorAll
    进行批量提取
  • 在页面加载之间添加
    browser_wait
    以避免时序问题
  • 遵守robots.txt规则和请求频率限制