GitHub 五万星爬虫神器 Crawl4AI，专为 AI 打造的数据管道利器

Q: 🧹 1. 智能 Markdown 生成

raw_markdown：完整的页面内容转换 fit_markdown：启发式过滤，自动去除导航栏、广告、页脚等噪声，只留核心正文 BM25 算法过滤：根据用户 Query 提取最相关的段落——这真的有用吗？我觉得挺靠谱 引用和参考链接：把页面链接整理成有编号的引用列表 对接 LLM API 时，用 fit_markdown 能显著减少 Token 消耗。你猜怎么着？省下来的钱够喝好几杯奶茶了。

Q: 🛡️ 4. 反爬绕过能力

3 层自动反反爬检测：Direct → Proxy → 解锁服务，自动按需升级 Shadow DOM 扁平化：处理复杂动态渲染页面 浏览器指纹控制：模拟真实用户行为 同意弹窗自动关闭：Cookie 授权弹窗不再是拦路虎……终于不用手动点了 代理池支持：多代理自动切换

ivye
免费干货
2026-06-02
132热度
0评论

开发 AI 应用最头疼的不是模型本身，而是怎么把网上的数据干净地喂给它。今天介绍的这个开源项目，专门解决这个痛点。

一、问题：AI 时代的"喂饭"难题

说到大模型应用现在有多火，大家应该都懂。但说实话，开发者们有个共同的痛点——想给模型"喂"点数据，难啊！

想搞 RAG（检索增强生成） 系统吧，得有一大堆实时的网页数据；
想训练或者微调模型？那就更头疼了，需要干净、结构化的文本语料；
做 AI Agent 的时候，还得让 Agent 自己从网上扒最新信息——这谁顶得住啊；

你猜怎么着？传统爬虫工具像什么 BeautifulSoup、Scrapy、Selenium 这些，抓回来的东西……唉，简直是一坨"脏数据"。广告、导航栏、JavaScript 代码全混在一起。塞给 LLM 之前呢，还得费老鼻子劲儿去清洗。

更让人崩溃的是什么？有些标榜"开源"的工具，居然要注册账号、申请 API Token，甚至按量收费！这不是挂羊头卖狗肉么……

说实话，Crawl4AI 的作者 unclecode 当初就是被这种操作"气出来"做这个项目的。他说："2023 年我需要一个能把网页转成 Markdown 的工具，找到的'开源'方案要账号、要 Token、还要收 16 美元，而且效果一般。我直接怒了，几天之内做了 Crawl4AI，结果一下子火了。"

二、它是什么？Crawl4AI 一句话定义

Crawl4AI 说白了就是一个专门给 LLM 和 AI 数据管道用的开源网页爬虫框架。

它可不是简单地把网页内容扒下来就完事了——这玩意儿直接输出 LLM 能直接吃的干净 Markdown、结构化 JSON，省掉了一堆烦人的数据预处理步骤。说实话，这点真的挺香的。

核心数据在这：

⭐ GitHub Stars：50,000+——GitHub 年度最受关注的爬虫项目，你说牛不牛？
📦 开源协议：Apache 2.0（免费商用，完全没限制）
🐍 语言：Python，而且搞的是异步优先（asyncio + Playwright）
🚀 速度：比传统爬虫快了 6 倍以上……你猜怎么着？

三、核心功能：它能做什么？

🧹 1. 智能 Markdown 生成

这是 Crawl4AI 最核心的能力，说实话，它不是简单的 HTML 转 Markdown，而是：

raw_markdown：完整的页面内容转换
fit_markdown：启发式过滤，自动去除导航栏、广告、页脚等噪声，只留核心正文
BM25 算法过滤：根据用户 Query 提取最相关的段落——这真的有用吗？我觉得挺靠谱
引用和参考链接：把页面链接整理成有编号的引用列表

对接 LLM API 时，用 fit_markdown 能显著减少 Token 消耗。你猜怎么着？省下来的钱够喝好几杯奶茶了。

🤖 2. LLM 驱动的结构化提取

支持两种数据提取方式，可在同一配置中灵活切换：

方式一：CSS / XPath 选择器（规则明确的页面，速度快）

from crawl4ai.extraction_strategy import JsonCssExtractionStrategy

schema = {
    "name": "产品列表",
    "baseSelector": ".product-item",
    "fields": [
        {"name": "title", "selector": "h2", "type": "text"},
        {"name": "price", "selector": ".price", "type": "text"},
    ]
}
strategy = JsonCssExtractionStrategy(schema)

方式二：LLM 语义提取（复杂页面，用自然语言描述要提取什么）

from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel

class Article(BaseModel):
    title: str
    author: str
    summary: str

strategy = LLMExtractionStrategy(
    provider="openai/gpt-4o-mini",
    schema=Article.schema(),
    instruction="提取文章的标题、作者和摘要"
)

🌐 3. 深度爬取（Deep Crawl）

不只是爬单页，支持整站递归爬取：

from crawl4ai.deep_crawling import BFSDeepCrawlStrategy

strategy = BFSDeepCrawlStrategy(
    max_depth=3,          # 最大爬取深度
    resume_state=saved_state,  # 断点续爬
    on_state_change=save_to_redis,  # 状态变化回调
)

支持 BFS（广度优先）和 BestFirst（启发式优先级）两种策略，还有崩溃恢复机制。长时间爬取任务不再怕意外中断——我倒是觉得这个最实用，对吧？

🛡️ 4. 反爬绕过能力

这是 v0.8.5 重点更新的方向。为什么这么说？因为现在反爬越来越狠了：

3 层自动反反爬检测：Direct → Proxy → 解锁服务，自动按需升级
Shadow DOM 扁平化：处理复杂动态渲染页面
浏览器指纹控制：模拟真实用户行为
同意弹窗自动关闭：Cookie 授权弹窗不再是拦路虎……终于不用手动点了
代理池支持：多代理自动切换

🐳 5. Docker 一键部署 + REST API

不想在本地装 Playwright？用 Docker 直接起一个爬虫服务：

docker run -d 
  -p 11235:11235 
  --name crawl4ai 
  --shm-size=3g 
  unclecode/crawl4ai:latest

起来之后就是完整的 REST API 服务，任何语言都能调用。还附带实时监控 Dashboard，可以看浏览器池状态、系统指标，支持 WebSocket 实时推送。话说回来，这个 Dashboard 做得真不错，我试过，挺稳的。

四、怎么用？5 分钟上手

安装

pip install crawl4ai
crawl4ai-setup   # 自动安装配置 Playwright
crawl4ai-doctor  # 验证安装

最简单的用法：爬取并输出 Markdown

import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(url="https://example.com")
        print(result.markdown)   # 干净的 Markdown 正文

asyncio.run(main())

进阶：爬取并用 LLM 提取结构化数据

import asyncio
from crawl4ai import AsyncWebCrawler, CrawlerRunConfig
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel

class NewsItem(BaseModel):
    title: str
    summary: str
    date: str

async def main():
    strategy = LLMExtractionStrategy(
        provider="openai/gpt-4o-mini",
        schema=NewsItem.schema(),
        instruction="提取每条新闻的标题、摘要和日期"
    )
    config = CrawlerRunConfig(extraction_strategy=strategy)

    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://news.ycombinator.com",
            config=config
        )
        print(result.extracted_content)  # JSON 格式结构化数据

asyncio.run(main())

对接 RAG 流水线

Crawl4AI 的输出可以直接喂给 LangChain、LlamaIndex 这些 RAG 框架，说实话，这个真的挺方便的：

# 获取 fit_markdown（噪声已过滤的纯净文本）
clean_text = result.markdown.fit_markdown

# 直接送入向量数据库
vectorstore.add_texts([clean_text])

五、跟同类工具比比看

特性	Crawl4AI	Scrapy	Firecrawl	BeautifulSoup
LLM 友好输出	✅ 原生支持	❌	✅ 但收费	❌
JS 渲染	✅	❌	✅	❌
结构化提取	✅ CSS+LLM	✅ CSS	✅	✅ CSS
深度爬取	✅ BFS/BestFirst	✅	有限制	❌
开源免费	✅ Apache 2.0	✅	❌ 按量付费	✅
异步高性能	✅	✅	—	❌
反爬能力	✅ 三层自动	需插件	✅	❌