Applnn网站有客户端啦,更加流畅精简,点击客户端下载即可下载,原applnn.cc域名更换applnn.com新域名

Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具

Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具

工具介绍

Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫工具,旨在简化异步 Web 爬取和数据提取,专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装,提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行,并能生成结构化的输出,适合各种复杂的爬取场景,工具还具备异步架构和隐私保护功能。

如何安装

Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包或使用 Docker。

使用 pip 🐍

选择最适合您需求的安装选项:

基本安装

对于基本的网页爬取和抓取任务:

pip install crawl4ai

默认情况下,这将安装 Crawl4AI 的异步版本,使用 Playwright 进行网络爬取。

👉 注意:安装 Crawl4AI 时,安装脚本应自动安装并设置 Playwright。但是,如果遇到任何与 Playwright 相关的错误,则可以使用以下方法之一手动安装它:

  1. 通过命令行:

    playwright install
  2. 如果上述方法不起作用,请尝试这个更具体的命令:

    python -m playwright install chromium

在某些情况下,第二种方法已被证明更为可靠。

同步版本安装

如果您需要使用 Selenium 的同步版本:

pip install crawl4ai[sync]

开发安装

对于计划修改源代码的贡献者:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

使用 Docker

我们正在创建 Docker 镜像并将其推送到 Docker Hub。这将提供一种在容器化环境中运行 Crawl4AI 的简便方法。敬请期待更新!

工具地址

在线体验:在 Colab 中打开

官方文档:https://crawl4ai.com/mkdocs/

GitHub:https://github.com/unclecode/crawl4ai

版权声明 1 本网站名称:Applnn
2 本站永久网址:www.applnn.com
3 GitHub无法访问下载解决教程:点击查看
4 本站发布的文章及附件仅限用于学习和研究,不得用于商业或非法用途,否则后果请用户自负!
5 本站信息来自网络收集整理,版权争议与本站无关,仅供学习研究,如有侵权请联系客服删除!
6 如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。
7 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

给TA打赏
共{{data.count}}人
人已打赏
!
也想出现在这里? 联系我们
     广告位
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索