当前位置:首页 > 科技  > 软件

直接把任意网站变为 API 接口?Firecrawl有点牛了!

来源: 责编: 时间:2024-07-19 07:56:08 92观看
导读Hello,大家好,我是 Sunday。最近看到了一个爬虫类框架:firecrawl 号称 可以抓取任何网站并将其转换为干净的 markdown 或结构化数据。并且可以直接通过 Node 进行部署。看这样的描述有点厉害了,所以,咱们今天就来看看这个

Hello,大家好,我是 Sunday。LzC28资讯网——每日最新资讯28at.com

最近看到了一个爬虫类框架:firecrawl 号称 可以抓取任何网站并将其转换为干净的 markdown 或结构化数据。并且可以直接通过 Node 进行部署。LzC28资讯网——每日最新资讯28at.com

看这样的描述有点厉害了,所以,咱们今天就来看看这个 firecrawlLzC28资讯网——每日最新资讯28at.com

01:什么是 firecrawl

firecrawl 是一种 API 服务,它获取 URL、对其进行抓取并将其转换为干净的 markdown 或结构化数据。我们会抓取所有可访问的子页面并为您提供每个子页面的干净数据。无需站点地图。LzC28资讯网——每日最新资讯28at.com

目前 Firecrawl 开源 3周 的时间,已经有了 7.9K 的 star 数,可以说是一个优秀的项目了LzC28资讯网——每日最新资讯28at.com

图片图片LzC28资讯网——每日最新资讯28at.com

获取秘钥在这里注册并获取:https://www.firecrawl.dev/pricingLzC28资讯网——每日最新资讯28at.com

有了秘钥之后,可以直接基于 Node 包创建项目即可:LzC28资讯网——每日最新资讯28at.com

  1. 安装依赖包 npm install @mendable/firecrawl-js
  2. 将 API 密钥设置为命名的环境变量FIRECRAWL_API_KEY或将其作为参数传递给FirecrawlApp类
  3. 如要抓取单个 URL ,可直接通过 scrapeUrl 方法
try {  const url = "https://example.com";  const scrapedData = await app.scrapeUrl(url);  console.log(scrapedData);} catch (error) {  console.error("Error occurred while scraping:", error.message);}
  1. 如要爬取网站信息,可以直接通过 crawlUrl 方法。该方法以起始 URL 和可选参数作为参数。该params参数允许您为抓取作业指定其他选项,例如要抓取的最大页面数、允许的域和输出格式。
const crawlUrl = "https://example.com";const params = {  crawlerOptions: {    excludes: ["blog/"],    includes: [], // leave empty for all pages    limit: 1000,  },  pageOptions: {    onlyMainContent: true,  },};const waitUntilDone = true;const timeout = 5;const crawlResult = await app.crawlUrl(  crawlUrl,  params,  waitUntilDone,  timeout);
  1. 可以通过 checkCrawlStatus 方法检查爬取状态
const status = await app.checkCrawlStatus(jobId);console.log(status);
  1. 使用 LLM 可自动格式化所有数据
import FirecrawlApp from "@mendable/firecrawl-js";import { z } from "zod";const app = new FirecrawlApp({  apiKey: "fc-YOUR_API_KEY",});// Define schema to extract contents intoconst schema = z.object({  top: z    .array(      z.object({        title: z.string(),        points: z.number(),        by: z.string(),        commentsURL: z.string(),      })    )    .length(5)    .describe("Top 5 stories on Hacker News"),});const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", {  extractorOptions: { extractionSchema: schema },});console.log(scrapeResult.data["llm_extraction"]);
  1. 使用该 search 方法,您可以在搜索引擎中搜索查询并获取排名靠前的结果以及每个结果的页面内容。该方法将查询作为参数并返回搜索结果。
const query = "what is mendable?";const searchResults = await app.search(query, {  pageOptions: {    fetchPageContent: true, // 获取每个搜索结果的页面内容  },});


LzC28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-101703-0.html直接把任意网站变为 API 接口?Firecrawl有点牛了!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 为什么StampedLock会导致CPU100%?

下一篇: 深入理解 JavaScript 中的 With 语句

标签:
  • 热门焦点
Top