← 返回首页

langchain-ai_langchain-benchmarks

已发布
LangChain官方LLM应用基准测试集,评估Agent和RAG系统
平台/工具 模型评测RAG检索性能测试
首页 / 工具 / 平台/工具 / langchain-ai_langchain-benchmarks

LangChain官方LLM应用基准测试集,评估Agent和RAG系统

谁会用得上

  • LangChain开发者
  • AI应用评估团队

解决什么问题

  • AI应用缺标准化评估
    官方基准测试集
  • Agent性能难对比
    标准化评估指标

装备说明

LangChain Benchmarks

> GitHub: langchain-ai/langchain-benchmarks

一句话说明

LangChain官方基准测试,评估组件和Agent性能

---

谁会用得上

LangChain开发者、组件选型决策者、LangChain性能优化团队

解决什么问题

LangChain组件众多但性能差异不明,缺乏官方标准测试来评估各组件和Agent表现

什么情况下别用

非LangChain生态用户、不需要性能对比的项目、已有自有评估体系的团队

用了能得到什么

官方标准测试、组件性能对比、Agent能力评估、持续回归验证、选型参考

---

快速开始

``bash

pip install langchain-benchmarks

`

`python

from langchain_benchmarks import run_benchmark

results = run_benchmark(

agent=my_agent,

benchmark="tool-use"

)

print(results.score)

`

---

安装配置

环境要求

  • Python 3.8+
  • 相关API密钥(如需要)
  • 安装步骤

    `bash

    基础安装

    pip install langchain-benchmarks

    如需完整功能(可选)

    pip install "langchain-benchmarks[all]"

    `

    环境变量配置

    `bash

    根据需要设置以下环境变量

    export OPENAI_API_KEY="your-openai-key"

    或其他模型提供商的API密钥

    `

    ---

    怎么使用

    Agent能力评估

    `python

    from langchain_benchmarks import AgentBenchmark

    benchmark = AgentBenchmark("tool-use-gaia")

    result = benchmark.evaluate(

    agent=my_agent,

    num_examples=100

    )

    print(f"成功率: {result.success_rate}")

    print(f"平均步骤: {result.avg_steps}")

    `

    组件对比

    `python

    from langchain_benchmarks import compare

    results = compare(

    retrievers=[retriever1, retriever2],

    benchmark="retrieval-qa"

    )

    results.to_chart()

    ``

    ---

    > 更多详情请参考 GitHub 官方文档

    装备信息

    来源开源社区
    类型基准测试框架
    漏斗层级Layer 2
    板块平台/工具
    收录时间2026/5/30
    收藏数★ 34