langchain-ai_langchain-benchmarks

已发布

LangChain官方LLM应用基准测试集，评估Agent和RAG系统

平台/工具模型评测RAG检索性能测试

首页 / 工具 / 平台/工具 / langchain-ai_langchain-benchmarks

LangChain官方LLM应用基准测试集，评估Agent和RAG系统

谁会用得上

LangChain开发者
AI应用评估团队

解决什么问题

AI应用缺标准化评估
官方基准测试集
Agent性能难对比
标准化评估指标

装备说明

LangChain Benchmarks

> GitHub: langchain-ai/langchain-benchmarks

一句话说明

LangChain官方基准测试，评估组件和Agent性能

---

谁会用得上

LangChain开发者、组件选型决策者、LangChain性能优化团队

解决什么问题

LangChain组件众多但性能差异不明，缺乏官方标准测试来评估各组件和Agent表现

什么情况下别用

非LangChain生态用户、不需要性能对比的项目、已有自有评估体系的团队

用了能得到什么

官方标准测试、组件性能对比、Agent能力评估、持续回归验证、选型参考

---

快速开始

``bash


pip install langchain-benchmarks

`python


from langchain_benchmarks import run_benchmark
results = run_benchmark(
    agent=my_agent,
    benchmark="tool-use"
)
print(results.score)

---

`安装配置`

`环境要求`

Python 3.8+


相关API密钥（如需要）
安装步骤

`bash


基础安装

pip install langchain-benchmarks
如需完整功能（可选）

pip install "langchain-benchmarks[all]"

`环境变量配置`

`bash


根据需要设置以下环境变量

export OPENAI_API_KEY="your-openai-key"
或其他模型提供商的API密钥

---

`怎么使用`

`Agent能力评估`

`python


from langchain_benchmarks import AgentBenchmark
benchmark = AgentBenchmark("tool-use-gaia")
result = benchmark.evaluate(
    agent=my_agent,
    num_examples=100
)
print(f"成功率: {result.success_rate}")
print(f"平均步骤: {result.avg_steps}")

`组件对比`

`python


from langchain_benchmarks import compare
results = compare(
    retrievers=[retriever1, retriever2],
    benchmark="retrieval-qa"
)
results.to_chart()

---

> 更多详情请参考 GitHub 官方文档

装备信息

来源开源社区

类型基准测试框架

漏斗层级Layer 2

板块平台/工具

收录时间2026/5/30

收藏数★ 34