≡ AI工具

xbench – 红杉中国推出全新的AI基准测试工具

分类:AI工具
xbench – 红杉中国推出全新的AI基准测试工具

xbench是什么

xbench是红杉中国推出全新的AI基准测试工具。基于双轨评估体系,构建多维度测评数据集,追踪模型的理论能力上限与Agent的实际落地价值。xbench用长青评估机制,动态更新测试内容,确保时效性和相关性。xbench首期推出的两个核心评估集分别是科学问题解答测评集和中文互联网深度搜索测评集。xbench致力于为AI技术突破与产品迭代提供科学、长效的评测指引,推动AI系统在真实场景中的效用价值提升。

xbench