我们的基准测试框架

MasudIbne756 · Post by **MasudIbne756** » Thu Mar 20, 2025 9:25 am

下图描述了我们的基准测试框架。我们确定了销售和服务领域的 11 个常见 crm 用例，并收集了相关示例。对于每个用例，我们构建了一个标准提示模板，该模板以该用例的每个示例为基础。每个基础提示都提供给 15 个不同的 llm，产生的输出由人工评估员以及自动 llm 评委进行评估。

事实性——答复是否真实，且不含虚假信息？
遵循说明——答案在内容和格式方面是否符合要求的说明？
简洁性——回答是否切中要点，且没有 telegram 日本人重复或不必要的阐述？
完整性——答复是否全面，是否包含所有相关信息？
我们在测量时采用了 4 点评分标准：

4 – 非常好：根据信息，它表现得非常好。时间充裕的人也表现不及它。
3 – 良好：做得很好，但仍有一点点改进空间。
2 – 差：无法使用且存在问题。
1 – 非常差：无法使用，且存在明显严重问题。
为了获得准确度分数，我们与 llm 评判员一起进行了人工和自动评估，如下所述。