下图描述了我们的基准测试框架。我们确定了销售和服务领域的 11 个常见 crm 用例,并收集了相关示例。对于每个用例,我们构建了一个标准提示模板,该模板以该用例的每个示例为基础。每个基础提示都提供给 15 个不同的 llm,产生的输出由人工评估员以及自动 llm 评委进行评估。
事实性——答复是否真实,且不含虚假信息?
遵循说明——答案在内容和格式方面是否符合要求的说明?
简洁性——回答是否切中要点,且没有 telegram 日本人 重复或不必要的阐述?
完整性——答复是否全面,是否包含所有相关信息?
我们在测量时采用了 4 点评分标准:
4 – 非常好:根据信息,它表现得非常好。时间充裕的人也表现不及它。
3 – 良好:做得很好,但仍有一点点改进空间。
2 – 差:无法使用且存在问题。
1 – 非常差:无法使用,且存在明显严重问题。
为了获得准确度分数,我们与 llm 评判员一起进行了人工和自动评估,如下所述。