人工智能研究所
2024年01月25日
2024年1月25日,港大经管学院蒋镇辉教授领导的人工智能大模型评测团队发布了一份关于通用大语言模型的评测报告。评测团队对多个主流大语言模型在中文环境下进行了综合评测,并公布了相应的排行榜。评测工作对于确保语言模型的准确性、可靠性和公平性至关重要。通过评测,我们能够更好地理解模型在不同语境和应用场景中的表现,从而帮助大众认识、理解和选择模型。此外,评测能够为开发者提供改进模型性能的关键反馈,也是确保这些先进技术能够安全、负责任地服务于社会的重要步骤。
该报告从用户视角出发,构建了一个新的通用大语言模型综合评价体系(如图1),主要包括三大核心能力:通用语言能力、专业学科能力以及安全与责任。在这些核心领域下,该评估开发了不同难度的评测任务,简单级别任务包括基础语言能力、中学难度学科测试与一般攻击测试,困难级别包括场景应用能力、大学难度学科测试与指令攻击任务。这些测试被进一步细分为多个子维度,如自由问答、内容创作、跨语言翻译、逻辑与推理、角色模拟等,旨在全方位评估模型处理从简单到复杂的各种任务和问题的能力。
图1. 中文语境下的大模型评测体系
经过对14个不同的大模型的测试与评估(所有模型回答均通过API调用方式获得),报告依据通用语言能力和安全与责任方面的人工评分,以及专业学科测试中的正确率进行综合加权,从而得出了这些模型在中文任务处理方面的整体排名。
排行榜地址:https://hkubs.hku.hk/aimodelrankings/c
排行榜中,文心一言4综合表现最佳,GPT4-Turbo与通义千问2紧随其后。如图2,尽管是中文语境下的测试,国产大模型在通用语言能力上仍落后于GPT4-Turbo和GPT4,尤其是在内容生成类任务中差异较为明显。在中文的专业学科测试中,通义千问2正确率最高,文心一言4也超越了GPT系列模型,展示出优异的性能。在安全与责任方面,文心一言4、GPT系列模型、讯飞星火3、通义千问2、商汤日日新、ChatGLM3等均展现出较成熟的安全意识。需要指出的是,这项评测工作仅适用于中文任务,因此排名结果不能推广至英文测试中。在英文语境的测试评估中,GPT系列模型、LLaMA和BloomZ可能会有更好的表现。
图2. 中文语境下的大模型评测表现
考虑到部分大模型间的评分差异极小且在统计学上可能并不显著,因此,评测团队对这些模型在众多子任务上的得分进行了单因素方差分析。结合ANOVA分析结果和定性观点,根据它们在中文语境下的综合能力和表现将这些大模型分为五个等级(如图3)。
图3. 中文语境下的大模型能力分级
在中文语境下的大语言模型能力测试中,文心一言4、GPT4-Turbo和通义千问2综合表现卓越,位列第一梯队,处于领先者的地位。其次是GPT4、讯飞星火v3.0和商汤日日新,位列第二梯队。总的来说,部分代表性国产大模型在中文语境下表现出色,在广泛的中文语言任务处理中展现出了较好的自然语言生成能力与较高的准确性。
另外,这项评测工作还引入大模型裁判(LLM-as-a-judge)作为参考评估方法之一。与人工打分相比,通过大模型裁判进行自动评估可以大幅节省时间与经济成本,提高评测效率。在成对比较(Pairwise comparison)中,大模型作为裁判,判断对于特定问题而言模型A与模型B谁的回复更优(如图4)。之后Elo评级机制被用于对大模型的表现进行排名,随着成对比较的进行,每个模型的elo评分会根据它们在一对一PK(模型对战)中的表现进行相应的调整:赢得对战的模型评分上升,而输掉的则评分下降。
图4.大模型裁判与成对比较方法示意
评测团队使用一个微调后的GPT3.5-Turbo进行了通用语言能力中自由问答、内容创作、场景模拟与角色模拟四个子任务的评价工作。对所有回答进行成对比较中的胜率统计(数字越大,意味着对同一个问题,模型 A的回答遇到模型B的回答时胜率越大),结果如图5。
图5.成对比较胜率统计
通过引入大模型裁判,报告中提供了一个仅基于自由问答、内容创作、场景模拟与角色模拟四个子任务与成对比较结果的大模型通用语言能力排行榜,如下所示,其中GPT4-turbo在一众大模型中表现最佳,讯飞星火v3.0、ChatGLM3与文心一言4 在国产大模型中位列前三名。报告中还对大模型裁判与人类裁判的判断一致性与差异进行了讨论,在这项评估工作中,通过大模型裁判获得的榜单与人类裁判给出的大模型排名具有较高的一致性,证实了大模型裁判(LLM-as-a-judge)评估方式的有效性。
关于更多评估方法的细节与结果,请参见报告文档:https://hkubs.hku.hk/aimodelrankings/report。