● 评测工具:用于评估模型的整体能力
● 评测基准:用于评估模型在特定任务方面的能力
评测集名称 | 核心维度 | 测试模型的描述 | 评测类型 |
MMLU | 多模态语言理解 | 理解文本、图像和音频等多种模态数据之间的关系方面的能力 | 评测工具 |
AGIEVAL | 通用人工智能 | 自然语言理解、机器翻译、视觉识别等多种不同任务方面的能力 | 评测工具 |
ARC | 对话理解 | 理解对话场景中的意图和信息方面的能力 | 评测工具 |
CEval | 自然语言推理 | 理解和推理自然语言中的逻辑关系方面的能力 | 评测工具 |
Race | 阅读理解 | 理解文本的语义和结构方面的能力 | 评测工具 |
GSM8K | 生成文本 | 在生成文本方面的能力 | 评测工具 |
SQuAD | 问答 | 测试模型在回答文本中的问题方面的能力 | 评测工具 |
GLUE | 自然语言理解 | 自然语言理解方面的能力 | 评测基准 |
CLUE | 中文自然语言理解 | 中文自然语言理解方面的能力 | 评测基准 |
WMT | 机器翻译 | 测试模型在机器翻译方面的能力 | 评测基准 |
商汤大语言模型应用“商量SenseChat“完成评测后的链接:https://finance.sina.cn/tech/2023-08-31/detail-imzkcazt6748692.d.html?fromtech=1&from=wap
作者:Syw