首页 > 资讯 >

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

2023-05-10 11:22:27 来源：新智元

ChatGPT发布后，自然语言处理领域的生态彻底发生了变化，很多之前无法完成的问题都可以利用ChatGPT解决。

(资料图片)

不过也带来了一个问题：大模型的性能都太强了，光靠肉眼很难评估各个模型的差异。

比如用不同的基座模型和超参数训练了几版模型，从样例来看性能可能都差不多，无法完全量化两个模型之间的性能差距。

目前评估大语言模型主要有两个方案：

1、调用OpenAI的API接口评估。

ChatGPT可以用来评估两个模型输出的质量，不过ChatGPT一直在迭代升级，不同时间对同一个问题的回复可能会有所不同，评估结果存在无法复现的问题。

2、人工标注

如果在众包平台上请人工标注的话，经费不足的团队可能无力负担，也存在第三方公司泄露数据的情况。

为了解决诸如此类的「大模型评估问题」，来自北京大学、西湖大学、北卡罗来纳州立大学、卡内基梅隆大学、MSRA的研究人员合作开发了一个全新的语言模型评估框架PandaLM，致力于实现保护隐私、可靠、可复现及廉价的大模型评估方案。

项目链接：https://github.com/WeOpenML/PandaLM

提供相同的上下文，PandaLM可以比较不同LLM的响应输出，并提供具体的理由。

为了证明该工具的可靠性和一致性，研究人员创建了一个由大约1000个样本组成的多样化的人类标注测试数据集，其中PandaLM-7B的准确率达到了ChatGPT的94%评估能力。

三行代码用上PandaLM

当两个不同的大模型对同一个指令和上下文产生不同响应时，PandaLM旨在比较这两个大模型的响应质量，并输出比较结果，比较理由以及可供参考的响应。

比较结果有三种：响应1更好，响应2更好，响应1与响应2质量相似。

比较多个大模型的性能时，只需使用PandaLM对其进行两两比较，再汇总两两比较的结果进行多个大模型的性能排名或画出模型偏序关系图，即可清晰直观地分析不同模型间的性能差异。

PandaLM只需要在「本地部署」，且「不需要人类参与」，因此PandaLM的评估是可以保护隐私且相当廉价的。

为了提供更好的可解释性，PandaLM亦可用自然语言对其选择进行解释，并额外生成一组参考响应。

在项目中，研究人员不仅支持使用Web UI使用PandaLM以便于进行案例分析，为了方便使用，还支持三行代码调用PandaLM对任意模型和数据生成的文本评估。

考虑到现有的许多模型、框架并不开源或难以在本地完成推理，PandaLM支持利用指定模型权重生成待评估文本，或直接传入包含待评估文本的.json文件。

用户只需传入一个包含模型名称/HuggingFace模型ID或.json文件路径的列表，即可利用PandaLM对用户定义的模型和输入数据进行评估。下面是一个极简的使用示例：

为了能让大家灵活的运用PandaLM进行自由评测，研究人员也将PandaLM的模型权重公布在了huggingface网站上，可以通过以下命令加载PandaLM-7B模型：

PandaLM的特点

可复现性

因为PandaLM的权重是公开的，即使语言模型的输出有随机性，当固定随机种子之后，PandaLM的评价结果仍可始终保持一致。

而基于在线API的模型的更新不透明，其输出在不同时间有可能很不一致，且旧版模型不再可访问，因此基于在线API的评测往往不具有可复现性。

自动化、保护隐私性和开销低

只需本地部署PandaLM模型，调用现成的命令即可开始评估各种大模型，不需像雇佣专家标注时要时刻与专家保持沟通，也不会存在数据泄露的问题，同时也不涉及任何API费用以及劳务费用，非常廉价。

评估水平

为了证明PandaLM的可靠性，研究人员雇佣了三个专家进行独立重复标注，创建了一个人工标注的测试集。

测试集包含50个不同的场景，每个场景中又包含若干任务。这个测试集是多样化、可靠且与人类对文本的偏好相一致的。测试集的每个样本由一个指令和上下文，以及两个由不同大模型生成的响应共同组成，并由人类来比较这两个响应的质量。

筛除了标注员之间有较大差异的样本，以确保每个标注者在最终测试集上的IAA（Inter Annotator Agreement）接近0.85。值得注意的是，PandaLM的训练集与创建的人工标注测试集无任何重叠。

这些被过滤的样本需要额外的知识或难以获取的信息来辅助判断，这使得人类也难以对它们进行准确标注。

经过筛选的测试集包含1000个样本，而原始未经过滤的测试集包含2500个样本。测试集的分布为{0：105，1：422，2：472}，其中0表示两个响应质量相似，1表示响应1更好，2表示响应2更好。以人类测试集为基准，PandaLM与gpt-3.5-turbo的性能对比如下：

可以看到，PandaLM-7B在准确度上已经达到了gpt-3.5-turbo 94%的水平，而在精确率，召回率，F1分数上，PandaLM-7B已于gpt-3.5-turbo相差无几。

因此，相比于gpt-3.5-turbo而言，可以认为PandaLM-7B已经具备了相当的大模型评估能力。

除了在测试集上的准确度，精确率，召回率，F1分数之外，还提供了5个大小相近且开源的大模型之间比较的结果。

首先使用了相同的训练数据对这个5个模型进行指令微调，接着用人类，gpt-3.5-turbo，PandaLM对这5个模型分别进行两两比较。

下表中第一行第一个元组（72，28，11）表示有72个LLaMA-7B的响应比Bloom-7B的好，有28个LLaMA-7B的响应比Bloom-7B的差，两个模型有11个响应质量相似。

因此在这个例子中，人类认为LLaMA-7B优于Bloom-7B。下面三张表的结果说明人类，gpt-3.5-turbo与PandaLM-7B对于各个模型之间优劣关系的判断完全一致。

总结

PandaLM提供了除人类评估与OpenAI API评估之外的第三条评估大模型的方案，PandaLM不仅评估水平高，而且评估结果可复现，评估流程自动化，保护隐私且开销低。

每日速看!阿尔特(300825.SZ)：公司电磁式DHT及电磁离合器模块的市场竞争力及销量有望逐步体现

数字红外接近检测模块应用在真无线立体声耳塞领域|快播报

快资讯：火炬之光无限狂人爆裂流怎么玩火炬之光无限狂人爆裂流bd攻略

世界关注：股债资产有机可寻借助绩优“固收+”华安乾煜把握行情

游戏王光之创造神石板多少钱_光之创造神石板的动画剧情|每日热门

CARIAD软件，真的要为大众的销量负全责吗？

2022年度全国优质专用小麦质量鉴评暨产业发展大会召开要闻

讯息：腿粗怎么办小孩_腿粗怎么办

世界播报:预计年底上市，现代IONIQ 5 N官方谍照曝光

风格和外观的设计都给大家带来了耳目一新的感觉天天消息

人民银行今日开展20亿元逆回购操作公开市场实现净投放20亿元全球热文

揽胜运动版电动踏板_路虎揽胜运动版

2023年罐头食品概念股名单（5月9日）

信用卡逾期怎么去协商？信用卡逾期一年多还可不可以继续用？

天天视讯！最高法：加大涉农民工工资案件执行工作力度

当前关注：【抢抓机遇促发展·青海在行动】多元消费场景催热西宁夜经济

前4月超半数股基上涨招商广发嘉实等产品涨幅超40%

Pro+版真机曝光 OPPO Reno10系列或主打“双芯人像，所爱跃然眼前” 快看

河南确山：种下中药材开出“致富花”|全球速看

【天天速看料】手机插上电脑无法识别的usb_手机连接电脑显示无法识别的usb设备怎么办

这个五一档，韩寒赢麻了世界今日报

天天讯息：温馨！网球天王费德勒晒一家六口全家福，双胞胎儿子越长大越帅气

安永报告：中国对外直接投资开局良好

孟遗_世界要闻

评测

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

ChatGPT发布后，自然语言处理领域的生态彻底发生了变化，很多之前无法完成的问题都可以利用ChatGPT解决。不

2023-05-10

世界热推荐：“没有谈判余地” 美国两党争斗加剧债务上限困局

耶伦连续两天发声警告债务违约后果随着美国债务违约的阴影日益逼近，美国财政部长耶伦7日和8日接连在美国媒

2023-05-10

勇士集体炮轰裁判！科尔怒摔毛巾，库里不服气，要求NBA给个解释热门

勇士队目前大比分1:3，暂时落后湖人队现在来看他们已经是一只脚站在了悬崖边上，如果不能够尽快的做出调整

2023-05-10

11086人工客服电话_11086 全球微资讯

1、首先我们是镜像使用率过多的，就造成了操作系统盘不能够进行拷贝。2、能够格盘之后在进行尝试下。3、2、

2023-05-10

中牟农商银行：春风送暖暖人心热心服务解民忧世界速递

河南经济报记者杨磊通讯员阴朋莉“还是你们中牟农商银行服务态度好、办业务速度快。”客户段先生不禁竖...

2023-05-10

行情

精彩推送

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

上一篇：世界热推荐：“没有谈判余地” 美国两党争斗加剧债务上限困局

下一篇：最后一页

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

ChatGPT发布后，自然语言处理领域的生态彻底发生了变化，很多之前无法完成的问题都可以利用ChatGPT解决。不

世界热推荐：“没有谈判余地” 美国两党争斗加剧债务上限困局

耶伦连续两天发声警告债务违约后果随着美国债务违约的阴影日益逼近，美国财政部长耶伦7日和8日接连在美国媒

勇士集体炮轰裁判！科尔怒摔毛巾，库里不服气，要求NBA给个解释 热门

勇士队目前大比分1:3，暂时落后湖人队现在来看他们已经是一只脚站在了悬崖边上，如果不能够尽快的做出调整

11086人工客服电话_11086 全球微资讯

1、首先我们是镜像使用率过多的，就造成了操作系统盘不能够进行拷贝。2、能够格盘之后在进行尝试下。3、2、

中牟农商银行：春风送暖暖人心 热心服务解民忧 世界速递

河南经济报记者杨磊通讯员阴朋莉“还是你们中牟农商银行服务态度好、办业务速度快。”客户段先生不禁竖...

蓟州区与天津外国语大学合作办学 新学校2025年秋投用 天天观速讯

天津北方网讯：5月8日，天津外国语大学与蓟州区人民政府签订全面战略合作框架协议和合作办学协议书，探索区

【快播报】抖音规范平台AI生成内容 数据安全已成AI发展的前提保障

抖音发布关于人工智能生成内容的平台规范暨行业倡议。其中提出，各生成式人工智能技术的提供者，均应对生成

高中议论文素材最给力的段落摘抄_高中议论文段落摘抄|世界快报

1、心灵——心灵是一方广袤的天空，它包容着世间的一切；心灵是一片宁静的湖水，偶尔也会泛起阵阵涟漪；...

巴西决定对628种机械和装备产品免除进口关税

当地时间9日，巴西外贸委员会执行管理委员会作出决定，对628种机械和装备产品免除进口关税，免税措施一直持

红酒打开可以放多少天_红酒打开后最多能放多少天

1、现在葡萄酒已经取消保质期了，可以喝的。2、开瓶后的保存方法：开过的酒应该将软木塞塞回，把酒瓶放进冰

【环球新视野】伊藤美诚回应被恶搞：从不介意！感谢中国球迷，我就是我

在中国，伊藤美诚是一名颇有争议的选手。有人很欣赏她，特别是那种不服输的劲头；有人很讨厌她，讨厌她的张

女生学校产子后从二楼扔下？广西一职校回应了-每日快报

近日，有网友发布信息称，有女学生在宿舍生了孩子后“直接把仔从楼上丢下去”。相关图片和视频显示，一...

世界要闻：孤影影岳风缠雾

1、《孤影影岳风缠雾》是李半仙写的网络小说连载于3G书城。文章到此就分享结束，希望对大家有所帮助。

热门看点：师父书房惩罚打板子_家法用板子或棍子进行惩罚的故事

1、一天儿子犯了错，父亲看到他，有一种抽他的欲望。2、旁边刚好有一条扁担，就抽了上去，后来觉得扁担不方

再次释放积极信号 公募REITs首现基金管理人自购_今日热门

公募REITs市场近期频现积极信号，继原始权益人接连增持后，基金管理人也亲自“下场”自购。华夏基金9日...

特斯拉向用户征求改进意见，结果收到2万多条评论|环球微头条

IT之家5月9日消息，特斯拉创始人埃隆・马斯克经常在推特上与用户互动，特斯拉在其2022年影响力报告中指出，

当前关注：损益类科目有哪些口诀_损益类科目有哪些

1、损益类科目损益类科目。2、这类科目是为核算“本年利润”服务的，具体包括收入类科目、费用类科目；...

环球微资讯！电梯安全管理制度范本_电梯安全

你们好，最近小未来发现有诸多的小伙伴们对于电梯安全管理制度范本，电梯安全这个问题都颇为感兴趣的，今天

江永县召开永明河国家湿地公园迎接国家验收工作协调会

今日永州讯（通讯员蒋键)5月8日，江永县永明河国家湿地公园迎接国家验收工作协调会召开，进一步协调推进永

“人情味”旅游 暖心体验中提振经济 全球播报

最近一段时间，淄博烧烤火遍全网。“五一”期间，淄博市酒店预订量较2019年同期增长超10倍，出现“一房...

世界速讯：限售期届满，优利德部分股东计划减持

上述通过持股平台间接持有的股份均为公司首次公开发行前的股份，尚未上市流通；上述通过2022年限制性股票激

山东学生身高全国第一？高于全国平均水平，但输给了黑龙江 新视野

人民日报健康客户端查询，根据高等教育出版社出版的《2019年中国学生体质调研报告》，19-22岁我国城市男生

瑞典地产公司SBB推迟派息 引发房地产板块领跌欧股

智通财经APP获悉，在瑞典最大的商业地产公司之一SBB推迟派息、经济增长面临压力等因素的影响下，欧洲股市周

快消息！莱克电气清洁电器创新显成效 多品类齐头并进

中证网讯(王珞)随着莱克电气在核心电机技术方面的研发提升以及对消费用户痛点的精准把握，公司品类创新层出

【全球聚看点】我爱我家：今年会启动相寓业务独立分拆上市的准备工作

相寓独立上市是公司一直明确的战略目标，公司今年将会启动相寓业务独立分拆上市的准备工作。

全球快播：外媒：日本实际工资连续12个月下滑

每日速看!阿尔特(300825.SZ)：公司电磁式DHT及电磁离合器模块的市场竞争力及销量有望逐步体现

数字红外接近检测模块应用在真无线立体声耳塞领域|快播报

快资讯：火炬之光无限狂人爆裂流怎么玩 火炬之光无限狂人爆裂流bd攻略

世界关注：股债资产有机可寻 借助绩优“固收+”华安乾煜把握行情

游戏王光之创造神石板多少钱_光之创造神石板的动画剧情|每日热门

CARIAD软件，真的要为大众的销量负全责吗？

2022年度全国优质专用小麦质量鉴评暨产业发展大会召开 要闻

讯息：腿粗怎么办小孩_腿粗怎么办

世界播报:预计年底上市，现代IONIQ 5 N官方谍照曝光

风格和外观的设计都给大家带来了耳目一新的感觉 天天消息

人民银行今日开展20亿元逆回购操作 公开市场实现净投放20亿元 全球热文

揽胜运动版电动踏板_路虎揽胜运动版

2023年罐头食品概念股名单（5月9日）

信用卡逾期怎么去协商？信用卡逾期一年多还可不可以继续用？

天天视讯！最高法：加大涉农民工工资案件执行工作力度

当前关注：【抢抓机遇促发展·青海在行动】多元消费场景催热西宁夜经济

前4月超半数股基上涨 招商广发嘉实等产品涨幅超40%

Pro+版真机曝光 OPPO Reno10系列或主打“双芯人像，所爱跃然眼前” 快看

河南确山：种下中药材 开出“致富花”|全球速看

【天天速看料】手机插上电脑无法识别的usb_手机连接电脑显示无法识别的usb设备怎么办

这个五一档，韩寒赢麻了 世界今日报

天天讯息：温馨！网球天王费德勒晒一家六口全家福，双胞胎儿子越长大越帅气

安永报告：中国对外直接投资开局良好

孟遗_世界要闻

一线 | 清理隔离垃圾的环卫“大白”：脱下防护服，浑身是馊味

一线|对接社区梳理需求 民企线上线下双保供

勇士集体炮轰裁判！科尔怒摔毛巾，库里不服气，要求NBA给个解释热门

中牟农商银行：春风送暖暖人心热心服务解民忧世界速递

蓟州区与天津外国语大学合作办学新学校2025年秋投用天天观速讯

【快播报】抖音规范平台AI生成内容数据安全已成AI发展的前提保障

再次释放积极信号公募REITs首现基金管理人自购_今日热门

“人情味”旅游暖心体验中提振经济全球播报

山东学生身高全国第一？高于全国平均水平，但输给了黑龙江新视野

瑞典地产公司SBB推迟派息引发房地产板块领跌欧股

快消息！莱克电气清洁电器创新显成效多品类齐头并进

快资讯：火炬之光无限狂人爆裂流怎么玩火炬之光无限狂人爆裂流bd攻略

世界关注：股债资产有机可寻借助绩优“固收+”华安乾煜把握行情

2022年度全国优质专用小麦质量鉴评暨产业发展大会召开要闻

风格和外观的设计都给大家带来了耳目一新的感觉天天消息

人民银行今日开展20亿元逆回购操作公开市场实现净投放20亿元全球热文

前4月超半数股基上涨招商广发嘉实等产品涨幅超40%

河南确山：种下中药材开出“致富花”|全球速看

这个五一档，韩寒赢麻了世界今日报

一线|对接社区梳理需求民企线上线下双保供

因140瓶援沪油焖笋走红浙江奉化76岁老人直言很害羞

勇士集体炮轰裁判！科尔怒摔毛巾，库里不服气，要求NBA给个解释热门

中牟农商银行：春风送暖暖人心热心服务解民忧世界速递