栏目分类

关于我们

你的位置：开云(中国)Kaiyun·官方网站 > 关于我们 > kaiyun.com 微软等开源评估ChatGPT、Phi、Llma等，调解测试平台

发布日期：2024-01-18 11:00 点击次数：111

微软亚洲商榷院、中国科学院自动化商榷所、中国科学技能大学和卡内基梅隆大学纠合开源了，用于评估、分析大讲话模子的调解测试平台——PromptBench。

Prompt Bench相沿当今主流的开源、闭源大讲话模子，举例，ChatGPT、GPT-4、Phi、Llma1/2、Gemini、Baichuan、Yi 等。

PromptBench内置了丰富的评估器具，包括辅导构建、辅导工程、数据集和模子、抵拒性辅导抨击、性能评测等。用户不错字据执行诞生情况活泼确立，相配绵薄高效。

开源地址：https://github.com/microsoft/promptbench

论文地址：https://arxiv.org/abs/2312.07910

对大型讲话模子进行评估、分析是默契其真确输出、减少潜在风险的热切诞生法子。

商榷东谈主员示意，当今多量大型讲话模子对文本辅导相配明锐，容易受到抵拒性辅导抨击，同期易受到数据沾污的影响，这给安全和隐秘带来了浩瀚挑战。

天然有好多雷同lm-eval-harness的评估框架，但其评估模块和功能较少，无法欢喜马上发展的大讲话模子领域。

是以，微软等商榷东谈主员但愿诞生一个调解的评估平台，匡助诞生者普及测试恶果，同期减少大模子的作歹内容输出。

PromptBench绵薄先容

PromptBench不错从多个维度对大讲话模子进行评估，涵盖多个任务、评估契约、抵拒性辅导抨击和辅导工程技能、数据集等。

评估契约是PromptBench的中枢模块之一，主要界说了评估大讲话模子性能的行为和历程。

PromptBench相沿多种评估契约，包括静态评估和动态评估。静态评估是，通过提供预界说的辅导来测试大讲话模子的性能；

动态评估，则允许在交互过程中动态生成和修改辅导。这种活泼性使商榷东谈主员莽撞更全面地评估大讲话模子的才调解鲁棒性。

抵拒性辅导抨击，是评估大讲话模子安全性的热切行为之一。PromptBench提供了多种抵拒性辅导抨击的测试行为，包括，字符级修改、词级替换、句级添加和语义级改写等抨击。有用模拟了辅导使用中可能遭受的各样偏差情况,试验了模子的抨击鲁棒性。

数据集是评估大讲话模子性能的关节部分。PromptBench提供了20多个公开的评估数据集，涵盖了文分内类、语法纠错、句子相同度判定、天然讲话推理、多任务问答、阅读默契、翻译、数学推理、逻辑推理等，不错充分测试大讲话模子在不同场景下的发达和才调。

相沿哪些大讲话模子

PromptBench相沿当今市面上主流的开源、闭源大讲话模子，包括Flan-T5-large、Dolly系列、Cerebras-13B 、Llama系列、Vicuna 、GPT-NEOX；

Flan-UL2、Phi 、PaLM 2、ChatGPT、GPT-4、Gemini、Mistral、Mixtral、Baichuan、Yi等。

商榷东谈主员示意，将来会握续更新对大讲话模子的相沿，将打形成一个涵盖模子最多、评估功能最全的调解测试平台。

本文素材开始PromptBench论文，如有侵权请磋磨删除

ENDkaiyun.com