评估大模型的 第一要义是什么?参数、规模、价格、榜单排名?似乎都还不够,小编觉得真正关键的是模型能否在现实世界中稳定运行,有效融入人们的日常生活与工作流程,并确保高可靠性与低误差率。

  模型参数、架构各有千秋,特点、擅长领域、生成风格也不尽相同,那么如何找到适合自己的AI大模型呢?

  现在,打开字节跳动旗下的AI“扣子”平台中的“模型广场”,它能让你找到答案。它提供了一个“模型”竞技场,在这里你可以让两个匿名的大模型进行PK,并投票选出你最满意的大模型答案。

  目前其所提供的PK模式包括“随机Bot对战”、“指定Bot对战”和“纯模型对战”三种。

  自“扣子”上线以来,它已经接入了豆包、通义千问、智谱GLM-4、MiniMax、Moonshot、Baichuan等多个国内头部大语言模型,大中小尺寸,应有尽有。

  并且,它不止可以让大模型进行PK,用户还可以用它创建自己的Bot,并发布到扣子Bot商店、微信公众号、微信客服、飞书等等。

  打开“扣子”平台 (链接:) 点击“开始使用”登录,然后点击“模型广场”即可进行模型对战。根据模型的回复,投票选择更满意的答案。

  在Bot对战中,用户可以在Bot库中自主选择或让“扣子”随机选择一个Bot,它将随机选择两个匿名模型,基于Bot的Promt、工作流、知识库等能力配置回答用户的问题。用于评测模型在指定细分领域或任意业务场景下的文本生成、技能和知识调用等能力。

  两个模型会同时开始生成答案,并且在生成结束后,它还会给出两个模型回答分别使用的时间。

  用户可以根据模型A、B回答的方式、内容等,选择一个你喜欢的答案给它投票,小编更倾向于模型A,它的回答更明了,思路清晰,内容全面,而模型B则是直接给出了10个标题和一整段文字描述,小编个人并不是很喜欢。

  接下来就到了投票环节,小编认为A更好,当然如果你觉得两个都不错或都不好也可以选择“两个都好”和“两个都不好”。为了保证投票的有效性与公平性,你需要得到任意一个模型至少一轮完整的回复后才能投票。

  投票后,页面将揭晓两个模型的真实名称及详细配置,各配置说明请参考。投票后本轮模型对战结束,你还可以选择重开一轮,它会另外随机选择两个模型,在当前对战模式下再次开展一轮模型对战。

  点击“随机开始”,它将会随机选择一个Bot,这次小编随机到的是“养猫大师”。

  模型A在第一次回答时出现了bug,所以小编又问了第二遍同一个问题,小编猜测,模型A应该是生成不了图片,所以才会出现bug,它第二次也没有生成出来图片,虽然它两次推荐的猫咪都是同一品种,但是生成的文案却不相同,模型B虽然可以生成图片,但是两次生成的内容一模一样。

  而且,模型A的答案更准确,它推荐的是斯芬克斯猫(无毛猫),小编更倾向于模型A即使它生成不了图片。

  在纯模型对战中将不指定任何Bot,随机选择两个匿名模型展开对决,模型回答不受Promt、工作流等配置的限制和影响,适用于评测模型本身的文本生成等能力。

  这两个模型的回答方式、答案都大差不差,只是回答时间上模型B比模型A快了10s,但答案都正确,所以小编这次选择“两个都好”。

  “工作空间”只能选择个人空间,填写Bot名称和功能简介,然后再上传一张图标,如果你还没有合适的图片,也可以选择AI生成,它会根据你的名称和简介自动生成。

  填写完成后点击“确认”,就完成了Bot的初步创建,在这里你可以更换Bot所使用的模型或设置生成多样性、携带上下文轮数、输出格式。

  接下来,你还可以为Bot拓展各种技能,比如插件、工作流、图像流等,并且它远比你想象的还要简单,你要做的就是“选中”“添加”。

  例如,小编给Bot添加一个插件,只需点击“插件”右侧的“+”即可在插件库中选择。

  除了技能,你还可以为它设置知识库、记忆库、对话体验、角色等,让Bot拥有更好的交互体验。

  设置完成后,即可点击右上角发布了,随后它将跳转到发布页面,选择你想发布的平台,你可以将它发布到扣子的Bot商店、微信公众号、微信客服、飞书等等。

  如果你想发布到微信公众号,只需前往微信公众平台“设置与开发” “基本配置” “公众号开发信息”,复制”开发者ID(AppID)”信息“粘贴到输入栏中”,然后公众号管理员扫码确认即可。

  扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。