全部标签

AI评测

面向业务落地的 AI 产品评测体系设计与平台实现

该文章深入阐述了在 AI 技术（尤其是大模型）快速发展背景下，淘宝闪购如何构建一套面向业务落地的 AI 产品评测体系与平台。文章首先分析了传统评测方法在 AI 产品研发模式、技术演进速度和 Agent 链路复杂度面前面临的挑战，指出 AI 产品评测需从“验收式测试”转变为“共创式评测”。随后，文章详细介绍了评测体系的构建，包括 AI 产品评价维度（业务目标、产品效果、性能体验、安全合规、服务成本）…
AI 前线
- 0
- 0
勇敢牛牛1月3日
实测可灵 AI 的新视频模型，它生成的动作戏酷到封神。

文章详细评测了可灵 AI 最新视频模型 2.5 版本的能力，重点对比了其在“运动的超进化”和“表演的超进化”两大方面的显著提升。通过与 2.1 版本的对比，文章展示了 2.5 版本在处理复杂连续动作、物理交互细节、多层次情感表达以及运镜稳定性上的突破。作者通过生成《速度与激情》风格的动作片、跑酷、滑雪、拳击等场景，以及人物从愤怒到克制、阴恻恻的笑、绝望到坚定的眼神等情感戏，直观呈现了可灵 2.5 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench：揭示单模态与全模态能力的组合规律

文章详细介绍了美团 LongCat 团队推出的全模态大模型评测基准 UNO-Bench，旨在解决当前多模态评测体系稀缺、英文中心化以及无法有效评估真实跨模态融合能力的痛点。UNO-Bench 通过将模型能力体系解构为感知层与推理层，并采用高质量人工标注、私有化原创素材和独特的“视听分离再组合”策略，确保了 98%的问题必须结合多模态信息才能解答，并创新性地引入多步开放式问题以评估复杂推理能力。评测…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
OpenAI 和 Anthropic 罕见互评模型：Claude 幻觉明显要低

文章详细报道了 AI 两大巨头 OpenAI 和 Anthropic 之间罕见的模型互评合作。双方短暂开放 API 权限，对各自模型（OpenAI 的 GPT-4o、GPT-4.1、o3、o4-mini 和 Anthropic 的 Claude Opus 4、Claude Sonnet 4）进行了安全性与对齐性评估。评测涵盖指令层次结构、越狱、幻觉和策略性欺骗等多个维度。结果显示，Claude 模…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
秘塔 AI 也终于悄悄上线了 DeepResearch。

文章作者深度评测了秘塔 AI 搜索新上线的 DeepResearch 功能，认为其产品设计达到了“教科书”级别。作者通过实际案例展示了 DeepResearch 在处理复杂问题时的独特可视化思考链，打破了传统 AI 搜索的“黑盒”模式，让用户直观了解 AI 的搜索、思考和决策过程。文章还赞扬了秘塔 AI 在报告质量、信息溯源、个性化来源管理等方面的细节设计，并对比了其与 OpenAI 等国际竞品的…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

AI评测

面向业务落地的 AI 产品评测体系设计与平台实现

实测可灵 AI 的新视频模型，它生成的动作戏酷到封神。

美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench：揭示单模态与全模态能力的组合规律

OpenAI 和 Anthropic 罕见互评模型：Claude 幻觉明显要低

秘塔 AI 也终于悄悄上线了 DeepResearch。