-
Claude Sonnet 4.5 正式推出
Anthropic 推出了 Claude Sonnet 4.5,定位为世界领先的编码、复杂代理开发和计算机应用模型,在推理和数学方面实现了显著改进。此次发布还包括重要的产品增强功能,如检查点和 Claude Code 的 VS Code 扩展,以及 Claude API 的高级上下文管理。Claude Agent SDK 是一项关键产品,它使开发者能够访问 Anthropic 的基础代理构建基础设…- 0
- 0
-
Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力
文章宣布月之暗面发布 Kimi K2 Thinking 模型,这是其迄今能力最强的开源思考模型。该模型基于“模型即 Agent”理念训练,原生具备“边思考,边使用工具”的能力,在 Humanity's Last Exam、BrowseComp 和 SEAL-0 等多项基准测试中表现达到 SOTA。Kimi K2 Thinking 能自主实现高达 300 步的工具调用,这是在 Test-T…- 0
- 0
-
Claude Opus 4.5 发布!2 小时工程测试超人类,前代 Sonnet 搞不定的活它轻松拿捏
文章详细介绍了 Anthropic 最新发布的大型语言模型 Claude Opus 4.5,强调其在编码、Agent 功能和计算机使用方面的显著提升。该模型在两小时高强度工程测试中得分超越所有人类候选人,并在前端开发、视觉能力、深度研究、PPT 制作和电子表格处理等日常任务中表现出色。文章指出,Opus 4.5 的核心优势在于其卓越的“理解力”,能够自主处理模糊场景、权衡复杂决策,并解决前代 So…- 0
- 0
-
Claude Haiku 4.5 介绍
Anthropic 发布了 Claude Haiku 4.5,他们最新的小型模型,该模型实现了接近顶尖水平的编码性能,可与 Claude Sonnet 4 相媲美。同时,成本仅为三分之一,速度却是两倍以上。这一进步使高智能 AI 更容易获得,并且对于各种应用来说效率更高,特别是那些需要实时、低延迟响应的应用,例如聊天助手、客户服务代理和结对编程。Haiku 4.5 在 Agentic AI 编码任…- 0
- 0
-
AIME'25 满分炸场!Qwen 一波七连发,全家桶大更新
文章详细介绍了在云栖大会上阿里云通义千问系列模型的重大更新,包括新一代旗舰大模型 Qwen3-Max,其分为指令版和思考版,思考版在 AIME25 和 HMMT 数学榜单上首次获得满分,指令版在 SWE-Bench 编程和 Agent 工具调用评测中表现卓越。同时,开源视觉理解模型 Qwen3-VL 展现了超越 Gemini 2.5 Pro 的性能,支持带图推理、HTML/CSS 生成和视频理解,…- 0
- 0
-
0 融资、10 亿美元营收,数据标注领域真正的巨头,不认为合成数据是未来
本文通过对数据标注公司 Surge AI 创始人 Edwin Chen 的深度访谈,揭示了该公司在未融资情况下实现 10 亿美元营收的独特商业模式。Edwin Chen 强调,高质量的人类数据是 AI 模型训练的真正壁垒,并驳斥了当前业界对合成数据作用的过度高估,指出大量合成数据实为无用噪音,且导致模型在实际场景中表现不佳。他还尖锐批评了以大语言模型竞技场为代表的现有模型评测基准,认为它们误导了模…- 0
- 0
-
Gemini 2.5 Flash-Lite 已稳定发布
本文宣布 Gemini 2.5 Flash-Lite 的稳定版本正式发布,这是 Google Gemini 2.5 系列中性价比最高、速度最快的模型。其定价极具竞争力,输入 token 为每百万 0.10 美元,输出 token 为每百万 0.40 美元,旨在通过可选的原生推理能力,最大限度地提高单位成本下的智能水平。该模型在性能和成本之间实现了极佳的平衡,尤其擅长翻译和分类等延迟敏感型任务。与 …- 0
- 0
-
DoorDash 如何利用 AI 模型解析餐厅菜单,提升效率与准确性
本文详细介绍了 DoorDash 使用人工智能自动执行餐厅菜单数字化的创新方法。DoorDash 面临菜单结构不一致、照片不完整和图像质量差等问题,传统的光学字符识别到大语言模型流水线难以应对,因此开发了一套复杂的系统。核心创新是“护栏模型”,这是一个 LightGBM 分类器,用于预测人工智能生成转录的准确性。该护栏模型会将高置信度的结果自动发布,并标记不确定的案例以供人工审核,从而在扩展自动化…- 0
- 0
-
Wan2.2 开源:让每个像素都懂电影美学
文章详细介绍了通义大模型最新发布的 Wan2.2 视频生成模型。该模型在技术上引入了 MoE(混合专家)架构,通过高噪和低噪专家模型协同去噪,显著提升了视频生成质量和真实感。在艺术表现力方面,Wan2.2 通过扩充数据规模和专业美学深度训练,将电影工业的光影、构图、色彩等美学法则编码进模型,实现了电影级的视觉控制和精细的风格表现。此外,模型还通过全新的 VAE 架构,推出了 5B 轻量版,大幅减少…- 0
- 0
-
Nano Banana Pro,也称 gemini-3-pro-image-preview,是目前最好的图像生成模型
本文介绍了谷歌的新图像生成模型 Nano Banana Pro(也称为 Gemini 3 Pro Image),强调了其惊人的能力。它擅长高分辨率输出(1K-4K)、复杂资产的高级文本渲染,并利用谷歌搜索进行实时数据支持。该模型还具有独特的“思考模式”,可以在生成最终图像之前改进复杂提示。作者通过详细的例子展示了它的强大功能,包括复杂的指导图像和信息图表的创建,展示了它精确遵循指令并准确渲染文本的…- 0
- 0
-
Nubank 如何利用 AI 模型进行大规模交易数据分析
本文详细介绍了 Nubank 在大规模理解客户行为方面的创新实践,超越了传统的手动特征工程。通过采用自监督学习在原始交易数据上训练的基础模型,Nubank 旨在推导出通用用户画像(嵌入)。系统架构包括交易数据采集、一种新颖的混合编码接口(用于将混合数据类型转换为紧凑的令牌序列)、用于自监督预训练的 Transformer 主干(使用掩码语言建模和下一令牌预测)以及复杂的融合策略(晚期融合和联合融合…- 0
- 0
-
Claude 4:AI 模型的全新突破
Anthropic 推出了其下一代 AI 模型 Claude Opus 4 和 Claude Sonnet 4,重点提升了在编码、复杂推理和构建强大 AI 智能体方面的性能。Opus 4 被认为是领先的编码模型,在具有挑战性的长时间任务中表现出持续的性能,并在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 等基准测试中名列前茅。Sonnet 4 显著升级了 …- 0
- 0
-
上下文工程:为提示词注入工程学的严谨性
文章深入阐述了“上下文工程”这一新兴概念,将其定义为超越传统“提示词工程”的更宏大、系统化的方法。提示词工程侧重于措辞技巧,而上下文工程则关注构建一个完整的信息环境,包含指令、数据、示例、工具和历史记录,以帮助 AI 模型可靠地完成任务。文章详细解释了如何动态地、有组织地向 AI 模型提供高质量上下文的实用技巧,包括提供相关代码、设计文档、错误日志、数据库结构图、PR 反馈、期望示例以及明确限制等…- 0
- 0
AI模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!










