全部标签

AI模型

Claude Sonnet 4.5 正式推出

Anthropic 推出了 Claude Sonnet 4.5，定位为世界领先的编码、复杂代理开发和计算机应用模型，在推理和数学方面实现了显著改进。此次发布还包括重要的产品增强功能，如检查点和 Claude Code 的 VS Code 扩展，以及 Claude API 的高级上下文管理。Claude Agent SDK 是一项关键产品，它使开发者能够访问 Anthropic 的基础代理构建基础设…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力

文章宣布月之暗面发布 Kimi K2 Thinking 模型，这是其迄今能力最强的开源思考模型。该模型基于“模型即 Agent”理念训练，原生具备“边思考，边使用工具”的能力，在 Humanity's Last Exam、BrowseComp 和 SEAL-0 等多项基准测试中表现达到 SOTA。Kimi K2 Thinking 能自主实现高达 300 步的工具调用，这是在 Test-T…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
Claude Opus 4.5 发布！2 小时工程测试超人类，前代 Sonnet 搞不定的活它轻松拿捏

文章详细介绍了 Anthropic 最新发布的大型语言模型 Claude Opus 4.5，强调其在编码、Agent 功能和计算机使用方面的显著提升。该模型在两小时高强度工程测试中得分超越所有人类候选人，并在前端开发、视觉能力、深度研究、PPT 制作和电子表格处理等日常任务中表现出色。文章指出，Opus 4.5 的核心优势在于其卓越的“理解力”，能够自主处理模糊场景、权衡复杂决策，并解决前代 So…
AI 前线
- 0
- 0
勇敢牛牛25年12月30日
Claude Haiku 4.5 介绍

Anthropic 发布了 Claude Haiku 4.5，他们最新的小型模型，该模型实现了接近顶尖水平的编码性能，可与 Claude Sonnet 4 相媲美。同时，成本仅为三分之一，速度却是两倍以上。这一进步使高智能 AI 更容易获得，并且对于各种应用来说效率更高，特别是那些需要实时、低延迟响应的应用，例如聊天助手、客户服务代理和结对编程。Haiku 4.5 在 Agentic AI 编码任…
AI 前线
- 0
- 0
拼凑梦境25年12月30日
AIME'25 满分炸场！Qwen 一波七连发，全家桶大更新

文章详细介绍了在云栖大会上阿里云通义千问系列模型的重大更新，包括新一代旗舰大模型 Qwen3-Max，其分为指令版和思考版，思考版在 AIME25 和 HMMT 数学榜单上首次获得满分，指令版在 SWE-Bench 编程和 Agent 工具调用评测中表现卓越。同时，开源视觉理解模型 Qwen3-VL 展现了超越 Gemini 2.5 Pro 的性能，支持带图推理、HTML/CSS 生成和视频理解，…
技术落地
- 0
- 0
勇敢牛牛25年12月30日
冲击 DeepSeek R1，谷歌发布新一代 Gemini 全型号刷榜，编程、物理模拟能力炸裂

文章详细介绍了谷歌最新发布的 Gemini 2.0 系列模型，涵盖 Pro、Flash 和 Flash-Lite 三个版本。Gemini 2.0 Pro 在复杂指令和编码任务中表现卓越，支持 200 万 tokens 的超长上下文窗口，并具备强大的多模态处理能力。Gemini 2.0 Flash 提供高性价比的多模态推理服务，适用于大规模高频任务，而 Flash-Lite 则针对成本敏感场景进行了…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Claude 的推理思考（Extended Thinking）【译】

Anthropic 发布了 Claude 3.7 Sonnet，该模型引入了“延伸思考模式”，允许模型根据问题复杂度调整思考深度和时间，并支持开发者设置“思考预算”以控制思考时间。文章还探讨了让模型思考过程可见的好处与弊端，包括信任、对齐和趣味性，同时也提到了忠实度、安全和保密方面的担忧。此外，Claude 3.7 Sonnet 在代理能力方面有所提升，能够反复调用函数并对环境变化做出响应，从而完…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
DeepSeek 最强专业拆解来了，清交复教授超硬核解读

本文通过五位高校教授的深入分析，全面探讨了 DeepSeek 的技术原理、优化方法及未来发展方向。DeepSeek 通过优化策略显著提升了算力能效，降低了成本，并在写作能力上取得了飞跃。文章详细介绍了 R1 和 V3 模型的技术路线、训练流程及其与 OpenAI o1 的对比。DeepSeek 的创新策略包括 MoE 架构、负载均衡、通信优化和内存优化，展示了中国团队在 AI 领域的独立思考和创新…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
0 融资、10 亿美元营收，数据标注领域真正的巨头，不认为合成数据是未来

本文通过对数据标注公司 Surge AI 创始人 Edwin Chen 的深度访谈，揭示了该公司在未融资情况下实现 10 亿美元营收的独特商业模式。Edwin Chen 强调，高质量的人类数据是 AI 模型训练的真正壁垒，并驳斥了当前业界对合成数据作用的过度高估，指出大量合成数据实为无用噪音，且导致模型在实际场景中表现不佳。他还尖锐批评了以大语言模型竞技场为代表的现有模型评测基准，认为它们误导了模…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini 2.5 Flash-Lite 已稳定发布

本文宣布 Gemini 2.5 Flash-Lite 的稳定版本正式发布，这是 Google Gemini 2.5 系列中性价比最高、速度最快的模型。其定价极具竞争力，输入 token 为每百万 0.10 美元，输出 token 为每百万 0.40 美元，旨在通过可选的原生推理能力，最大限度地提高单位成本下的智能水平。该模型在性能和成本之间实现了极佳的平衡，尤其擅长翻译和分类等延迟敏感型任务。与 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
DoorDash 如何利用 AI 模型解析餐厅菜单，提升效率与准确性

本文详细介绍了 DoorDash 使用人工智能自动执行餐厅菜单数字化的创新方法。DoorDash 面临菜单结构不一致、照片不完整和图像质量差等问题，传统的光学字符识别到大语言模型流水线难以应对，因此开发了一套复杂的系统。核心创新是“护栏模型”，这是一个 LightGBM 分类器，用于预测人工智能生成转录的准确性。该护栏模型会将高置信度的结果自动发布，并标记不确定的案例以供人工审核，从而在扩展自动化…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Wan2.2 开源：让每个像素都懂电影美学

文章详细介绍了通义大模型最新发布的 Wan2.2 视频生成模型。该模型在技术上引入了 MoE（混合专家）架构，通过高噪和低噪专家模型协同去噪，显著提升了视频生成质量和真实感。在艺术表现力方面，Wan2.2 通过扩充数据规模和专业美学深度训练，将电影工业的光影、构图、色彩等美学法则编码进模型，实现了电影级的视觉控制和精细的风格表现。此外，模型还通过全新的 VAE 架构，推出了 5B 轻量版，大幅减少…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Nano Banana Pro，也称 gemini-3-pro-image-preview，是目前最好的图像生成模型

本文介绍了谷歌的新图像生成模型 Nano Banana Pro（也称为 Gemini 3 Pro Image），强调了其惊人的能力。它擅长高分辨率输出（1K-4K）、复杂资产的高级文本渲染，并利用谷歌搜索进行实时数据支持。该模型还具有独特的“思考模式”，可以在生成最终图像之前改进复杂提示。作者通过详细的例子展示了它的强大功能，包括复杂的指导图像和信息图表的创建，展示了它精确遵循指令并准确渲染文本的…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Nubank 如何利用 AI 模型进行大规模交易数据分析

本文详细介绍了 Nubank 在大规模理解客户行为方面的创新实践，超越了传统的手动特征工程。通过采用自监督学习在原始交易数据上训练的基础模型，Nubank 旨在推导出通用用户画像（嵌入）。系统架构包括交易数据采集、一种新颖的混合编码接口（用于将混合数据类型转换为紧凑的令牌序列）、用于自监督预训练的 Transformer 主干（使用掩码语言建模和下一令牌预测）以及复杂的融合策略（晚期融合和联合融合…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Claude 4：AI 模型的全新突破

Anthropic 推出了其下一代 AI 模型 Claude Opus 4 和 Claude Sonnet 4，重点提升了在编码、复杂推理和构建强大 AI 智能体方面的性能。Opus 4 被认为是领先的编码模型，在具有挑战性的长时间任务中表现出持续的性能，并在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 等基准测试中名列前茅。Sonnet 4 显著升级了 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
上下文工程：为提示词注入工程学的严谨性

文章深入阐述了“上下文工程”这一新兴概念，将其定义为超越传统“提示词工程”的更宏大、系统化的方法。提示词工程侧重于措辞技巧，而上下文工程则关注构建一个完整的信息环境，包含指令、数据、示例、工具和历史记录，以帮助 AI 模型可靠地完成任务。文章详细解释了如何动态地、有组织地向 AI 模型提供高质量上下文的实用技巧，包括提供相关代码、设计文档、错误日志、数据库结构图、PR 反馈、期望示例以及明确限制等…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日