全部标签

Gemin

Google AI Studio：开发者体验全面升级

Google AI Studio 在 Google I/O 大会上重磅发布一系列更新，旨在改善开发者使用 Gemini 和其他模型进行构建的体验。主要功能包括编辑器原生集成的代码生成，利用 Gemini 2.5 Pro 的编码能力，通过文本或图像提示快速创建 Web 应用程序。新的“构建”选项卡助力应用程序快速开发，并支持一键部署至 Cloud Run。更轻松地访问 Imagen、Veo 及原生语…
AI 前线
- 0
- 0
勇敢牛牛1月3日
Gemini 2.0 Flash 原生图像生成实验：开发者的新选择

Google 发布了 Gemini 2.0 Flash 的实验版本，该版本引入了原生图像生成功能，并已向所有 Google AI Studio 支持的区域的开发者开放。Gemini 2.0 Flash 结合了多模态输入、增强的推理能力和自然语言理解，可以根据用户需求生成图像。文章通过多个示例展示了 Gemini 2.0 Flash 在文本图像结合、会话式图像编辑、世界知识理解和文本渲染方面的优势。…
AI 前线
- 0
- 0
勇敢牛牛1月3日
一文详解｜Gemini-3，及配套的 Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..

本文以“2025 年 11 月 19 日”为背景，大胆虚构并详尽展望了 Google 发布 Gemini 3 模型及其一系列颠覆性配套产品的未来图景。文章首先通过多个令人惊叹的案例，展示了 Gemini 3 Pro 在复杂代码生成、多模态理解和超长上下文处理方面的强大能力，并强调其在各项基准测试中（如 LMArena）的领先地位。为支撑这种超凡能力，文中引入了创新的“Deep Think”模式，通…
AI 前线
- 0
- 0
勇敢牛牛1月3日
Gemini 2.5 Pro 初体验

作者对 Google Gemini 2.5 Pro 进行了快速体验，重点关注其在图像生成、音频转录和对象识别方面的能力。在图像生成方面，Gemini 2.5 Pro 生成的高质量图像超越了 Claude 等早期模型。对于音频转录，它可以准确地转录混合语言音频，并生成带有时间戳、语言信息和说话人姓名的 JSON 数据。这展示了其强大的数据处理能力。总的来说，Gemini 2.5 Pro 在长上下文处…
AI 前线
- 0
- 0
勇敢牛牛1月3日
推出 Gemini 2.5 Flash Image，我们的顶尖图像模型

本文介绍/发布了 Gemini 2.5 Flash Image，Google 新的图像生成和编辑模型。它重点介绍了以下关键功能：混合多个图像，在各种提示中保持人物形象一致性，使用自然语言执行有针对性的转换，以及利用 Gemini 固有的世界知识来增强图像生成和编辑。该模型可通过 Gemini API、面向开发者的 Google AI Studio 和面向企业的 Vertex AI 立即使用，并提供…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
OpenAI 还怎么玩？谷歌凌晨炸场！Pro 级智商跌成“白菜价”，网友惊呼：六边形战士

文章详细介绍了谷歌最新发布的 Gemini 3 Flash 大模型，强调其在推理能力上匹敌旗舰模型 Gemini 3 Pro，同时拥有更快的响应速度和显著降低的成本。通过在 GPQA 博士级推理、多模态理解和编码智能体等多项基准测试中取得“屠榜”表现，Flash 版模型展现了“小而强”的进化。文章还深入探讨了其核心技术原理，如“思考层级”参数和上下文缓存，以实现性能与成本的平衡。它在复杂视频分析、…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
Gemini 2.5 Pro 预览版：编码能力再创新高

Google 发布了 Gemini 2.5 Pro 预览版（I/O Edition），该版本在编码能力方面有显著提升，尤其是在前端和 UI 开发方面，提升了模型在复杂任务中的稳定性和可靠性。Gemini 2.5 Pro 在 WebDev Arena leaderboard 排行榜上名列前茅，并在代码转换、编辑以及创建复杂的代理式工作流等基础编码任务中有所改进。该模型还具备强大的视频理解能力，可用于…
AI 前线
- 0
- 0
拼凑梦境25年12月30日
Gemini 2.5 Flash：应用构建新起点

Google 发布了 Gemini 2.5 Flash 的早期预览版，现已在 Google AI Studio 和 Vertex AI 开放体验。在 2.0 Flash 的基础上，此版本显著提升了推理能力，同时保持了速度和成本效益。Gemini 2.5 Flash 是首个混合推理模型，允许开发者启用或禁用“思考”并设置思考预算，以平衡质量、成本和延迟。本文展示了该模型在不同复杂程度任务中的卓越推理…
AI 前线
- 0
- 0
拼凑梦境25年12月30日
Nano Banana Pro：用 Gemini 3 Pro 图像模型构建创意应用

谷歌发布了 Nano Banana Pro (Gemini 3 Pro 图像)，这是一款基于 Gemini 3 Pro 的新型图像生成和编辑模型。目前，开发者可以付费预览版体验。它强调了该模型能够生成具有更高文本渲染准确性和强大世界知识的录音室质量图像，并通过谷歌搜索提供的事实依据进行增强。主要功能包括对图像物理和构图的精细控制，支持 2K 和 4K 分辨率，以及一致的角色呈现效果。该模型显著提升…
AI 前线
- 0
- 0
拼凑梦境25年12月30日
Gemini 2.5：我们的思维模型系列更新

本文详细介绍了 Google Gemini 2.5 模型系列的最新更新。文章宣布 Gemini 2.5 Pro 和 Gemini 2.5 Flash 已全面可用且稳定，并指出与最近的预览版相比没有变化。新模型 Gemini 2.5 Flash-Lite 以预览版形式推出，提供最低延迟和成本，专为分类和摘要等高吞吐量任务设计。文章解释了将 Gemini 2.5 模型视为具有可调思维预算的“思维模型”…
技术落地
- 0
- 0
勇敢牛牛25年12月30日
Waymo车内将现Gemini AI助手！1200行指令曝光，定义“安全、简洁、不越界”的乘客陪伴者

自动驾驶的“沉默旅程”即将终结。知名科技研究员 Jane Manchun Wong 近日通过逆向工程发现，Waymo 正在测试将谷歌 Gemini 大模型深度集成至其无人驾驶出租车，打造一款名为 “Waymo 出行助手” 的车载AI伴侣。尽管尚未上线，但一份长达1200多行的内部系统指令（代号“Waymo 出行助手元指令”）已完整曝光，揭示了这款AI如何被精心设计为安全、克制、高度场景化的乘客服务…
AI 前线
- 0
- 0
探索X25年12月29日
Gemini 3.0 系统提示词泄露了！

文章详细公开了 Gemini 3.0 的系统提示词，该提示词由谷歌团队精心打造，通过九大核心指令，旨在指导模型进行高效的推理、规划和安全响应。这些指令涵盖了逻辑依赖与约束条件、风险评估、溯因推理、结果评估与适应性调整、信息整合、精准度与依据、完整性、坚韧与耐心以及克制回复冲动等方面。研究这份提示词是学习如何使 AI 输出高质量回答的有效途径，对于提升提示词工程实践具有重要指导意义。这些指令为 AI…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Gemini 应用新功能上线，免费体验！

Google 宣布对其 Gemini 应用进行了重大升级。升级后的 2.0 Flash Thinking Experimental 模型具有更长的上下文窗口（1M 令牌）并支持文件上传，从而提升了推理能力和效率。“深度研究”功能也已通过 Gemini 2.0 Flash Thinking Experimental 进行了升级，从而提升了报告质量和洞察力，并使其在全球范围内免费提供给用户。新的个性化…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
谷歌终于登顶一次了！最强推理模型 Gemini 2.5 Pro 实测体验，真的有点东西

文章对谷歌最新发布的 Gemini 2.5 Pro 模型进行了全面评测。该模型在多项基准测试，如 Humanity's Last Exam 等中表现出色，尤其在推理能力方面超越了 OpenAI 的 o3-mini。编程能力也得到显著提升，在 SWE-bench 和 Aider Polyglot 测试中均名列前茅。此外，Gemini 2.5 Pro 在 Chatbot Arena 榜单上以…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Gemini 的 PPT 生成：使用技巧及模板提示词

本文详细介绍了 Google Gemini APP 新上线的 PPT 生成功能。作者强调该功能基于前端代码实现，允许用户通过提示词进行高度精细的风格与内容控制，并指出其生成质量优于其他竞品。文章首先提供了详细的使用指南，包括如何在 Gemini 中开启 Canvas 模式，利用其自带的搜索能力自动填充 PPT 内容，以及将生成的 PDF 文件无缝导出至 Google 幻灯片进行编辑，并最终转换为 …
AI 前线
- 9
- 0
勇敢牛牛25年12月23日
Gemini 2.5 的对话式图像分割

本文详细介绍了 Google Gemini 2.5 突破性的对话式图像分割能力，该能力显著提升了 AI 对视觉的理解，超越了传统边界框和基本分割。与之前将像素与名词匹配的模型不同，Gemini 2.5 可以解析复杂的描述性短语，并根据复杂关系、条件逻辑、抽象概念、图像内文本及多语言标签来识别对象。这使得可以进行高度细致的查询，例如“最远处的汽车”或“未佩戴安全帽的员工”。本文展示了在交互式媒体编辑…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini API 的 URL 上下文工具正式发布

Google 宣布 Gemini API 的 URL 上下文工具正式发布，这是对生成式 AI 应用的一项重要提升。该工具允许开发者通过直接链接到 URL，为 Gemini 模型提供额外的上下文，使其能够读取和理解特定网页的全部内容，而不仅仅是搜索结果片段。一个关键更新是扩展的内容支持，现在包括 PDF（具有结构理解能力）、各种图像格式（PNG、JPEG、BMP、WebP）以及各种 Web 和数据文…
AI 前线
- 2
- 0
勇敢牛牛25年12月23日
Veo 3：Gemini API 新功能上线

本文介绍了 Google 最新的高保真视频生成模型 Veo 3，该模型现已通过 Gemini API 和 Vertex AI 提供付费预览。Veo 3 是首个集成高保真视频输出和原生音频的 Google 视频模型，支持文本生成视频，未来还将支持图像生成视频。它拥有同步声音、电影级质量和逼真物理模拟等功能。本文展示了早期开发者的采用情况，并提供了 Cartwheel（使用 Veo 3 进行 3D 动…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini 2.5 Flash-Lite 已稳定发布

本文宣布 Gemini 2.5 Flash-Lite 的稳定版本正式发布，这是 Google Gemini 2.5 系列中性价比最高、速度最快的模型。其定价极具竞争力，输入 token 为每百万 0.10 美元，输出 token 为每百万 0.40 美元，旨在通过可选的原生推理能力，最大限度地提高单位成本下的智能水平。该模型在性能和成本之间实现了极佳的平衡，尤其擅长翻译和分类等延迟敏感型任务。与 …
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini Embedding 现已在 Gemini API 中全面可用

Google 现已在 Gemini API 和 Vertex AI 中提供 `gemini-embedding-001` 文本模型。该模型始终位于大规模文本嵌入基准评测 (MTEB) 多语言排行榜的榜首，在科学、法律、金融和编码等不同领域，性能优于之前的 Google 模型和外部产品。它支持 100 多种语言，并具有 2048 个最大输入令牌长度。一项关键创新是利用 Matryoshka Repr…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini 2.5 Flash 图像处理模型现已量产，支持全新长宽比

本文宣布谷歌 Gemini 2.5 Flash 图像处理模型正式面向生产环境推出，重点介绍了其在图像生成和编辑方面的先进功能。主要新功能包括支持 10 种不同的长宽比，方便用户为电影、社交媒体等各种平台创建内容，并支持仅输出图像。该模型使用户能够无缝混合多个图像，保持角色一致性以实现更丰富的叙事，使用自然语言进行精准编辑，并利用 Gemini 广泛的通用知识。开发者可以通过 Gemini API、…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini API 批量模式：以更低成本处理更多任务

本文介绍了 Google Gemini API 的全新批量模式功能，旨在异步处理高吞吐量、对延迟不敏感的 AI 工作负载。相比同步 API，主要优势包括显著降低 50% 的成本、大幅提升大型任务的速率限制，并通过卸载复杂的客户端排队和重试逻辑来简化 API 调用。使用流程非常简单：用户将所有请求打包成单个文件，通过 API 提交，并在 24 小时内获取结果。文章通过实际案例突出了该功能的实用性，例…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini 2.5：引领视频理解新纪元

Google 的 Gemini 2.5 Pro 和 Flash 在视频理解方面取得了显著进展。它们不仅实现了最先进的性能，还超越了 GPT 4.1 等现有模型。Gemini 2.5 是一种原生多模态模型，能够无缝集成音视频信息与代码。这为互动应用、内容创作等领域开启了新的可能性，并能有效提高学习效率和用户参与度。Gemini 2.5 Pro 可以将视频转换为互动学习应用，并使用 p5.js 从视频…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
Gemini 负责人：Pro 的主要作用是蒸馏 Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

文章记录了一场由 Gemini 项目三位联合技术负责人 Jeff Dean、Oriol Vinyals、Noam Shazeer 和 Google AI Studio 产品负责人 Logan Kilpatrick 参与的深度访谈。对话围绕 Gemini 3 Flash 和 3 Pro 的发布展开，深入探讨了 Google Brain 与 DeepMind 的融合历史、产品与模型能力的相互促进、当前…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日