全部标签

技术落地

注意力机制

注意力机制注意力机制（Attention）是整个 Transformer、大语言模型的灵魂。它就像系统架构中的调度算法，让模型能动态关注最重要的信息。为什么需要注意力机制？在深度学习出现之前，模型处理序列（文本）主要依赖循环神经网络（RNN, Recurrent Neural Network）或长短时记忆网络（LSTM, Long Short-Term Memory），但它们有几个致命局限：只能…
技术落地
- 6
- 0
探索X1月11日
预训练

预训练只有理解了预训练，才能真正明白大模型“聪明”的底层逻辑。预训练：让模型“懂世界”的阶段预训练（Pre-training, Pre-training）是大语言模型（LLM, Large Language Model）能力的根基，它决定了模型对语言、世界知识、逻辑推理、写作风格等最底层能力的上限。一句话总结：预训练 = 在海量文本上学习语言统计规律，让模型具备通用能力。为什么需要预训练？在正式…
技术落地
- 2
- 0
探索X1月11日
微调

微调微调（Fine-Tuning）：让模型适应你的任务与风格大语言模型（LLM, Large Language Model）的能力来自“预训练（Pre-training, 预训练）”，但能否变成真正可用的产品，取决于是否经过“微调（Fine-Tuning, Fine-Tuning）”。微调是让模型从“通用助手”变成“特定领域专家”的核心技术。如果把预训练比作打造一位博学多闻的通才，那么微调就是让…
技术落地
- 0
- 0
探索X1月11日
人类反馈-RL强化学习

人类反馈-RL强化学习 RLHF 不是让模型变聪明，而是让它更懂人、更安全、更可控。它是大模型“对齐”的关键。为什么需要 RLHF？人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）是让大语言模型（LLM, Large Language Model）更符合人类偏好、更安全、更可控的关键技术。一个仅经过预训练的模型：只是在预测下一个 …
技术落地
- 2
- 0
探索X1月11日
模型训练的工程化路径

模型训练的工程化路径训练一个大模型，是现代软件工程最复杂、最考验协作与系统能力的实践。工程体系的成熟度，决定了 AI 能否真正落地。在 AI 基础设施的全景中，模型训练是最复杂、最考验工程体系的环节。它不仅仅是调参与算法的游戏，更是一场关于数据、算力与系统协作的“工程马拉松”。本文将从工程师视角，系统梳理大模型训练的关键阶段、核心挑战与架构演化路径，帮助读者理解——为什么训练一个模型，是现代软…
技术落地
- 0
- 0
探索X1月11日
机器学习基础

机器学习基础机器学习的本质，其实和云原生的自动化控制循环极为相似。机器学习（Machine Learning, ML）是现代人工智能（AI, Artificial Intelligence）的底层基石，就像 Kubernetes 是云原生体系的控制平面一样。如果把大语言模型（LLM, Large Language Model）看作今天的智能操作系统，那么机器学习就是支撑这套系统的调度逻辑、优化机…
技术落地
- 0
- 0
探索X1月11日
大模型技术全景

大模型技术全景 AI 大模型正在成为云原生工程师的“第二引擎”，重塑架构与协作范式。AI 大语言模型（LLM）正在成为云原生体系的第二引擎。过去十年，云原生（Cloud Native）解决了算力调度、可观测性与交付效率等问题；未来十年，AI 将在智能调度、自治系统与认知接口层面重塑工程边界。本节旨在帮助云原生工程师快速理解 AI 大模型技术体系的核心模块、关键能力、协作机制，以及如何与云原生架构融…
技术落地
- 0
- 0
探索X1月11日
大模型工作原理

大模型工作原理模型训练与推理：学习和应用在理解大模型（Large Language Model）的整体流程时，训练、微调和推理三者之间的关系尤为重要。下图为训练、微调与推理的流程示意图，可以帮助你理解各阶段的衔接关系。【iframe defaul_iframe_type】https://assets.jimmysong.io/images/book/ai-handbook/fundamental…
技术落地
- 0
- 0
探索X1月11日
Transformer

Transformer Transformer 是什么？Transformer 是所有现代大语言模型（LLM）的基础架构，就像 Kubernetes 之于云原生。它的出现彻底改变了自然语言处理（NLP, Natural Language Processing）领域。Transformer 主要解决了两个核心问题：如何理解一段话中哪些信息最重要？如何并行处理海量文本，不像循环神经网络（RNN, Re…
技术落地
- 0
- 0
探索X1月11日
KV 缓存

KV 缓存没有 KV Cache，LLM 推理速度会慢 100 倍。它是现代推理引擎的核心加速机制，也是工程优化的主战场。KV Cache 是什么？KV 缓存（KV Cache, Key-Value Cache）是大语言模型（LLM, Large Language Model）推理加速的关键技术。它的核心思想是：把历史 token 的 Key / Value 保存下来，在解码阶段复用，避免重复计…
技术落地
- 0
- 0
探索X1月11日
AI 网关

AI 网关AI 网关是 AI 应用时代的“交通枢纽”，重塑智能服务的连接、治理与创新边界。AI 网关是 AI 原生应用体系中的入口控制平面。它位于模型推理服务、Agent 运行时与企业应用之间，通过协议抽象、模型路由、内容安全、Token 计量与工具治理，将复杂的模型生态收敛为稳定、可控、可观测的统一接口。它不是传统 API 网关的简单延伸，而是围绕推理延迟、流式传输、长连接、模型异构及工具爆炸等…
技术落地
- 0
- 0
探索X1月11日
概述

AI 原生基础设施概览AI 原生基础设施正推动云原生与智能化深度融合，成为新一代应用创新的坚实基石。理解其架构与趋势，是每位云原生开发者迈向 AI 时代的关键一步。AI Infra 全景图与核心组件AI Infra（AI 原生基础设施）是支撑生成式 AI 应用的新一代技术栈，融合了模型推理引擎、数据检索组件和云原生技术，为智能应用提供高效、可扩展的运行环境。从宏观上看，AI Infra 栈主要包括…
技术落地
- 0
- 0
探索X1月11日
从标准化到智能编排

AI 原生：从标准化到智能编排AI 的未来不只在云端，而在边缘；不只在模型，而在标准与编排。随着 AI 从实验室走向工业级落地，我们正经历一次从 Cloud Native 向 AI Native 的基础设施演化。这一趋势的三个关键面向：云向边缘迁移（Edge AI）标准化协议（MCP）智能编排系统（AI Orchestrator）AI 编排的本质，是让多个智能体协作变得高效、可控且可观测，从而…
技术落地
- 0
- 0
探索X1月11日
MLOps vs AIOps

MLOps vs AIOpsMLOps 和 AIOps 的本质区别是什么？理解它们的融合趋势，是 AI 平台工程的关键。在实际工作中，MLOps（Machine Learning Operations，机器学习工程运维）和 AIOps（Artificial Intelligence for IT Operations，智能运维）是两个极为关键但经常被混用的概念。本文将从体系定位、核心目标、关键…
技术落地
- 0
- 0
探索X1月11日
可观测性

AI 基础设施的可观测性AI 可观测性让工程师重新获得对智能系统的解释权，打破“黑箱”，实现全链路治理。AI 系统的行为并非由固定逻辑驱动，而是由大型模型、检索链路、工具决策和动态上下文共同作用。可观测性因此不再是“监控几个指标”，而是重建系统的可解释性。工程师需要一种方式，让模型推理、Agent 决策、检索来源、治理策略、成本路径共同进入同一可视化视野。从传统监控到 AI 可观测性AI 可观测性…
技术落地
- 0
- 0
探索X1月11日
工程实体

AI 作为工程实体AI 工程实体的出现，正在重塑软件开发的边界，让人机协作成为主流工程范式。现代软件工程正在从“以人类工程师为中心的生产线”向“人机协作的多主体工程体系”转型。随着大语言模型（LLM, Large Language Model）能力的增强，AI 不再只是编辑器中的自动补全工具，而是逐渐具备了承担完整工程任务的能力，包括维护、重构、诊断、实现、审计与文档同步。这一转变的关键点在于：A…
技术落地
- 0
- 0
探索X1月11日
展望

AI 原生展望AI 原生的本质，是系统形态与工程原则的整体重塑，而非技术清单的简单升级。AI 原生并不是对已有技术清单的再次汇总，而是对系统形态、工程原则与组织能力的整体重塑。本章的目的不在于重复前文，而是提供一个面向未来的体系化判断框架：当技术继续演化、应用进一步复杂化时，哪些变化是确定性的、不可逆的？哪些原则值得在工程和组织层面提前布局？本章围绕三个问题展开：AI 原生的发展将朝哪些方向演进？…
技术落地
- 0
- 0
探索X1月11日
云端可信推理

云端可信推理：下一代 AI 安全与隐私基础设施云端可信推理的本质是重建信任边界，而非仅仅阻止攻击。只有全栈可验证、可隔离，AI 安全才能真正落地。AI 安全基础设施已不再局限于传统“应用与网络安全”的升级，而是一个跨设备、跨边界、跨云端推理栈的整体体系。大语言模型（LLM, Large Language Model）时代带来了新的攻击面、新的风险模型以及新的信任结构。企业需要从底层运行时、模型执行…
技术落地
- 0
- 0
探索X1月11日
平台化

企业级 AI 平台化与多智能体基础设施演进平台化的本质，是用系统工程思维重塑 AI 的可扩展性与协作边界。前言AI 的快速普及推动了企业从“功能性 AI 应用”迈向“平台化 AI 基础设施”的建设。与此同时，AI 原生平台工程（AI-Native Platform Engineering）作为云原生体系的自然演进，正引领企业以云原生方式演化、治理与优化 AI 系统。企业级 AI 平台化的核心目标，…
技术落地
- 0
- 0
探索X1月11日
Hugging Face LoRA 微调

Hugging Face 的 Transformers 库结合 PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）提供了便捷的接口来对大语言模型进行参数高效微调（PEFT）。其中，LoRA（Low-Rank Adaptation，低秩适配）是一种流行的 PEFT 方法，通过在预训练模型的部分权重上添加低秩矩阵实现微调，而非调整原模型的大量参数。这样可以大幅减少…
技术落地
- 0
- 0
探索X1月11日
AI 原生应用架构简介

AI 原生应用（AI‑Native Applications）是一类以大语言模型（LLM）为认知与推理核心，并与云原生工程协同构建的智能系统。与传统嵌入式 AI 不同，AI 原生应用将模型能力上升为系统级驱动：模型负责理解与推理，Agent/工作流负责编排与执行，检索增强生成（RAG）、长期记忆与提示词工程负责保证上下文与知识的可用性，工具调用和网关则负责与外部系统和实时数据联通。其设计目标是把大…
技术落地
- 0
- 0
探索X1月11日
SGLang 工程化与性能优化

作为一名具备部署和调优能力的 AI 工程师，本文将深入探讨 SGLang（Structured Generation Language）的工程实践与性能优化。我们将分别从推理服务能力、部署方案、性能评估与优化方法、常见错误与排障以及与 vLLM 的差异化对比五个方面展开。本指南旨在帮助您在实际项目中充分发挥 SGLang 的高性能推理与可控生成优势。推理服务能力详解SGLang 集“前端 DSL …
技术落地
- 0
- 0
探索X1月11日
PyTorch 入门与性能分析

作为云原生从业者，大多数时间我们围绕着 Kubernetes、Istio、容器和微服务展开工作，但随着 AI 落地场景越来越多，我们的基础设施正逐渐支撑起机器学习训练和推理任务。本文从云原生工程师的视角出发，系统梳理 PyTorch（深度学习框架 PyTorch）/TensorFlow 的基本训练与推理逻辑，提供可运行的示例，并通过 torch.profiler + TensorBoard 分析性…
技术落地
- 0
- 0
探索X1月11日
LLM 推理与调度实操

项目背景与架构说明在本地无 GPU 的 Mac Mini M4 上，如何通过 Orbstack 的本地 Kubernetes 环境部署一个大语言模型（LLM）问答服务？本方案选用 Ollama 作为模型加载与管理工具，FastAPI 提供 HTTP 接口，vLLM 负责推理调度。整体架构为：用户请求 → FastAPI 服务 → vLLM 推理引擎 → Ollama 本地模型 → 返回回答。Oll…
技术落地
- 0
- 0
探索X1月11日