AI 原生应用构建实战
一共10篇文章
专题:第期
-
Hugging Face LoRA 微调
Hugging Face 的 Transformers 库结合 PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)提供了便捷的接口来对大语言模型进行参数高效微调(PEFT)。其中,LoRA(Low-Rank Adaptation,低秩适配)是一种流行的 PEFT 方法,通过在预训练模型的部分权重上添加低秩矩阵实现微调,而非调整原模型的大量参数。这样可以大幅减少…... 探索X
- 0
- 0
-
AI 原生应用架构简介
AI 原生应用(AI‑Native Applications)是一类以大语言模型(LLM)为认知与推理核心,并与云原生工程协同构建的智能系统。与传统嵌入式 AI 不同,AI 原生应用将模型能力上升为系统级驱动:模型负责理解与推理,Agent/工作流负责编排与执行,检索增强生成(RAG)、长期记忆与提示词工程负责保证上下文与知识的可用性,工具调用和网关则负责与外部系统和实时数据联通。其设计目标是把大…... 探索X
- 0
- 0
-
SGLang 工程化与性能优化
作为一名具备部署和调优能力的 AI 工程师,本文将深入探讨 SGLang(Structured Generation Language)的工程实践与性能优化。我们将分别从推理服务能力、部署方案、性能评估与优化方法、常见错误与排障以及与 vLLM 的差异化对比五个方面展开。本指南旨在帮助您在实际项目中充分发挥 SGLang 的高性能推理与可控生成优势。推理服务能力详解SGLang 集“前端 DSL …... 探索X
- 0
- 0
-
PyTorch 入门与性能分析
作为云原生从业者,大多数时间我们围绕着 Kubernetes、Istio、容器和微服务展开工作,但随着 AI 落地场景越来越多,我们的基础设施正逐渐支撑起机器学习训练和推理任务。本文从云原生工程师的视角出发,系统梳理 PyTorch(深度学习框架 PyTorch)/TensorFlow 的基本训练与推理逻辑,提供可运行的示例,并通过 torch.profiler + TensorBoard 分析性…... 探索X
- 0
- 0
-
LLM 推理与调度实操
项目背景与架构说明在本地无 GPU 的 Mac Mini M4 上,如何通过 Orbstack 的本地 Kubernetes 环境部署一个大语言模型(LLM)问答服务?本方案选用 Ollama 作为模型加载与管理工具,FastAPI 提供 HTTP 接口,vLLM 负责推理调度。整体架构为:用户请求 → FastAPI 服务 → vLLM 推理引擎 → Ollama 本地模型 → 返回回答。Oll…... 探索X
- 0
- 0
-
SGLang 结构化输出与函数调用
SGLang 架构下图展示了 SGLang 的整体架构,帮助理解其分层设计和各模块的作用。【iframe defaul_iframe_type】https://assets.jimmysong.io/images/book/ai-handbook/playbook/sglang/daa284ac6f0a5e4f74e14bd6898ba456.svg图 1: SGLang 架构图SGLang 的分…... 探索X
- 0
- 0
-
开源模型结构与微调实战
开源大模型不仅仅是“能看源码”,更是“可加载、可训练、可微调”的智能资产。理解其结构与微调流程,是 AI 时代开发者的必备能力。引言在 AI 时代,越来越多的大模型以开源形式发布,例如阿里巴巴的 Qwen3-4B-Instruct-2507。它是一款中英双语、指令微调(Instruct)版的通用语言模型,拥有约 40 亿参数,是学习和实践开源模型结构、加载与微调的绝佳案例。本章将以该模型为例,讲解…... 探索X
- 0
- 0




















