AI 原生应用构建实战

往期专题

一共10篇文章

专题：第期

技术落地

Hugging Face LoRA 微调

Hugging Face 的 Transformers 库结合 PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）提供了便捷的接口来对大语言模型进行参数高效微调（PEFT）。其中，LoRA（Low-Rank Adaptation，低秩适配）是一种流行的 PEFT 方法，通过在预训练模型的部分权重上添加低秩矩阵实现微调，而非调整原模型的大量参数。这样可以大幅减少…...
- 探索X
- 1月11日
- 0
- 0
技术落地

AI 原生应用架构简介

AI 原生应用（AI‑Native Applications）是一类以大语言模型（LLM）为认知与推理核心，并与云原生工程协同构建的智能系统。与传统嵌入式 AI 不同，AI 原生应用将模型能力上升为系统级驱动：模型负责理解与推理，Agent/工作流负责编排与执行，检索增强生成（RAG）、长期记忆与提示词工程负责保证上下文与知识的可用性，工具调用和网关则负责与外部系统和实时数据联通。其设计目标是把大…...
- 探索X
- 1月11日
- 0
- 0
技术落地

SGLang 工程化与性能优化

作为一名具备部署和调优能力的 AI 工程师，本文将深入探讨 SGLang（Structured Generation Language）的工程实践与性能优化。我们将分别从推理服务能力、部署方案、性能评估与优化方法、常见错误与排障以及与 vLLM 的差异化对比五个方面展开。本指南旨在帮助您在实际项目中充分发挥 SGLang 的高性能推理与可控生成优势。推理服务能力详解SGLang 集“前端 DSL …...
- 探索X
- 1月11日
- 0
- 0
技术落地

PyTorch 入门与性能分析

作为云原生从业者，大多数时间我们围绕着 Kubernetes、Istio、容器和微服务展开工作，但随着 AI 落地场景越来越多，我们的基础设施正逐渐支撑起机器学习训练和推理任务。本文从云原生工程师的视角出发，系统梳理 PyTorch（深度学习框架 PyTorch）/TensorFlow 的基本训练与推理逻辑，提供可运行的示例，并通过 torch.profiler + TensorBoard 分析性…...
- 探索X
- 1月11日
- 0
- 0
技术落地

LLM 推理与调度实操

项目背景与架构说明在本地无 GPU 的 Mac Mini M4 上，如何通过 Orbstack 的本地 Kubernetes 环境部署一个大语言模型（LLM）问答服务？本方案选用 Ollama 作为模型加载与管理工具，FastAPI 提供 HTTP 接口，vLLM 负责推理调度。整体架构为：用户请求 → FastAPI 服务 → vLLM 推理引擎 → Ollama 本地模型 → 返回回答。Oll…...
- 探索X
- 1月11日
- 0
- 0
技术落地

本地开发环境搭建

选择合适的开发工具选择适合你的开发工具和集成开发环境（IDE）是第一步。常用的 IDE 包括 Visual Studio Code、PyCharm 和 Jupyter Notebook。确保安装必要的插件，如 Python 扩展、Git 集成等，以提升开发效率。安装必要的库和框架根据你的项目需求，安装相关的 AI 库和框架。例如，常用的深度学习框架有 TensorFlow、PyTorch 和 Ke…...
- 探索X
- 1月11日
- 0
- 0
技术落地

SGLang 结构化输出与函数调用

SGLang 架构下图展示了 SGLang 的整体架构，帮助理解其分层设计和各模块的作用。【iframe defaul_iframe_type】https://assets.jimmysong.io/images/book/ai-handbook/playbook/sglang/daa284ac6f0a5e4f74e14bd6898ba456.svg图 1: SGLang 架构图SGLang 的分…...
- 探索X
- 1月11日
- 0
- 0
技术落地

应用开发模板

快速上手git clone <repo> pip install -r requirements.txt vim config/model_config.yaml python examples/hello_agent.py示例：Research Agent一个简单的 research agent 用于检索文档并生成摘要：from .base_agent import BaseAgen…...
- 探索X
- 1月11日
- 0
- 0
技术落地

开源模型结构与微调实战

开源大模型不仅仅是“能看源码”，更是“可加载、可训练、可微调”的智能资产。理解其结构与微调流程，是 AI 时代开发者的必备能力。引言在 AI 时代，越来越多的大模型以开源形式发布，例如阿里巴巴的 Qwen3-4B-Instruct-2507。它是一款中英双语、指令微调（Instruct）版的通用语言模型，拥有约 40 亿参数，是学习和实践开源模型结构、加载与微调的绝佳案例。本章将以该模型为例，讲解…...
- 探索X
- 1月11日
- 0
- 0
技术落地

降低幻觉

本文系统梳理了 RAG 与 Agent 应用中降低幻觉、提升可靠性与可追溯性的工程实践，涵盖来源归因、声明校验、检索回退、输出约束、可观测性、在线评测与运行时保护等关键环节，助力构建高可信 AI 系统。来源归因与回答限定在高可靠性 RAG 系统与 Agent 应用中，确保输出可追溯、基于证据是基础。以下措施可有效提升透明度：引用检索源与知识库：模型输出需附带来源标识（如文档编号、链接、原句摘录），…...
- 探索X
- 1月11日
- 0
- 0