-
人类反馈-RL强化学习
人类反馈-RL强化学习 RLHF 不是让模型变聪明,而是让它更懂人、更安全、更可控。它是大模型“对齐”的关键。为什么需要 RLHF?人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback)是让大语言模型(LLM, Large Language Model)更符合人类偏好、更安全、更可控的关键技术。一个仅经过预训练的模型:只是在预测下一个 …- 2
- 0
-
模型训练的工程化路径
模型训练的工程化路径 训练一个大模型,是现代软件工程最复杂、最考验协作与系统能力的实践。工程体系的成熟度,决定了 AI 能否真正落地。在 AI 基础设施的全景中,模型训练 是最复杂、最考验工程体系的环节。它不仅仅是调参与算法的游戏,更是一场关于数据、算力与系统协作的“工程马拉松”。本文将从工程师视角,系统梳理大模型训练的关键阶段、核心挑战与架构演化路径,帮助读者理解——为什么训练一个模型,是现代软…- 0
- 0
-
Transformer
Transformer Transformer 是什么?Transformer 是所有现代大语言模型(LLM)的基础架构,就像 Kubernetes 之于云原生。它的出现彻底改变了自然语言处理(NLP, Natural Language Processing)领域。Transformer 主要解决了两个核心问题:如何理解一段话中哪些信息最重要?如何并行处理海量文本,不像循环神经网络(RNN, Re…- 0
- 0
-
MLOps vs AIOps
MLOps vs AIOpsMLOps 和 AIOps 的本质区别是什么?理解它们的融合趋势,是 AI 平台工程的关键。在实际工作中,MLOps(Machine Learning Operations,机器学习工程运维) 和 AIOps(Artificial Intelligence for IT Operations,智能运维) 是两个极为关键但经常被混用的概念。本文将从体系定位、核心目标、关键…- 0
- 0
-
Hugging Face LoRA 微调
Hugging Face 的 Transformers 库结合 PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)提供了便捷的接口来对大语言模型进行参数高效微调(PEFT)。其中,LoRA(Low-Rank Adaptation,低秩适配)是一种流行的 PEFT 方法,通过在预训练模型的部分权重上添加低秩矩阵实现微调,而非调整原模型的大量参数。这样可以大幅减少…- 0
- 0
-
AI 原生应用架构简介
AI 原生应用(AI‑Native Applications)是一类以大语言模型(LLM)为认知与推理核心,并与云原生工程协同构建的智能系统。与传统嵌入式 AI 不同,AI 原生应用将模型能力上升为系统级驱动:模型负责理解与推理,Agent/工作流负责编排与执行,检索增强生成(RAG)、长期记忆与提示词工程负责保证上下文与知识的可用性,工具调用和网关则负责与外部系统和实时数据联通。其设计目标是把大…- 0
- 0
-
SGLang 工程化与性能优化
作为一名具备部署和调优能力的 AI 工程师,本文将深入探讨 SGLang(Structured Generation Language)的工程实践与性能优化。我们将分别从推理服务能力、部署方案、性能评估与优化方法、常见错误与排障以及与 vLLM 的差异化对比五个方面展开。本指南旨在帮助您在实际项目中充分发挥 SGLang 的高性能推理与可控生成优势。推理服务能力详解SGLang 集“前端 DSL …- 0
- 0
-
PyTorch 入门与性能分析
作为云原生从业者,大多数时间我们围绕着 Kubernetes、Istio、容器和微服务展开工作,但随着 AI 落地场景越来越多,我们的基础设施正逐渐支撑起机器学习训练和推理任务。本文从云原生工程师的视角出发,系统梳理 PyTorch(深度学习框架 PyTorch)/TensorFlow 的基本训练与推理逻辑,提供可运行的示例,并通过 torch.profiler + TensorBoard 分析性…- 0
- 0
-
LLM 推理与调度实操
项目背景与架构说明在本地无 GPU 的 Mac Mini M4 上,如何通过 Orbstack 的本地 Kubernetes 环境部署一个大语言模型(LLM)问答服务?本方案选用 Ollama 作为模型加载与管理工具,FastAPI 提供 HTTP 接口,vLLM 负责推理调度。整体架构为:用户请求 → FastAPI 服务 → vLLM 推理引擎 → Ollama 本地模型 → 返回回答。Oll…- 0
- 0















