认知与基础
一共10篇文章
专题:第期
-
人类反馈-RL强化学习
人类反馈-RL强化学习 RLHF 不是让模型变聪明,而是让它更懂人、更安全、更可控。它是大模型“对齐”的关键。为什么需要 RLHF?人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback)是让大语言模型(LLM, Large Language Model)更符合人类偏好、更安全、更可控的关键技术。一个仅经过预训练的模型:只是在预测下一个 …... 探索X
- 0
- 0
-
模型训练的工程化路径
模型训练的工程化路径 训练一个大模型,是现代软件工程最复杂、最考验协作与系统能力的实践。工程体系的成熟度,决定了 AI 能否真正落地。在 AI 基础设施的全景中,模型训练 是最复杂、最考验工程体系的环节。它不仅仅是调参与算法的游戏,更是一场关于数据、算力与系统协作的“工程马拉松”。本文将从工程师视角,系统梳理大模型训练的关键阶段、核心挑战与架构演化路径,帮助读者理解——为什么训练一个模型,是现代软…... 探索X
- 0
- 0
-
Transformer
Transformer Transformer 是什么?Transformer 是所有现代大语言模型(LLM)的基础架构,就像 Kubernetes 之于云原生。它的出现彻底改变了自然语言处理(NLP, Natural Language Processing)领域。Transformer 主要解决了两个核心问题:如何理解一段话中哪些信息最重要?如何并行处理海量文本,不像循环神经网络(RNN, Re…... 探索X
- 0
- 0


















