-
Qwen2.5-1M: 支持 100 万 Tokens 上下文的开源 Qwen 模型
本文介绍了魔搭 ModelScope 社区开源的 Qwen2.5-1M 系列大语言模型,其最显著特点是将上下文窗口扩展至百万 tokens,**为长文档摘要、信息检索、复杂问答等应用场景**解决了长文本处理难题。文章详细阐述了模型在长短文本任务上的性能,通过 benchmark 数据证明其在长上下文理解和检索任务中超越以往版本及部分闭源模型。文章深入解析关键技术,包括长上下文训练、Dual Chu…- 0
- 0
-
DeepSeek-R1-0528:小更新大升级
文章详细介绍了 DeepSeek-R1 大模型最新版本 DeepSeek-R1-0528。通过增强计算资源和后训练算法优化,新模型在数学、编程等推理任务上表现显著提升,AIME 准确率从 70%提升至 87.5%,且减少了幻觉并优化了代码编写体验。同时,团队基于 DeepSeek-R1-0528 思维链蒸馏出 DeepSeek-R1-0528-Qwen3-8B 模型,该模型在 AIME 2024 …- 8
- 0
-
Qwen2.5-VL-32B: 更聪明、更轻量!
文章介绍了阿里云通义千问团队新推出的开源多模态模型 Qwen2.5-VL-32B-Instruct。该模型在 Qwen2.5-VL 系列的基础上,通过强化学习,在回复的详细程度、格式规范性、数学问题准确性和图像内容识别与逻辑推理能力方面有显著提升。在性能方面,Qwen2.5-VL-32B-Instruct 在多模态任务中超越了同规模的 Mistral-Small-3.1-24B 和 Gemma-3…- 0
- 0
开源AI模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

