最近的开源模型汇总（8.06） | Blog de Simon🫣

type

status

date

slug

summary

tags

category

icon

password

📎

最近开源社区简直是疯球了，OpenAI 都开源了

一会不看就全是大新闻，赶紧汇总一下

模型名称	详细介绍	链接	模型大小（B）	架构	上下文长度	是否为多模态	技术博客
Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B-Thinking-2507是Qwen3大型语言模型系列的一员...	Qwen/Qwen3-235B-A22B-Thinking-2507	总参数量：235B, 激活参数量：22B	混合专家模型 (Mixture-of-Experts, MoE)	262,144	否	https://qwenlm.github.io/blog/qwen3/
Qwen3-235B-A22B-Instruct-2507	我们推出了Qwen3-235B-A22B非思考模式的更新版本...	Qwen/Qwen3-235B-A22B-Instruct-2507	总参数量：235B, 激活参数量：22B	混合专家模型 (Mixture-of-Experts, MoE)	262,144	否	https://qwenlm.github.io/blog/qwen3/
Qwen3-Coder-480B-A35B-Instruct	Qwen3-Coder是迄今为止我们最具代理性的代码模型...	Qwen/Qwen3-Coder-480B-A35B-Instruct	总参数量：480B, 激活参数量：35B	混合专家模型 (Mixture-of-Experts, MoE)	原生支持 262,144 个 token, 可扩展至 100 万个 token	否	https://qwenlm.github.io/blog/qwen3-coder/
Kimi-K2-Instruct	Kimi K2 是由 Moonshot AI 构建的先进的开源大型语言模型...	moonshotai/Kimi-K2-Instruct	总参数量：1T, 激活参数量：32B	混合专家模型 (Mixture-of-Experts, MoE)	128K	否	https://moonshot.ai/blog/kimi-k2-instruct
ZhipuAI/GLM-4.5	复杂推理和工具使用的思考模式，以及用于即时响应的非思考模式。	ZhipuAI/GLM-4.5	总参数量：355B, 激活参数量：32B	混合专家模型 (Mixture-of-Experts, MoE)	128k	否	https://z.ai/blog/glm-4.5
ZhipuAI/GLM-4.5-Air	拥有 1060 亿总参数量，其中 120 亿活跃参数	ZhipuAI/GLM-4.5-Air	总参数量：106B, 激活参数量：12B	混合专家模型 (Mixture-of-Experts, MoE)	128k	否	https://z.ai/blog/glm-4.5
Intern-S1	一个开源的多模态科学推理大模型，旨在成为真实世界科学应用的研究助手。	Intern-S1	语言模型: 235B (Qwen3 MoE), 视觉编码器: 6B(InternViT)	多模态推理模型 (MoE语言模型 + 视觉编码器)	40K	是	https://huggingface.co/internlm/Intern-S1
MiniMax/MiniMax-M1-80k	MiniMax-M1-80k是MiniMax自研的，基于混合专家架构（MoE）的，支持100万上下文长度的，可商用的大语言模型。	MiniMax/MiniMax-M1-80k	总参数量：456B，激活参数量：45.9B	混合专家模型 (Mixture-of-Experts, MoE)	1,000,000	是	未找到
MiniMax/MiniMax-M1-40k	MiniMax-M1-40k是MiniMax自研的，基于混合专家架构（MoE）的，支持40k上下文长度的，可商用的大语言模型。	MiniMax/MiniMax-M1-40k	总参数量：456B，激活参数量：45.9B	混合专家模型 (Mixture-of-Experts, MoE)	40,000	是	未找到
HunyuanWorld-1	业界首个开源的3D世界生成模型，可实现沉浸式、可探索、可交互的3D世界生成。	HunyuanWorld-1.0	基于FLux，479Mb	3D世界生成模型	无	图片生成	https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
Qwen3-30B-A3B-Instruct-2507	Qwen3-30B-A3B 非思考模式的更新版本	Qwen3-30B-A3B-Instruct-2507	总参数量：30B，激活参数量：3B	混合专家模型 (Mixture-of-Experts, MoE)	原生支持 262,144	否	https://qwenlm.github.io/blog/qwen3/
Qwen-Image	图像生成基础模型	Qwen-Image	ㅤ	文生图模型	ㅤ	ㅤ	https://qwenlm.github.io/blog/qwen-image/
gpt-oss-120b	ㅤ	gpt-oss-120b	总参数量：117B，激活参数量：5.1B	模型使用原生 MXFP4 精度训练 MoE 层	131072	否	https://openai.com/open-models/
gpt-oss-20b	你可以根据任务需求调整适合的推理级别，共有三个级别：低：适用于一般对话的快速响应。中：平衡速度和细节。高：深度和详细的分析。推理级别可以在系统提示中设置，例如，“Reasoning: high”。	gpt-oss-20b	总参数量：21B，激活参数量：3.6B	模型使用原生 MXFP4 精度训练 MoE 层	131072	否	https://openai.com/open-models/

作者:SimonSun
链接:https://simonsun.xyz//article/llm-13
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

总结：PPO GRPO GSPO Loss 分析

Lazy loaded image

Lazy loaded image

RAG技术汇总（4）高级检索方法

Lazy loaded image

RAG技术汇总（3）上下文与内容丰富

Lazy loaded image

Agent 框架汇总

Lazy loaded image

强化学习（3） DPO

Lazy loaded image

GSPO vs GRPO RAG技术汇总（4）高级检索方法

Loading...