DeepSeek
发布时间:2025-02-27 09:35
DeepSeek-R2曝5月前上线。第三天,DeepSeek宣布了DeepGEMM。这是一个支撑浓密跟MoE模子的FP8 GEMM盘算库,可为V3/R1的练习跟推理供给强盛支撑。仅用300行代码,这个开源库就能超出专家经心调优的矩阵盘算内核,为AI练习跟推理带来明显机能晋升。DeepGEMM库存在以下特色:在Hopper GPU上实现高达1350+ FP8 TFLOPS的算力;极轻量级依附,代码清楚易懂;完整即时编译,即用即跑;中心逻辑仅约300行代码,却在年夜少数矩阵范围下超出专家级优化内核;同时支撑麋集规划跟两种MoE规划。开辟者赞叹于其简练高效的计划,以为这可能是GPU运算技巧的严重冲破。DeepGEMM转变了应用FP8 GEMM库的方法,简略、疾速、开源,代表着AI盘算的将来。期近将宣布的DeepSeek-R2中,将实现更好的编码,并支撑多种言语停止推理。业内子士猜测,这将是AI行业的一个要害时辰。现在,DeepSeek曾经在创立高本钱效益模子方面获得胜利,攻破了该范畴的把持局势。DeepGEMM宣布两天内,前两个名目FlashMLA跟DeepEP分辨取得了近10k跟5k星标。DeepGEMM专为清楚高效的FP8通用矩阵乘法计划,采取了DeepSeek-V3中提出的细粒度缩放技巧。它支撑惯例矩阵乘法跟混杂专家模子分组矩阵乘法。DeepGEMM应用CUDA编写,经由过程轻量级即时编译模块在运转时编译全部内核。现在仅支撑NVIDIA Hopper张量核,为懂得决FP8张量核在累加盘算时的精度成绩,采取了基于CUDA中心的两级累加技巧。只管鉴戒了CUTLASS跟CuTe的一些观点,但防止了适度依附它们的模板或代数体系,寻求计划简练,包括一个中心内核函数,代码量仅约300行。只管采取轻量级计划,DeepGEMM在处置种种矩阵外形时的机能都可能到达乃至超出经专家调优的库。