PT电子-【禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期】PjTime.COM 行业新闻

2025-08-30 12:21:57| 新闻中心

2025年7月15日，英伟达CEO黄仁勋公布了一个震惊AI圈的动静：美国当局本日起排除H20芯片对于华发卖禁令，而就于禁令排除后，云工厂科技发布具体测试数据---8卡141GB显存的H20办事器，能流利运行671B参数的满血版非量化DeepSeek-R1模子，推理吞吐量冲破预期。

硬核实测：141GB H20 跑满血版非量化 DeepSeek 机能周全解析

测试情况配置

一. 测试数据

二. 要害机能测试成果

测试显示：

1.首token相应快：于测试的多个并发量下，首个Token的相应时间 (TTFT) 都连结于3秒之内（实测0.1s - 2.8s），用户体验很是流利，觉得不到任何延迟。

2.高并发吞吐年夜：H20显卡揭示出优异的并发处置惩罚能力。于模仿100个用户同时发问（并发哀求=100）的中高负载场景下：

·处置惩罚短问题（输入/输出各256 tokens），体系总吞吐量高达约1124 tokens/s。

·处置惩罚典型问题（输入/输出各1K tokens），总吞吐量不变于约1100 tokens/s。

·处置惩罚繁杂问题/长对于话（输入/输出各2K tokens），总吞吐量仍能连结约1020 tokens/s。

分场景机能趋向：

1.低并发场景 ( 10用户)：

·相应极快：TTFT始终低在0.9秒，用户险些觉得不到等候。

·吞吐未饱及：体系能力远未被充实使用，吞吐量相对于较低（32-208 tokens/s），机能体现轻松自若。

2.中高并发场景 (50-100用户)：

·相应依然迅速：TTFT连结于1.9秒 (1K上下文) 到2.8秒 (2K上下文)，交互体验依然流利。

·吞吐年夜幅跃升：体系资源获得高效使用，总吞吐量急剧上升至634 - 1124 tokens/s。

·长上下文上风闪现：于不异并发下，处置惩罚更长（1K/2K）的上下文凡是能得到比短上下文（256）更高的吞吐量（特别于并发50时最较着），充实表现了vLLM对于长文本的优化效果。

3.极限场景 (100用户 + 长上下文2K)：

·相应可控：TTFT为2.8秒，交互体验依然流利。

·吞吐维持高位：纵然于此压力下，体系总吞吐量仍达1020 tokens/s。

三.测试总结

云工厂科技构建了周全的异构计较资源池，涵盖NVIDIA全系高机能GPU（包括141GB显存H20、L20、RTX 4090等最新型号）、AMD w7900以和国产算力三巨头（华为昇腾910B系列、baidu昆仑芯P800、燧原S60）等等，可当地部署到就近机房，提供DeepSeek、文心一言、华为盘古、LLaMA等开源年夜模子当地部署。

经由过程严酷的横向机能基准测试，云工厂科技验证了差别架构GPU于LLM推理、计较机视觉等场景的能效比差异，并为客户提供"算力租赁 + 算力智能调理 + 平台化交付"的完备 AI 办事系统，今朝已经于教诲/工业/通讯/交通等多范畴乐成落地，支撑其年夜模子部署、推理和场景化落地的全流程需求。

-PT电子

PT电子-【禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期】PjTime.COM 行业新闻

友情链接

关于PT电子

新闻中心

产品

服务

生态合作

行业应用

认证培训

联系PT电子

客户服务热线

400-775-8258

400-775-8258

公司地址

E-Mail