AI不是只有4090、A800这些卡，英伟达RTX 5000 Ada工作站也能跑AI

admin 3天前

预算有限情况下，能自由地在工作站上跑AI的感觉还是很好的。

过往知道4090可以跑AI，预算充足的情况下可以上NVIDIA Tesla显卡，但是服务器资源有限，我们最近就直接用新到手的英伟达 RTX 5000 Ada 搭到自己工作站上做了个升级，这样方便在办公室自由地跑跑推理和模型微调。最近主要测试了跑跑llma3。

以下就是我们用RTX 5000 Ada 工作站测试当红大模型llma3的情况：

测试环境：

软件平台：系统：Ubuntu22.04；架构: VLLM/Transformer；

测试的模型：Llama3-8B，使用AWQ量化的Llama3-8B，使用GPTQ量化的Llama3-70B。

测试用例两种模式：

一种是对话模式，就是说我们输入比较少生成的一个数量恰中的一个水平，我们这里用的是32个token的输入以及生成256个输出的一个情况。

另一种是检索模式，输入1K tokens，输出256 token。这个是较为典型的RAG用例，即检索增强生成。

测试参数：

1、Throughput：吞吐率，单位为token/s，即每秒生成的token数量。对于中文字符来说，可以认为是每秒生成的字数。

2、Latency：时延，在我们做大模型推理的时候，从输入到所有输出生成完毕的所需时间，单位为秒。

3、AWQ/GPTQ：大模型的量化技术，普遍使用4bit的方式来代表原本16bit的浮点数，可以大大节省对显存的占用率，同时提高推理速率。

4、Batch size，我们在做大模型推理的时候，可以并发输入大模型里面的用户请求的数量，一般来说我们的并发数量越大，吞吐率越高。但过大的批量，会导致时延大大加长，适得其反。所以需要取值适中。

测试过程及结果：

1、单卡5000 Ada 测试AWQ量化的Llama3-8B。

当batch size 达到128时，能达到最大的吞吐率，为2205 t/s，即每秒可输出2205个Token，时延小于15秒。比较理想的batch size是32-64。