当前位置: 首页>编程语言>正文

torch 将共享GPU内存分配给大模型 gpu共享内存几乎不被使用

我在vs上运行cuda程序,用cudaMemGetInfo获得的总的显存是3g,但是实际应该有4g。可用的显存是3028M,那就是用了44M,但是用GPU-Z和nvidia-smi都显示用了800多M,不知道为什么是这样?

这种问题很难定量。

例如一台有 32GB 内存的机器,但是在 C 里面也没办法全部用上,因此操作系统会占用一部分,至于占用多少?这个是非常底层的事情。

同样的,显存并非完全留给代码使用,驱动层与显卡之间保持通讯,基本上就会长期占用一部分,CUDA 的 Warp Manager 管理器也会长期占用一部分,如果是 Windows 系统,可能图形显示功能也要长期占用一部分。

建议您不需要太纠结与显存的可用数量,从 CUDA 的资源调用来说,显存属于 Global Memory 是“慢速”的存储种类,除非您计算的数据量非常之大,此时该学习一些 steal 技巧来解决吞吐瓶颈,否则纠结与显存数量问题,会偏离您的学习重点。

问题: 就是CPUpthread_create创建多个线程,执行GPU代码,会不会有问题?

[size=18.9999980926514px]答:

没有任何问题的。你的这个模型(开多个CPU线程,每个线程单独处理1个stream上的kernel启动或者复制任务)其实是最经典的模型。 完全无任何问题的。请大胆使用。最常见的是,只有1张卡的时候,同时使用2-3个线程,分别建立2-3个streams,处理该GPU上的多组任务。以及,在多张卡的时候,也可以进一步的将线程数量扩大N倍(N是你的GPU数量),然后每2-3个线程对付一个GPU,这样编程起来逻辑简单,充分压榨GPU。

(是不是一个服务器上2颗CPU,多核的,必须这么用才能把机器的性能发挥到极致?)你这个是另外一个问题了。如果具有2路CPU,每路里面有N个SMP核心,每个核心假设支持2个线程(超线程),的确是可以通过多CPU线程的方式,充分使用CPU的。这个是传统的CPU上的做法。

(2各线程同时访问GPU,会不会有冲突?)这要看你的具体的操作了。如果两个stream里的kernel操作的数据毫无关系,则可以随意进行,如果2个stream里的kernel*可能*同时操作一段缓冲区的位置,尽量使用原子操作保证数据操作如你所想。这是对一张卡上的来说的

多卡,非pascal,在P2P Access下,多个stream里的kernel同时操作特定某张卡的特定位置,不能用原子操作的, 而pasca(计算能力6.1),我还没有测试过。暂时不知道结论

以及,需要说明的是,对一张卡上多个流,并不一定必须使用多个CPU线程的,

你完全可以只使用1个线程, 但是使用多个往往更简洁,方便。


https://www.xamrdz.com/lan/54b1962189.html

相关文章: