/ V2 V' E4 z$ s 作者:Pieterluitjens
9 Z5 d' |5 ?6 }2 j( E
参与:一鸣、嘉明、思
! Q6 [" p9 o- x) M( i( F: y
你的数据处理影响整个训练速度,如果加上英伟达 DALI 库,处理速度比原生 PyTorch 也能快上四倍。
8 Y3 Z; G+ @' E2 U
; A+ `; x0 d" w/ U: f" d3 I7 F
0 C/ ?6 Z4 f6 y2 ^, D, [
打开凤凰新闻,查看更多高清图片
" f1 H; \ \& B3 v; E5 s
9 p2 t. @& I2 d5 y) S
, L7 U8 |0 _, K: r! ^ 深度学习的加速上,除了对训练和推理过程的加速之外,还有对数据加载和预处理阶段的加速。这一阶段也尤为关键,因为数据处理 pipeline 的处理速度也影响着整体的流程效率。
- o+ t, L9 v& q0 W
近日,有开发者介绍了如何使用 NVIDIA Data Loading Library(DALI),以及使用这个库进行数据预处理加速的方法。DALI 和 TensorFlow 自带的 DataLoader 类似,是一个专门用于加速数据预处理过程的库。
7 i/ c! U* l$ q2 N, I$ O- T 在一篇博客中,开发者表示,该库不仅可以进行 GPU 加速,也可以在 CPU 上构建一个完整的数据预处理流程。如果在 Tesla V100 上做测试,PyTorch+DALI 的处理速度能达到 4000 images/s,比原版 PyTorch 要快近 4 倍。
3 }/ A/ t$ y6 s* u0 |: L
支持多个框架,针对预处理
/ i; _7 @2 [9 A$ p9 ~% x# w* ]
英伟达数据加载库 DALI 是一个便捷式开源库,用于图像或视频的解码及增强,从而加速深度学习应用。通过并行训练和预处理过程,减少了延迟及训练时间,并为当下流行的深度学习框架中的内置数据加载器及数据迭代器提供了一个嵌入式替代器,便于集成或重定向至不同框架。
, Y$ z+ ?; m3 Z; s
开发人员可以在 GPU 上运行他们的数据处理通道,从而减少训练神经网络的时间。而 DALI 实现了数据处理 pipeline 可移植,因为可以轻松地重定向至 TensorFlow,PyTorch 和 MXNet。
9 I& h4 K' E9 j$ |, M& }, l 
5 M# V! D& b0 ] DALI 设计之初就是用来帮助用户突破数据预处理的瓶颈,使得模型的训练和推理能够达到最高的效率。其主要设计是用于在 GPU 上的预处理,但大多数操作也可在 CPU 上实现。
' c1 z' P" e* k& c" C+ n6 u6 i
主要特征
- J8 k4 I* A* F# j+ n
易于使用的 Python API
0 S5 ?3 m* T. P
在多个 GPU 之间显式地缩放
7 O9 @" K9 j4 C' s! f6 G$ n, N/ N
加快图像分类(ResNet-50)和目标检测分类(SSD)工作流
+ P% k' f' M8 `6 m6 N
灵活的计算图使得开发人员可创建自定义的数据处理 pipeline
6 n8 W3 u1 ?) |! E 支持多种格式 - LMDB、RecordIO、TFRecord、COCO、JPEG、H.264 以及 HEVC
+ q+ I# c; @! d; S' w& _: N- ]6 k 开发人员可添加自定义的图像或视频处理 operator
2 `6 A7 K, b8 n! ?- n 
1 B! I( ]) y* S9 _( n/ ` DALI 在 MXNet 上训练 ResNet50 的性能表现。
9 j3 O# e" o/ T! ^5 W! B4 i" ^! W
使用 DALI 重构数据预处理 pipeline
* c" d1 x6 f, R
内存占用大是 DALI 在加速数据预处理中面对的一个重要问题。随着批大小的上升,DALI 的内存占用会变得更大。这一问题现在还没有得到修复。
* j" @; k+ o0 |! N! K" A5 s 
9 ?3 m& m8 s# B+ V! B- p3 s
DALI 的内存占用问题。
, j; X# V2 H! d
而和其他的数据预处理工具相比,DALI 能够最大处理的批大小相比 TorchVision 少了一半。
9 o, d+ [! ~" {* C& n 
z' p! W) a6 U5 o 因此,使用 DALI 加速数据预处理需要重新构建整个 pipeline。在教程中,作者分别介绍了构建 CPU pipeline 和 GPU pipeline 的方法。
6 X" Z% s' I* r) ^& b6 o
构建 CPU pipepline
. z ~; \% j$ u/ o. r 使用 CPU 进行数据预处理的时候,常用的做法是让 CPU 处理解码和 resize 的工作,而 CropMirrorNormalize 这样的工作放到 GPU 上。由于使用 DALI 将输出传入 GPU 中就会占用很大的内存,因此作者构建了一个完全基于 CPU 的 pipeline。
) j5 m J+ }% h- S0 T9 ] 首先,重新加载并导入 DALI。
! G, F% F# d0 p6 c2 ^0 D/ i 
0 `, J' Q9 g i5 } D% d 然后构建基于 CPU 的 pipeline。
3 k7 Q0 Q' a2 }) ?1 H: j- G" B; o 
/ T6 R; E3 d2 ~2 I& q9 s
在这里设置一下哪些操作应当由 CPU 运行。
' n' {9 G. ^1 V; O9 W/ O

, H8 f. Y0 ~) `& C Z5 D ~( E' ] 然后开始相应的操作。如解码:
Y; x, f4 g' Z) B$ D& X0 w 
: m0 p7 h$ z1 K* Y& [
以及 resize:
0 X8 ~9 }) V u8 a- O

( G0 @1 b6 d, X0 T: ? CropMirrorNormalize 的操作由 GPU 进行。
: n7 v: l. W/ x( o: A+ A d2 @ 
: N5 }; l7 M9 M w2 N$ z 当然,还需要从 CPU 到 GPU 的转移过程,这一过程使用 PyTorch 进行,作者在教程中也给出了相应的代码。
3 t- @3 ~+ H* g- R
构建基于 GPU 的 pipeline
* k6 R) q: w* ^$ A. j u
当模型较大(如使用 ResNet50)的时候,基于 CPU 的 pipepline 效果较好,而在类似于 AlexNet 或 ResNet18 这样的小模型上,CPU 的处理还是跟不上 GPU 的数据处理速度。其主要原因在于,GPU pipeline 会降低近一半的批大小。
; o# o# Z" V4 a! _
为了解决这个问题,作者建议将验证 pipepline 从 GPU 中关掉,直到每个 epoch 的最后需要的时候再开启。
' S8 E/ \% w0 d0 o% M 效果评价
" C3 ]8 `/ K A7 M0 h* W) t9 z 以下是作者在 ResNet18 中使用的最大批量大小:
+ H+ ]. Q3 e; V7 Z1 {9 j" K 
# G7 t _ @+ a, R
因此通过合理应用这一系列修改,DALI 可以使得最大批量大小在 CPU 或 GPU 模式下提升 50%
0 j: y* t0 M( Q5 L# z" a 而在 Shufflenet V2 0.5 上,如果批大小为 512,则 DALI GPU 和 CPU 能够处理的批大小如下:
' N8 D8 U% C. n7 d4 m! \

; Y0 C0 @! X$ Q2 _( R9 k0 s
可以看到,即使是 CPU,其处理速度也达到了每秒 1800 张图像,速度超过了 TorchVision。
, M4 W ~" \6 S" O 所有的测试都在 Google Cloud V100 实例下运行:包含 12 个 vCPU(6 个物理内核),78GB 内存,以及使用 ApexFP16 进行训练。
+ x' z( k1 d( a/ Y1 ^9 H9 Q 因此,通过 DALI,一个 Tesla V100 GPU 就可以达到将近每秒 4000 张图像。接近英伟达有 8 个 V100 GPU 的 DGX-1 的性能,尽管使用的是小模型。
- u3 C- B. e; g" q0 v6 t https://towardsdatascience.com/nvidia-dali-speeding-up-pytorch-876c80182440
4 }; W6 D0 [7 `$ M" S1 r6 L; ?
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
3 t) G' ]. A9 p- O 投稿或寻求报道:content @jiqizhixin.com
' Q( v$ u/ g( |" i& S# C( c
广告 & 商务合作:bd@jiqizhixin.com
, ]: R$ d5 P2 K) r/ |