クラウドサービスで利用可能なGPUインスタンス調査

クラウド上でchainerを高速に動かすためにクラウドサービスのGPUインスタンスを調査してみました。

NVidiaの GPU Cloud ComputingのページGPUが利用可能なクラウドサービスが列挙されていますが、今回はAzureとAWS、さくらについて調査しました。
Google Cloud Platformも調べたのですがGPUインスタンスは現状なさげです。TensorFlow専用のサービスはあります。https://cloud.google.com/ml/

Azure

2016年8月にN-SeriesというGPUインスタンスが発表されました。
https://azure.microsoft.com/ja-jp/blog/azure-n-series-preview-availability/

GPUK80を使用しています。

The Tesla K80 delivers 4992 CUDA cores with a dual-GPU design, up to 2.91 Teraflops of double-precision and up to 8.93 Teraflops of single-precision performance. Following are the Tesla K80 GPU sizes available:

スペック

 

NC6

NC12

NC24

Cores

6

(E5-2690v3)

12

(E5-2690v3)

24

(E5-2690v3)

GPU

1 x K80 GPU (1/2 Physical Card)

2 x K80 GPU (1 Physical Card)

4 x K80 GPU (2 Physical Cards)

Memory

56 GB

112 GB

224 GB

Disk

380 GB SSD

680 GB SSD

1.44 TB SSD

価格

https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux/

Instance Cores RAM Disk sizes Price
NV6 6 56.00 GB 340 GB ¥63.24/hr
NV12 12 112.00 GB 680 GB ¥126.48/hr
NV24 24 224.00 GB 1,440 GB ¥252.96/hr
NC6 6 56.00 GB 340 GB ¥57.12/hr
NC12 12 112.00 GB 680 GB ¥115.26/hr
NC24 24 224.00 GB 1,440 GB ¥229.50/hr
NC24r 24 224.00 GB 1,440 GB ¥258.06/hr

NC24rは高スループットのネットワークインターフェースを持つらしい。

Additionally there is a second low latency, high-throughput network interface (RDMA) optimized VM configuration (NC24r) which is tuned for tightly coupled parallel computing workloads.

AWS

2016年9月に新しいGPU特化のインスタンス P2が登場しました。

https://aws.amazon.com/jp/blogs/news/new-p2-instance-type-for-amazon-ec2-up-to-16-gpus/

GPUはN-Seriesと同じK80を使用しています。

スペック

https://aws.amazon.com/ec2/instance-types/

P2 instances are intended for general-purpose GPU compute applications.

Features:

High Frequency Intel Xeon E5-2686v4 (Broadwell) Processors
High-performance NVIDIA K80 GPUs, each with 2,496 parallel processing cores and 12GiB of GPU memory
Supports GPUDirect™ (peer-to-peer GPU communication)
Provides Enhanced Networking using the Amazon EC2 Elastic Network Adaptor with up to 20Gbps of aggregate network bandwidth within a Placement Group
EBS-optimized by default at no additional cost

Model

GPUs

vCPU

Mem (GiB)

GPU Memory (GiB)

p2.xlarge

1

4

61

12

p2.8xlarge

8

32

488

96

p2.16xlarge

16

64

732

192

価格

オンデマンドインスタンス
https://aws.amazon.com/ec2/pricing/on-demand/

US East (N. Virginia)
p2.xlarge41261EBS Only$0.9 per Hour
p2.8xlarge3294488EBS Only$7.2 per Hour
p2.16xlarge64188732EBS Only$14.4 per Hour

スポットインスタンス
https://aws.amazon.com/ec2/spot/pricing/

スポットインスタンスの仕組み解説ブログ
http://qiita.com/megadreams14/items/766ce04ca6cb418e95ca

US East (N. Virginia)
p2.xlarge$0.2831 per Hour$0.2947 per Hour
p2.8xlarge$4.1064 per Hour$3.536 per Hour
p2.16xlarge$144.0 per Hour$173.44 per Hour

さくら

さくらインターネット、高火力コンピューティングの機械学習向けGPUサービスを提供開始
https://www.sakura.ad.jp/press/2016/0831_koukaryoku/

スペック&料金

https://www.sakura.ad.jp/koukaryoku/specification/

Quad GPUモデル、Teslaモデルの2種類あります。

サービス名さくらの専用サーバ 高火力シリーズ
モデル名Quad GPU モデルTesla モデル
料金
※1
月額料金
※2
85,000
(税込:91,800円)
95,000
(税込:102,600円)
初期費用
735,000円(税込:793,800円)
(分割:61,250円×12回)
795,000円(税込:858,600円)
(分割:66,250円×12回)
CPUXeon E5-2623 v3 4Core × 2CPU
(8C/16T 3.0GHz 最大3.5GHz)
GPUカード標準GeForce GTX TITAN X
(Maxwell アーキテクチャ) ×4
NVIDIA Tesla M40 ×1
オプション-最大4枚まで増設可能
メモリ標準128GB
オプション最大1TBまで増設可能
ストレージ標準SSD 480GB
2台/1組(RAID1)
オプション 最大8台まで増設可能(標準2台+6台追加可能)
グローバル回線標準100Mbps(ベストエフォート)
オプション帯域増加、優先制御可能
冗長構成※3標準提供
ローカル回線標準10Gbps
冗長構成※3標準提供
OS標準OSUbuntu 14.04 (64bit)
カスタムOSCentOS 7 (64bit) / Ubuntu 16.04 (64bit)

まとめ

スペックはAWSのp2.16xlargeが一番いいですが、その分値段も張ります(1ヶ月フルに動かすと100万超える・・・)。


Azure (NC24)
AWS (p2.16xlarge)
さくら (Tesla)
K80
K80
M40
GPU
4
16
1 (最大4枚まで増設可能)
CPU
Xeon E5-2690v3
Xeon E5-2686v4
Xeon E5-2623 v3
CPUコア数
24
64
8
GPUメモリ
48 GB
192 GB
12 GB
メモリ
224 GB
732 GB
128 GB (最大1TBまで増設可能)
料金
229.50円/hour (165,240円/30日)
オンデマンド 1,512円/hour (1,088,640円/30日)
スポット 460.32円/hour (331,430.4円/30日)
$1=105円換算
税込:102,600円 (月額)