本コンテンツは、ローカルの Visual Studio Code (VSCode) 上から Azure Machine Learning を使用して PyTorch モデルの分散深層学習を行うハンズオンコンテンツです。
現在Pythonを使った機械学習・データ分析の経験があり、クラウド上での機械学習やAzure Machine Learningの利用に興味がある方。クラウド上での分散深層学習を体験したい方。
本ハンズオンコンテンツでは下記環境を前提としています。
- Anaconda
Python本体に加え、科学計算やデータ分析に使えるライブラリ群、仮想環境作成機能が提供されているパッケージ - Visual Studio Code (VSCode)
様々なOSで動作する、機能性と拡張性に優れたオープンソースのプログラミングエディタ - VSCode Python 拡張機能
VSCodeでPythonのコード補完、デバッグ、コード整形、テスト等々を可能にする拡張機能 - VSCode Jupyter 拡張機能
VSCodeでJupyter notebookをサポートする拡張機能。(Python以外の言語でも利用可能) - Azure Machine Learning ワークスペース作成
- GPUインスタンスのクォーターが十分存在すること
- 手順
- 申請内容
- クォータの種類:Machine Learning サービス
- 場所:(Azure MLワークスペースと同一リージョン)
- VMシリーズ:NC Series (又はNCSv3 Series等)
- 新しい vCPU の制限:最低12以上
本リポジトリをgit clone
するか、ZIPファイルとしてダウンロードしてご利用ください。
./setup.ipnb
を実行します。
./examples/distributed-pytorch-with-distributeddataparallel.ipynb
を実行します。
- VSCode の Azure ML 拡張機能チュートリアル
- Azure Machine Learning を使用して PyTorch モデルを大規模にトレーニングする
- Horovod を使用した分散深層学習を行うサンプルノードブック Distributed PyTorch with Horovod ※本コンテンツでは分散学習を行うためにPyTorch の DistributedDataParallel 機能を使用しています。
- Azure Machine Learningのサンプルノートブック集 (英語) PyTorch以外のライブラリを使用した場合を含め、様々なシナリオについてのサンプルノートブックがまとめられています。
- Machine Learng Practices and Tips