色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > GPU如何訓練大批量模型？方法在這里

GPU如何訓練大批量模型？方法在這里

作者：時間：2018-10-22 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

　　分布式訓練：在多臺機器上訓練

本文引用地址：http://cafeforensic.com/article/201810/393173.htm

　　在更大的批量上訓練時，我們要如何控制多個服務器的算力呢?

　　最簡單的選擇是使用 PyTorch 的 DistributedDataParallel，它幾乎可以說是以上討論的 DataParallel 的直接替代元件。

　　但要注意：盡管代碼看起來很相似，但在分布式設定中訓練模型要改變工作流程，因為你必須在每個節(jié)點上啟動一個獨立的 Python 訓練腳本。正如我們將看到的，一旦啟動，這些訓練腳本可以通過使用 PyTorch 分布式后端一起同步化。

　　在實踐中，這意味著每個訓練腳本將擁有：

　　它自己的優(yōu)化器，并在每次迭代中執(zhí)行一個完整的優(yōu)化步驟，不需要進行參數傳播(DataParallel 中的步驟 2);

　　一個獨立的 Python 解釋器：這也將避免 GIL-freeze，這是在單個 Python 解釋器上驅動多個并行執(zhí)行線程時會出現的問題。

　　當多個并行前向調用由單個解釋器驅動時，在前向傳播中大量使用 Python 循環(huán)/調用的模型可能會被 Python 解釋器的 GIL 放慢速度。通過這種設置，DistributedDataParallel 甚至在單臺機器設置中也能很方便地替代 DataParallel。

　　現在我們直接討論代碼和用途。

　　DistributedDataParallel 是建立在 torch.distributed 包之上的，這個包可以為同步分布式運算提供低級原語，并能以不同的性能使用多種后端(tcp、gloo、mpi、nccl)。在這篇文章中，我將選擇一種簡單的開箱即用的方式來使用它，但你應該閱讀文檔和 Séb Arnold 寫的教程來深入理解這個模塊。

　　文檔：https://pytorch.org/docs/stable/distributed.html

　　教程：https://pytorch.org/tutorials/intermediate/dist_tuto.html

　　我們將考慮使用具有兩個 4 - GPU 服務器(節(jié)點)的簡單但通用的設置：

　　主服務器(服務器 1)擁有一個可訪問的 IP 地址和一個用于通信的開放端口。

　　改寫 Python 訓練腳本以適應分布式訓練

　　首先我們需要改寫腳本，從而令其可以在每臺機器(節(jié)點)上獨立運行。我們將實現完全的分布式訓練，并在每個節(jié)點的每塊 GPU 上運行一個獨立的進程，因此總共需要 8 個進程。

　　我們的訓練腳本有點長，因為需要為同步化初始化分布式后端，封裝模型并準備數據，以在數據的一個子集上來訓練每個進程(每個進程都是獨立的，因此我們需要自行處理)。以下是更新后的代碼：

　　from torch.utils.data.distributed import DistributedSampler

　　from torch.utils.data import DataLoader

　　# Each process runs on 1 GPU device specified by the local_rank argument.

　　parser = argparse.ArgumentParser()

　　parser.add_argument("--local_rank", type=int)

　　args = parser.parse_args()

　　# Initializes the distributed backend which will take care of sychronizing nodes/GPUs

　　torch.distributed.init_process_group(backend='nccl')

　　# Encapsulate the model on the GPU assigned to the current process

　　device = torch.device('cuda', arg.local_rank)

　　model = model.to(device)

　　distrib_model = torch.nn.parallel.DistributedDataParallel(model,

　　device_ids=[args.local_rank],

　　output_device=args.local_rank)

　　# Restricts data loading to a subset of the dataset exclusive to the current process

　　sampler = DistributedSampler(dataset)

　　dataloader = DataLoader(dataset, sampler=sampler)

　　for inputs, labels in dataloader:

　　predictions = distrib_model(inputs.to(device)) # Forward pass

　　loss = loss_function(predictions, labels.to(device)) # Compute loss function

　　loss.backward() # Backward pass

　　optimizer.step() # Optimizer step

　　啟動 Python 訓練腳本的多個實例

　　我們就快完成了，只需要在每個服務器上啟動訓練腳本的一個實例。

　　為了運行腳本，我們將使用 PyTorch 的 torch.distributed.launch 工具。它將用來設置環(huán)境變量，并用正確的 local_rank 參數調用每個腳本。

　　第一臺機器是最主要的，它應該對于所有其它機器都是可訪問的，因此擁有一個可訪問的 IP 地址(我們的案例中是 192.168.1.1)以及一個開放端口(在我們的案例中是 1234)。在第一臺機器上，我們使用 torch.distributed.launch 來運行訓練腳本：

　　python -m torch.distributed.launch --nproc_per_node=4 --nnodes=2 --node_rank=0 --master_addr="192.168.1.1" --master_port=1234 OUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of our training script) # Optimizer step

　　在第二臺機器上，我們類似地啟動腳本：

　　python -m torch.distributed.launch --nproc_per_node=4 --nnodes=2 --node_rank=1 --master_addr="192.168.1.1" --master_port=1234 OUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of our training script)

　　這兩個命令是相同的，除了—node_rank 參數，其在第一臺機器上被設為 0，在第二臺機器上被設為 1(如果再加一臺機器，則設為 2，以此類推…)。

上一頁 1 2 3 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： GPU Python

評論

相關推薦

這顆芯片有故事，你有酒嗎？

FPGAwuhan | 2016-08-20

目標完全替代閉源驅動，英偉達宣布全面轉向開源 GPU 內核模塊

嵌入式系統閉源驅動英偉達開源 GPU 內核模塊 Linux | 2024-07-22

Meta訓練Llama 3遭遇頻繁故障

智能計算 Meta Llama 3 英偉達 H100 顯卡 GPU | 2024-07-29

打破NVIDIA壟斷！英國公司實現CUDA軟件在AMD GPU上無縫運行

智能計算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

醫(yī)療電子平臺選擇:FPGA、ARM、X86、DSP還是GPU分析

設計方案 FPGA ARM DSP GPU X | 2015-08-13

APU與GPU共進 AMD搶攻嵌入式應用

設計方案 APU GPU AMD | 2015-08-19

消息稱英偉達曾向臺積電詢問建設廠外 CoWoS 先進封裝專線可能，遭拒絕

EDA/PCB 英偉達 GPU 封裝工藝臺積電 | 2024-07-23

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動處理 | 2012-12-26

GPU的形態(tài)已徹底改變，英偉達GTC大會發(fā)布的到底是什么

視頻英偉達 GPU Blackwell AI GTC | 2024-03-26

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

【求助】用python寫了一個鬧鐘，在樹莓派上沒有聲音

SeeUAgain | 2015-07-22

LabVIEW和GPU用于實時高性能運算系統

資源下載 NI LabVIEW GPU | 2013-03-29

基于GPU的數字圖像并行處理研究

設計方案圖像處理算法并行流處理 GPU | 2015-08-13

Imagination：我們的移動GPU技術一騎絕塵

設計方案 Imagination TI GPU | 2015-08-19

簡明python 教程

資源下載 Python 教程 | 2010-06-30

Python CMOS傳感器演示

視頻 onsemi Python CMOS傳感器半導體汽車影像 | 2016-02-19

GPU圖形處理器各大廠家芯片參數介紹

資源下載 GPU 芯片 | 2013-08-30

TPYBoardv102+v202家庭無線溫濕度檢測

bodasister | 2017-05-21

gpu_gpu是什么意思

dolphin | 2014-06-12

基于視覺的駕駛員輔助嵌入式系統(下)

資源下載 ADAS 嵌入式 GPU | 2014-03-28

談GPU的作用、原理及與CPU、DSP的區(qū)別

設計方案 GPU CPU DSP 緩存體系 3 | 2015-08-13

藍牙模塊強化Canvas軟件套件支持，快速構建低功耗藍牙應用

手機與無線通信藍牙模塊 Canvas Python | 2024-07-18

什么是 DLSS，值得嗎？

智能計算 DLSS gpu NVIDIA | 2024-07-17

《E點冷知識》：引發(fā)AI行業(yè)大地震的CUDA究竟有多強大

視頻英偉達 GPU CUDA AI | 2024-03-26

消息稱英偉達 RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應緊張

消費電子英偉達 GPU | 2024-07-29

CPU與GPU：誰將主導下一次計算革命？

資源下載 CPU GPU 計算革命融合集成 SOC | 2008-05-26

Manpower代招上海 US MNC GPU Physical design technical leader

魔都獵頭招聘 | 2013-07-23

消息稱臺積電代工英特爾下代 AI HPC 用 GPU 芯片 Falcon Shores

EDA/PCB 臺積電英特爾 AI HPC GPU 芯片 Falcon Shores | 2024-07-17

大嘴業(yè)話：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

焦點

推薦視頻

技術專區(qū)

關閉

<rt id="uo0si"></rt>

<optgroup id="uo0si"></optgroup>