自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="urgq1"><p id="urgq1"></p></blockquote>

<legend id="urgq1"><track id="urgq1"><dfn id="urgq1"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

AI Infra—如何從 LLM training 轉(zhuǎn) Inference 原創(chuàng)

發(fā)布于 2025-5-13 06:42

瀏覽

0收藏

LLM training轉(zhuǎn)inference需要加強的知識總結(jié)。

這篇附帶一些職業(yè)規(guī)劃的討論，其實Training 和 Inference 在不同公司不同崗位業(yè)務(wù)中的定位不同，但總得來說還是存在下面的區(qū)別：

LLM Training：包括但不限于優(yōu)化模型架構(gòu)（MoE），調(diào)節(jié)超參數(shù)優(yōu)化loss，訓(xùn)練微調(diào)（SFT， pretrain，RL，蒸餾）等等，這個是把模型訓(xùn)得更聰明的過程。
LLM Inference：包括PD分離（KV cache 優(yōu)化, Page attention，Radix attention），并行（各種parallelism， sharding），通信（NCCL），推理加速（量化），生成穩(wěn)定性監(jiān)控等等，這個是訓(xùn)完模型以后，能讓模型跑得效果更好，也就是更快更穩(wěn)定的過程。

先忽略Training和Inference這兩類型的目前招聘崗位的特點和要求（當(dāng)然大佬可能兩方面都特別強），本篇主要介紹從training轉(zhuǎn)infra需要加強哪些方面的內(nèi)容，如何入手。

下面是一個快捷目錄。

1. 分布式系統(tǒng)

2. 推理加速

一、分布式系統(tǒng)

目前大家見到過的并行訓(xùn)練算法，包括但不限于DP，MP，PP，TP，SP/CP，EP等，分別是：

數(shù)據(jù)并行（Data Parallel, DP）
模型并行（Model Parallel, MP），又可以包括：

a.張量并行（Tensor Parallel, MP）

b.Pipeline并行（Pipeline Parallel, PP）

c.Sequence并行（Sequence Parallel, SP，也可以叫Context Parallel, CP）

Zero Redundancy Data Parallelism （ZeRO）
Expert 并行（Expert Parallel, EP）

關(guān)于分布式系統(tǒng)，???大模型面經(jīng)—分布式訓(xùn)練指南???這篇中有詳細介紹，這里著重講一下Expert 并行。

Expert Parallelism（EP）是針對MoE模型訓(xùn)練的特有并行方式，并且可以無沖突跟3D Parallelism結(jié)合。

MoE會在Transformer每層配置多路專家FFN網(wǎng)絡(luò)，再由路由動態(tài)選擇專家并行處理不同輸入，使每個token只經(jīng)過部分專家，顯著降低FLOPs并保持模型容量。EP就是將每層中的所有專家劃分到不同的設(shè)備（GPU/TPU）上。比如16個專家分配8張卡，每卡持有2個專家。

因此在MoE的訓(xùn)練中，使用 EP 不會減少數(shù)據(jù)并行 (DP) 的數(shù)量，因為每個 EP 處理不同的數(shù)據(jù)。

二、推理加速

這塊的話主要還是PD分離的內(nèi)容，就是把推理的預(yù)填充階段（P）和解碼（D）階段分離，對兩階段分別優(yōu)化，提升GPU利用率減少延遲。

下面是當(dāng)前一些常見推理框架的總結(jié)。

AI Infra—如何從 LLM training 轉(zhuǎn) Inference-AI.x社區(qū)

圖片來源

??http://xhslink.com/a/eGufxsVnYvbcb??

想要入手可以推薦把Ray，vLLM或是sglang系統(tǒng)性的刷一遍。

刷一遍之后，大家可以做一個個人項目可以結(jié)合sglang的開源社區(qū)，根據(jù)自己的深度思考建立一個自己的項目，去嘗試優(yōu)化PD分離的架構(gòu)，比如如何優(yōu)化KV Cache Pool, P和D如何進行更優(yōu)的負載均衡設(shè)計等等。

其實Training 和Inference 在實際崗位中已經(jīng)密不可分了，未來最搶手的大概率是既懂Training又懂推理優(yōu)化的，大家一起卷卷吧~

本文轉(zhuǎn)載自??瓦力算法學(xué)研所??，作者：喜歡瓦力的卷卷?

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-5-13 06:42:35修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

看AI如何大海撈針，探索LLM能力邊界實戰(zhàn)?

ermulong ? 2681瀏覽 ? 0回復(fù)
HippoRAG如何從大腦獲取線索以改進LLM檢索

51CTO內(nèi)容精選 ? 2306瀏覽 ? 0回復(fù)
Imbue-70B 的 AI Infra：從0到1搭建和運維4088 H100集群的最佳實踐

amei2000go ? 5245瀏覽 ? 1回復(fù)
BabyAGI Agent：LLM如何實現(xiàn)？

探索AGI ? 1994瀏覽 ? 0回復(fù)
AutoGPT Agent：LLM如何實現(xiàn)？

探索AGI ? 2210瀏覽 ? 0回復(fù)
LLM微調(diào)的關(guān)鍵要點：如何打造高效、可靠的AI模型

Halo咯咯 ? 2605瀏覽 ? 0回復(fù)
如何借助Cortex運行本地LLM

51CTO內(nèi)容精選 ? 1847瀏覽 ? 0回復(fù)
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw ? 2712瀏覽 ? 0回復(fù)
從0到1開發(fā)AI Agent | Plan-and-Execute 如何解決AI復(fù)雜任務(wù)

AI取經(jīng)路 ? 3525瀏覽 ? 0回復(fù)
長文 | 大模型Post-Training總結(jié)

NLP工作站 ? 2581瀏覽 ? 0回復(fù)
2025 AI Infra展望：重塑基礎(chǔ)設(shè)施的四大關(guān)鍵趨勢

唐克 ? 2833瀏覽 ? 0回復(fù)
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw ? 1992瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

amei2000go ? 4463瀏覽 ? 0回復(fù)
從語言到認知：LLM如何超越人類語言網(wǎng)絡(luò)

頓數(shù)AI ? 1518瀏覽 ? 0回復(fù)
Manus AI ：如何讓AI從 "動口" 到 "動手" 的多智能體架構(gòu)！

Halo咯咯 ? 2093瀏覽 ? 0回復(fù)
從0到1：AI如何“復(fù)制”明星，唱響奇妙旋律

InfonityAI智推星 ? 1785瀏覽 ? 0回復(fù)
從對話到自主行動：AI應(yīng)用如何從 Chat 進化為 Agent？開源項目源碼深度揭秘

卓勝微wjp ? 3306瀏覽 ? 0回復(fù)
AI Infra的起飛前夜，跟兩位創(chuàng)業(yè)者聊了兩小時，從DeepSeek的中國朋友圈，到AI基建演進的價值鐵律

51CTO技術(shù)棧 ? 1227瀏覽 ? 0回復(fù)
Dify從入門到高階系列一：詳解各種工作流節(jié)點，如何降低LLM開發(fā)門檻？

AI博物院 ? 3669瀏覽 ? 1回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

智駕中的VLA方案總結(jié) 6天前發(fā)布
大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：智駕中的VLA方案總結(jié)

社區(qū)精華內(nèi)容

目錄