自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="gfua6"><dfn id="gfua6"></dfn></pre>

<style id="gfua6"><rp id="gfua6"></rp></style>

<sub id="gfua6"></sub>

<abbr id="gfua6"></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維精華

發(fā)布于 2024-6-20 10:47

瀏覽

0收藏

一月份，OpenAI發(fā)布了兩種新的嵌入模型：text-embedding-3-small和text-embedding-3-large。這些模型采用套娃表示學(xué)習(xí)技術(shù)（MRL：Matryoshka Representation Learning）進(jìn)行訓(xùn)練，這使得開發(fā)者可以在嵌入中權(quán)衡性能和成本。

什么是套娃表示學(xué)習(xí)？

套娃表示學(xué)習(xí)是一種用于訓(xùn)練嵌入模型的技術(shù)。它允許在犧牲少量準(zhǔn)確性的情況下?lián)Q取更小的嵌入尺寸。因此，可以以更低的成本存儲更多的信息，并更快地搜索它。

嵌入通過從序列末尾移除維度，并且只使用嵌入向量的子集維度來縮短。例如，你可以只使用原本具有1536維度向量的前8、16、32等維度（或任何其他維度的切片）。

與常見的向量嵌入不同，其中所有維度都同等重要，在套娃嵌入中，向量前面的維度存儲的信息比后面的維度更多，后者只是添加了更多細(xì)節(jié)?？梢酝ㄟ^嘗試在多個(gè)分辨率下對圖像進(jìn)行分類的類比來理解這一點(diǎn)：較低的分辨率提供了更多高層次的信息，而較高的分辨率則添加了更多細(xì)節(jié)。

因此，檢索性能隨著表示大小的增加而提高。然而，OpenAI報(bào)告說，text-embedding-3-large嵌入可以縮短到256的大小，同時(shí)在MTEB基準(zhǔn)測試上仍然優(yōu)于未縮短的、大小為1536的text-embedding-ada-002嵌入。

套娃嵌入的表示大小與檢索性能

OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維-AI.x社區(qū)

MRL（Matryoshka Representation Learning，套娃表示學(xué)習(xí)）實(shí)現(xiàn)的魔力全部在于訓(xùn)練這些模型時(shí)優(yōu)化的損失函數(shù)！如果之前損失函數(shù)是L，對于MRL，將損失函數(shù)分解為各個(gè)向量維度范圍上的損失之和：Loss_Total = L(upto 8d) + L(upto 16d) + L(upto 32d) + ... + L(upto 2048d)。有了這個(gè)新的嵌套損失函數(shù)，模型就有動(dòng)力在向量的每個(gè)子部分捕捉信息。

修改損失函數(shù)后，可以免費(fèi)獲得這些可截?cái)嗟南蛄?，無需任何額外成本——這幾乎適用于所有損失函數(shù)，并且可以對現(xiàn)有的預(yù)訓(xùn)練模型進(jìn)行微調(diào)以輸出MRL向量！這意味著MRL非常容易采用并應(yīng)用于預(yù)訓(xùn)練模型。

套娃嵌入詳細(xì)分析

下面將使用來自DBpedia的100萬個(gè)對象的數(shù)據(jù)集進(jìn)行工作，這些對象已使用新的OpenAI套娃text-embedding-3-large模型和舊的ada-002模型進(jìn)行了嵌入。這將理解信息是如何在套娃向量中與它們的非套娃前身不成比例地存儲的。

在下面的分析中，從上述數(shù)據(jù)集中隨機(jī)抽取了1萬個(gè)向量，并繪制了每個(gè)維度上觀察到的值的標(biāo)準(zhǔn)差。一個(gè)維度上看到的方差或標(biāo)準(zhǔn)差是衡量該維度相對于其他維度攜帶多少信息的良好指標(biāo)。

顯示了使用新text-emb3-large模型和舊ada-002模型嵌入的DBpedia中的10,000個(gè)隨機(jī)樣本，每個(gè)維度的標(biāo)準(zhǔn)差平滑值。

OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維-AI.x社區(qū)

可以看到，標(biāo)準(zhǔn)差是維度索引的多步函數(shù)——早期維度捕獲更多信息，而后面的維度捕獲較少。圖表還顯示，OpenAI嵌入模型在維度={512d, 1024d, 1536d, 3072d}處使用了4個(gè)聚合損失函數(shù)，按照上面詳細(xì)描述的MRL風(fēng)格進(jìn)行訓(xùn)練。

更有趣的是，這些步驟內(nèi)的信息（512d, 1024d, 1536d, 3072d）在各個(gè)維度之間或多或少地均勻擴(kuò)散。這也解釋了MRL論文中的神奇發(fā)現(xiàn)，即你可以實(shí)際上取這些預(yù)指定塊之間的維度（例如750d），仍然可以獲得增量效益。?

可視化套娃向量空間

還可以問一個(gè)有趣的問題：當(dāng)你使用越來越多的套娃嵌入維度時(shí)，底層數(shù)據(jù)表示/向量空間會如何變化？

下面的視頻中，每一幀都是使用僅使用一定數(shù)量的MRL向量維度的主成分分析（PCA）生成的3D向量空間。

從上面鏈接的相同數(shù)據(jù)集中取了10,000個(gè)隨機(jī)樣本，使用OpenAI text-embed-3-large模型進(jìn)行嵌入，然后使用PCA將它們縮減到3D空間；從僅使用4個(gè)維度開始，一直到使用所有3072個(gè)維度。用越來越多的維度可視化套娃向量。

OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維-AI.x社區(qū)

可以看到，當(dāng)使用512個(gè)維度時(shí)，向量空間的結(jié)構(gòu)已經(jīng)被很好地定義了，在這些最初的512個(gè)維度之后，其他維度主要用于在更大的結(jié)構(gòu)內(nèi)收緊數(shù)據(jù)表示。

當(dāng)?shù)竭_(dá)2000+維度時(shí)，只看到數(shù)據(jù)點(diǎn)的小幅度抖動(dòng)，可能是因?yàn)樵隽烤S度的貢獻(xiàn)微乎其微，無法在前3個(gè)主成分中看到。

熟悉 OpenAI 的 Matryoshka

OpenAI 發(fā)布了兩個(gè)新模型，text-embedding-3-small和，它們使用Matryoshka表示學(xué)習(xí)text-embedding-3-large技術(shù)進(jìn)行訓(xùn)練。這些模型的 API 支持一個(gè)參數(shù)，可以使用該參數(shù)控制生成的嵌入的長度。dimensions

如果使用相同的模型但不同的dimensions參數(shù)嵌入相同的文本，會發(fā)現(xiàn)較短的嵌入不是較長嵌入的截?cái)喟姹尽?/p>

# !pip install openai
from openai import OpenAI


openai = OpenAI()


def vectorize(text,
              dimensions,
              model = "text-embedding-3-small"):
   text = text.lower()


   return openai.embeddings.create(input = [text], 
                                   model = model, 
                                   dimensions = dimensions).data[0].embedding


example_text = "Learned representations are a central component in modern ML systems, serving a multitude of downstream tasks."


full = vectorize(example_text, dimensions = 1536)
short = vectorize(example_text, dimensions = 8)


print(full[:8])
print(short)

[-0.001463836757466197, -0.0241670124232769,  0.00683123804628849, -0.013936602510511875, 0.0320618636906147, 0.00872271228581667, 0.031053075566887856, 0.021820487454533577]
[-0.025210261344909668, -0.41620534658432007, 0.11764788627624512, -0.24001678824424744,  0.5521708130836487, 0.15022294223308563, 0.5347974300384521,   0.3757933974266052]

但是，如果檢查它們的余弦相似度，會發(fā)現(xiàn)它們非常相似（或者由于四舍五入而甚至相等）。

from sklearn.metrics.pairwise import cosine_similarity


cosine_similarity([full[:8]], [short])

array([[1.]])

如果仔細(xì)觀察，會發(fā)現(xiàn)嵌入實(shí)際上僅在縮放因子上有所不同（在本例中為 0.058）。

scale = full[0]/short[0]
print(scale)
print([x * scale for x in short])
print(full[:8])

0.05806511632065122
[-0.001463836757466197, -0.0241670118626955, 0.006831238201508919, -0.01393660272831134, 0.03206186249057062, 0.008722712614794586, 0.031053074983168057, 0.021820487334108546]
[-0.001463836757466197, -0.0241670124232769, 0.00683123804628849, -0.013936602510511875, 0.0320618636906147, 0.00872271228581667, 0.031053075566887856, 0.021820487454533577]

請注意 text-embedding-3-large 和 text-embedding-3-small 在默認(rèn)嵌入長度的長度上有所不同：

默認(rèn)尺寸text-embedding-3-small：1536

默認(rèn)尺寸text-embedding-3-large：3072

此外，當(dāng)切片為相同尺寸時(shí)，它們不會產(chǎn)生兼容的嵌入：

large = vectorize(example_text, dimensions = 3072, model = "text-embedding-3-large")
small = vectorize(example_text, dimensions = 1536, model = "text-embedding-3-small")
print(large[:1536])
print(small)


cosine_similarity([large[:1536]], [small])

[0.011070899665355682,   0.014488349668681622, -0.021118611097335815, -0.011152755469083786, 0.011555208824574947, -0.0007622754783369601, ... ]
[-0.001463836757466197, -0.0241670124232769,    0.00683123804628849,  -0.013936602510511875, 0.0320618636906147,    0.00872271228581667,   ... ]
array([[-0.00149749]])

如果需要在生成嵌入維度后更改嵌入維度，則需要對嵌入維度進(jìn)行規(guī)范化。OpenAI文檔對此進(jìn)行了更全面的解釋。

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

已于2024-6-20 15:51:37修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI競對用256輪對話「灌醉」大模型，Claude被騙造出炸彈！

duhorse ? 2987瀏覽 ? 0回復(fù)
借助神經(jīng)結(jié)構(gòu)光，浙大實(shí)現(xiàn)動(dòng)態(tài)三維現(xiàn)象的實(shí)時(shí)采集重建

輕薄滴假象 ? 2434瀏覽 ? 0回復(fù)
OpenAI 是如何估計(jì)與分析模型計(jì)算量的？

angel ? 3621瀏覽 ? 0回復(fù)
Imbue-70B 的 AI Infra：從0到1搭建和運(yùn)維4088 H100集群的最佳實(shí)踐

amei2000go ? 5266瀏覽 ? 1回復(fù)
高維多變量下的Transformer時(shí)序預(yù)測建模方法

海因斯DK ? 3318瀏覽 ? 0回復(fù)
極限套娃，Agent自動(dòng)設(shè)計(jì)Agentic系統(tǒng)！

PaperAgent ? 2242瀏覽 ? 0回復(fù)
OpenAI文本嵌入模型入門指南

51CTO內(nèi)容精選 ? 3322瀏覽 ? 0回復(fù)
蘋果重磅開源俄羅斯套娃擴(kuò)散模型！MDM：多任務(wù)高分辨率生成又快又好！

angel ? 2041瀏覽 ? 0回復(fù)
開源新發(fā)布｜PolarDB-X v2.4.1 增強(qiáng)企業(yè)級運(yùn)維能力

DataAI知識分享者 ? 1841瀏覽 ? 0回復(fù)
應(yīng)對生成式AI的復(fù)雜性：HPE如何簡化AI平臺的構(gòu)建與運(yùn)維

chengganfei ? 2245瀏覽 ? 0回復(fù)
僅用5M數(shù)據(jù)超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發(fā)布

51CTO技術(shù)棧 ? 1860瀏覽 ? 0回復(fù)
大模型語義分析之嵌入(Embedding)模型

AI探索時(shí)代 ? 2977瀏覽 ? 0回復(fù)
AI 運(yùn)維的新時(shí)代：從 MLOps 到 LLMOps深度解析

51CTO內(nèi)容精選 ? 3498瀏覽 ? 0回復(fù)
RAG升級二維戰(zhàn)士！通義實(shí)驗(yàn)室放大招

NLP前沿1 ? 1543瀏覽 ? 0回復(fù)
快速學(xué)會一個(gè)機(jī)器學(xué)習(xí)算法：t-SNE降維

寶寶數(shù)模AI ? 1599瀏覽 ? 0回復(fù)
ZeroHSI-一種零樣本的四維人類-場景交互合成方法

shizhi02 ? 1094瀏覽 ? 0回復(fù)
UB-Mesh：一種分層局部化的n維全互連數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)

chengganfei ? 5339瀏覽 ? 0回復(fù)
哈佛大學(xué)：高維回歸中的Scaling Law是重整化的自然結(jié)果

ceesoft ? 1000瀏覽 ? 0回復(fù)
騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

CourseAI ? 1126瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

首次全面復(fù)盤AI Agents記憶系統(tǒng)：3大類，6種操作！ 1天前發(fā)布
Agentic RAG-R1：讓大模型從「檢索助手」躍升為「思考+搜索王者」！ 2025-05-06 00:47:01發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：微軟研究院MRP：大模型動(dòng)態(tài)選擇最佳解題策略的元推理提示，比CoT、ToT更有效

下一篇：清華、北大與微軟推出Glyph-ByT5-v2：渲染高視覺美感文本，海報(bào)驚艷，媲美DALL-E3！

社區(qū)精華內(nèi)容

目錄

<sub id="16ppl"><p id="16ppl"></p></sub>

<cite id="16ppl"></cite>

<sub id="16ppl"></sub>