你被大模型DDoS了嗎?大模型“DDoS攻擊力指數(shù)”TOP10榜單出爐
想象一下,你是一個(gè)默默耕耘的開(kāi)源社區(qū)管理員,服務(wù)器日復(fù)一日地為開(kāi)發(fā)者提供支持,突然有一天,流量日志里冒出一堆不速之客——不是黑客,不是爬蟲(chóng)愛(ài)好者,而是AI大模型的訓(xùn)練機(jī)器人。這些家伙像餓狼一樣撲向你的數(shù)據(jù),把帶寬吃得干干凈凈,甚至連頁(yè)面加載都卡到懷疑人生。很遺憾,這不是陰謀論科幻片,而是廣大中小互聯(lián)網(wǎng)企業(yè)/服務(wù)正面臨的現(xiàn)實(shí)威脅。
DDoS新勢(shì)力:AI爬蟲(chóng)
就在本周一,SourceHut——一家開(kāi)源Git托管服務(wù)平臺(tái),在其狀態(tài)頁(yè)面上無(wú)奈喊話:“我們持續(xù)遭受激進(jìn)的LLM(大語(yǔ)言模型)爬蟲(chóng)干擾,服務(wù)屢屢受阻?!睘榱俗跃?,他們祭出了名為“Nepenthes”的捕蟲(chóng)器,試圖困住這些為AI訓(xùn)練而生的爬蟲(chóng),同時(shí)還直接封禁了Google Cloud和Microsoft Azure等云服務(wù)商的IP——因?yàn)檫@些地方正是爬蟲(chóng)流量的重災(zāi)區(qū)。
SourceHut坦言,雖然這些措施暫時(shí)控制住了局面,但也可能誤傷正常用戶,體驗(yàn)降級(jí)在所難免。
這不是SourceHut第一次被“爬蟲(chóng)DDoS”搞得焦頭爛額。早在2022年,他們就曾公開(kāi)diss谷歌的Go Module Mirror,指責(zé)其無(wú)節(jié)制的流量請(qǐng)求形同“拒絕服務(wù)攻擊”。而如今,隨著生成式AI熱潮席卷全球,類(lèi)似的故事在互聯(lián)網(wǎng)的各個(gè)角落反復(fù)上演。
維修網(wǎng)站iFixit去年7月就曾抱怨Anthropic的Claudebot過(guò)度爬?。辉仆泄芊?wù)Vercel則在2024年12月披露,單月內(nèi)OpenAI的GPTbot發(fā)起了5.69億次請(qǐng)求,Anthropic的Claudebot也有3.7億次,合計(jì)占谷歌Googlebot請(qǐng)求量的20%。Diaspora開(kāi)發(fā)者Dennis Schubert甚至爆料,他服務(wù)器60天內(nèi)70%的流量都來(lái)自LLM訓(xùn)練機(jī)器人。
這些AI爬蟲(chóng)為何如此猖狂?答案很簡(jiǎn)單:數(shù)據(jù)饑渴。生成式AI的崛起讓OpenAI、Anthropic、Google等玩家對(duì)互聯(lián)網(wǎng)內(nèi)容的渴求達(dá)到了前所未有的高度。無(wú)論是ChatGPT的對(duì)話能力,還是Claude的推理水平,背后都需要海量數(shù)據(jù)喂養(yǎng)。然而,這種“拿來(lái)主義”正在給中小型互聯(lián)網(wǎng)服務(wù)帶來(lái)沉重負(fù)擔(dān),甚至演變成一場(chǎng)無(wú)形的DDoS危機(jī)。
大模型“DDoS攻擊力指數(shù)”TOP10榜單
為了更直觀地呈現(xiàn)這些AI爬蟲(chóng)的“破壞力”,GoUpSec基于近期互聯(lián)網(wǎng)相關(guān)報(bào)道與公開(kāi)數(shù)據(jù),整理了一份“大模型DDoS攻擊力指數(shù)TOP10榜單”。指數(shù)綜合了爬蟲(chóng)的請(qǐng)求量、覆蓋網(wǎng)站范圍、被封禁頻率以及對(duì)服務(wù)影響的嚴(yán)重程度等維度。以下是榜單及簡(jiǎn)評(píng):
1.Bytespider(字節(jié)跳動(dòng))
指數(shù):95
點(diǎn)評(píng):字節(jié)跳動(dòng)的爬蟲(chóng)王者,據(jù)Cloudflare統(tǒng)計(jì),其請(qǐng)求量和覆蓋范圍均居首位,為自家AI產(chǎn)品豆包囤糧。被封禁率也高,其激進(jìn)作風(fēng)無(wú)人能敵。
2.GPTbot(OpenAI)
指數(shù):90
點(diǎn)評(píng):OpenAI的明星爬蟲(chóng),單月5.69億次請(qǐng)求讓人咋舌。雖然承諾尊重robots.txt,但偽裝流量和過(guò)載投訴仍讓它穩(wěn)坐榜眼。
3.Claudebot(Anthropic)
指數(shù):85
點(diǎn)評(píng):Anthropic的訓(xùn)練先鋒,3.7億次月請(qǐng)求+iFixit百萬(wàn)次單日轟炸,堪稱(chēng)“溫柔殺手”。被封禁率稍低,但破壞力不容小覷。
4.Amazonbot(亞馬遜)
指數(shù):80
點(diǎn)評(píng):為Alexa索引內(nèi)容而生,流量雖不及前三,但開(kāi)發(fā)者頻頻抱怨其過(guò)載行為,偽裝流量也讓人生疑。
5.Google-Extended(谷歌)
指數(shù):75
點(diǎn)評(píng):谷歌專(zhuān)為AI訓(xùn)練設(shè)計(jì)的爬蟲(chóng),13.6%的頂級(jí)網(wǎng)站封禁率顯示其影響力。雙重身份(搜索+AI)讓網(wǎng)站主投鼠忌器。
6.AppleBot(蘋(píng)果)
指數(shù):70
點(diǎn)評(píng):蘋(píng)果為AI功能收集數(shù)據(jù)的代表,透明度較高,但DoubleVerify數(shù)據(jù)顯示其貢獻(xiàn)了2024年16%的無(wú)效流量。
7.Meta AI Bot(Meta)
指數(shù):65
點(diǎn)評(píng):Meta的AI野心驅(qū)使其爬蟲(chóng)活躍,雖然自稱(chēng)目的明確,但多用途屬性讓封禁變得復(fù)雜。
8.CCBot(Common Crawl)
指數(shù):60
點(diǎn)評(píng):開(kāi)源數(shù)據(jù)集的???,22.1%的頂級(jí)網(wǎng)站封禁率說(shuō)明其影響廣泛,但攻擊性稍遜商業(yè)爬蟲(chóng)。
9.OAI-SearchBot(OpenAI)
指數(shù):55
點(diǎn)評(píng):OpenAI的新兵,甫一亮相就被14家主流媒體封殺,潛力未完全釋放。
10.Perplexity AI Bot(Perplexity)
指數(shù):50
點(diǎn)評(píng):AI搜索新貴,偽裝成普通瀏覽器偷偷摸摸爬數(shù)據(jù),惹惱了不少網(wǎng)站主。
面對(duì)“白嫖”:躺平還是對(duì)抗?
瘋狂的AI爬蟲(chóng)其實(shí)也有自己的行規(guī),2023年8月,OpenAI率先承諾GPTbot會(huì)遵守robots.txt標(biāo)準(zhǔn),其他廠商紛紛跟進(jìn)。然而現(xiàn)實(shí)卻是,承諾歸承諾,執(zhí)行靠自覺(jué)。Diaspora的Schubert就發(fā)現(xiàn),他的服務(wù)器日志里滿是偽裝成GPTbot的“山寨爬蟲(chóng)”,IP來(lái)自AWS甚至美國(guó)居民網(wǎng)絡(luò),顯然是惡作劇者趁亂起哄。DoubleVerify的報(bào)告更指出,2024下半年因AI爬蟲(chóng)導(dǎo)致的“一般無(wú)效流量”(GIVT)激增86%,其中16%直接來(lái)自GPTbot、Claudebot等知名玩家。
這背后,是AI公司與網(wǎng)站主之間的博弈。一方面,AI廠商需要數(shù)據(jù)喂養(yǎng)模型,互聯(lián)網(wǎng)是天然的“糧倉(cāng)”;另一方面,網(wǎng)站主卻面臨帶寬擠占、隱私爭(zhēng)議甚至版權(quán)糾紛的困境。SourceHut封禁云服務(wù)商、iFixit更新robots.txt,都是被動(dòng)防御的縮影。更棘手的是,像Googlebot這樣身兼搜索與AI雙重任務(wù)的爬蟲(chóng),讓網(wǎng)站主在封禁與曝光之間左右為難(編者:谷歌2023年發(fā)布robots.txt的Google-Extended產(chǎn)品令牌,經(jīng)允許網(wǎng)站運(yùn)營(yíng)者單獨(dú)封鎖爬蟲(chóng)而不影響網(wǎng)頁(yè)檢索和排名)。
AI爬蟲(chóng)的“DDoS效應(yīng)”暴露了生成式AI熱潮下的隱憂。對(duì)于中小型服務(wù)商來(lái)說(shuō),這不僅是技術(shù)挑戰(zhàn),更是生存問(wèn)題。SourceHut的“Nepenthes”捕蟲(chóng)器、Cloudflare的“一鍵屏蔽AI爬蟲(chóng)”功能,都是技術(shù)社區(qū)的反擊嘗試。但長(zhǎng)遠(yuǎn)看,光靠封禁和對(duì)抗顯然不是解藥。
或許,未來(lái)的出路在于平衡——AI公司需要更透明的數(shù)據(jù)采集政策,甚至通過(guò)授權(quán)或付費(fèi)模式與網(wǎng)站主合作;而網(wǎng)站主則需在保護(hù)自身權(quán)益與擁抱AI生態(tài)之間找到折中點(diǎn)。否則,這場(chǎng)爬蟲(chóng)與服務(wù)的“貓鼠游戲”,只會(huì)讓互聯(lián)網(wǎng)的生態(tài)雪上加霜。
你被大模型DDoS了嗎?也許下一個(gè)喊救命的,就是你常上的那個(gè)小眾論壇。