瘋狂馬斯克的“極限”計劃居然成功了?!“下云”后成本降低 60%,部分功能代碼精簡 90%,30 天急速遷移服務(wù)器
整理 | 凌敏、核子可樂
2022 年 10 月 27 日,經(jīng)歷了長達(dá)半年的拉鋸戰(zhàn)之后,馬斯克終于將 Twitter(現(xiàn)已更名 X)收歸囊中,這筆 440 億美元的收購案也終于迎來了大結(jié)局。入主 Twitter 后,馬斯克進(jìn)行了大刀闊斧的改革,如今一年過去了,Twitter 發(fā)生了哪些變化?
2023 年 10 月 27 日,X 工程技術(shù)發(fā)布帖子稱,過去一年是 X(Twitter)平臺全面推進(jìn)工程技術(shù)探索的一年。除了大家在 X 應(yīng)用端看到的直觀調(diào)整之外,團(tuán)隊還在幕后完成了以下一系列重要改進(jìn)。其中包括:
關(guān)閉薩克拉門托數(shù)據(jù)中心,并重新配置了 5200 臺機(jī)架和 14.8 萬臺服務(wù)器,每年節(jié)約超 1 億美元。共釋放出 48 兆瓦的功率配額、拆除重達(dá) 6 萬磅的網(wǎng)絡(luò)梯架,必要設(shè)備后續(xù)將被重新配置至其他數(shù)據(jù)中心。
優(yōu)化了 X 的云服務(wù)使用方式,著手將更多工作負(fù)載遷往本地基礎(chǔ)設(shè)施。這一轉(zhuǎn)變使 X 每月的云成本降低了 60%。所有媒體 /blob 工作均已下云,這讓 X 的整體云數(shù)據(jù)存儲量縮減了 60%,還成功將云數(shù)據(jù)處理成本降低了 75%。
此外,X 還發(fā)生了以下變化:
圍繞單一產(chǎn)品框架整合了 For you(為您推薦)、Following(關(guān)注)、Search(搜索)、Profiles(個人資料)、Lists(列表)、Communities(社區(qū))和 Explore(探索)等技術(shù)棧。
從頭開始全面重建了 For you 服務(wù)與排名系統(tǒng),代碼行數(shù)從 700K 縮減至 70K,精簡比例高達(dá) 90%,計算占用量降低 50%,根據(jù)請求得分計算的帖子吞吐量增長了 80%。
統(tǒng)一了 For you 和視頻個性化及排名模型,顯著提高了視頻推薦的質(zhì)量。
重構(gòu)了技術(shù)棧內(nèi)的 API 中間件層,通過刪除超 10 萬行代碼和數(shù)千個未實(shí)際使用的內(nèi)部端點(diǎn)、清理未采用的客戶端服務(wù)等方式完成了架構(gòu)簡化。
精簡后的元數(shù)據(jù)獲取延遲降低了 50%,全局 API 超時錯誤減少了 90%。
阻斷 bot 和內(nèi)容抓取的速度較 2022 年提高了 37%。平均而言,X 每天阻斷超 100 萬次 bot 注冊攻擊,并將直接垃圾郵件減少了 95%。
構(gòu)建本地 GPU 超級計算集群,并設(shè)計、開發(fā)和交付了 43.2 Tbps 的新網(wǎng)絡(luò)體系架構(gòu)以支持這些集群。
擴(kuò)展網(wǎng)絡(luò)主干容量與冗余,每年節(jié)約 1390 萬美元。
開始進(jìn)行自動峰值流量故障轉(zhuǎn)移測試,用以持續(xù)驗(yàn)證整個平臺的可擴(kuò)展性與可用性。
自接手 X 以來,馬斯克為了縮減成本挖空心思,其中包括裁員、推行“極端硬核”企業(yè)文化、拖欠辦公室租金……在公司的運(yùn)營開支方面,馬斯克去年剛接手 X 時便指示團(tuán)隊通過削減云服務(wù)和額外的服務(wù)器空間,力爭每天在基礎(chǔ)設(shè)施上節(jié)省 300 萬美元。
1省錢****一:云服務(wù)太貴了,馬斯克要“下云”2020 年 12 月,Twitter 宣布將使用亞馬遜云科技為其主時間線提供支持。當(dāng)時的消息稱這將是一份“多年期”協(xié)議,但沒有透露任何具體數(shù)字。彼時 Twittr 公司 CTO Parwal Agrawal 在一份聲明中表示,Twitter 和亞馬遜云科技將合作擴(kuò)展該社交媒體的基礎(chǔ)設(shè)施、加快功能發(fā)布速度,并擴(kuò)大其功能組合。
據(jù) The Information 2023 年 3 月報道,這筆交易為期五年半,合同總值 5.1 億美元。根據(jù)報道,無論是否使用相應(yīng)容量,Twitter 都同意向亞馬遜云科技付費(fèi)。而且亞馬遜云科技不愿就具體條款進(jìn)行重新談判。根據(jù)交易細(xì)則,Twitter 的月度亞馬遜云科技支出大約在 773 萬美元。
如今,Twitter 已經(jīng)不再使用亞馬遜云科技的實(shí)時時間線功能,轉(zhuǎn)而選擇了 AWS for Spaces 等其他服務(wù)。Twitter 后續(xù)可能使用 Google Cloud Platform(GCP)運(yùn)行其時間線業(yè)務(wù)。根據(jù) Twitter 與亞馬遜云科技之間簽訂的合同細(xì)節(jié),馬斯克執(zhí)掌的社交媒體巨頭還計劃使用:
亞馬遜云科技云基礎(chǔ)設(shè)施,用于補(bǔ)充 Twitter 的本地功能,幫助該公司在全球范圍內(nèi)擴(kuò)展其實(shí)時服務(wù)。
采用 Amazon Elastic Compute Cloud (Amazon EC2) 服務(wù)中基于 Arm 架構(gòu)的亞馬遜云科技 Graviton 2 實(shí)例,以運(yùn)行其云工作負(fù)載。
借助亞馬遜云科技容器服務(wù),Twitter 將在其混合基礎(chǔ)設(shè)施當(dāng)中統(tǒng)一構(gòu)建并交付新的功能和服務(wù)。
Amazon CloudFront,即亞馬遜云科技的超高速內(nèi)容交付網(wǎng)絡(luò)(CDN)服務(wù),能夠以低延遲、高速率向全球客戶分發(fā)數(shù)據(jù)、應(yīng)用程序、視頻和 API。
Amazon DynamoDB,即亞馬遜云科技的鍵值數(shù)據(jù)庫,可大規(guī)模提供個位數(shù)毫秒級性能。
目前,Twitter 已經(jīng)與谷歌簽訂了一份價值 10 億美元的合同,且相關(guān)承諾早在與亞馬遜云科技合作之前就已敲定。另據(jù)報道,Twitter 將在 2023 年向谷歌支付總計 3 億美元,這也是總價值約 10 億美元的多年期合作協(xié)議的一部分。
隨著馬斯克入主 Twitter 并開啟削減成本計劃,Twitter 的基礎(chǔ)設(shè)施支出大幅減少。根據(jù)題為“深度削減成本”的 Slack 內(nèi)部消息,Twitter 計劃從云服務(wù)和服務(wù)器容量方面入手,省下 150 萬到 300 萬美元。此外,Twitter 還試圖與亞馬遜云科技、Google Cloud 以及甲骨文就合同內(nèi)容展開重新談判,但供應(yīng)商們紛紛表示拒絕。
根據(jù)最新公告,馬斯克通過將工作從云端轉(zhuǎn)移到 Twitter 自己的服務(wù)器上,每月的云成本降低了 60%,整體云數(shù)據(jù)存儲量縮減了 60%,還成功將云數(shù)據(jù)處理成本降低了 75%。
下云就能解決問題?近年來,為了節(jié)省成本,不少公司開始下云。不過,并非所有公司都適合下云,需要結(jié)合自身實(shí)際業(yè)務(wù)情況來做判斷。比如,GitLab 在 2016 年底時候就表示計劃要“下云”,不過團(tuán)隊“在收到數(shù)百條充滿建議和警告的評論和郵件后,最后還是決定將 GitLab.com 保留在云端。
此外,37signals 旗下一款流行的基于云服務(wù)的項(xiàng)目管理軟件 Basecamp 也曾想“下云”。Basecamp 的上云歷程已經(jīng)超過十年,而且其前兩年發(fā)布的產(chǎn)品 HEY 也一直在云端運(yùn)行。但 Basecamp & HEY 聯(lián)合創(chuàng)始人 David Heinemeier Hansson 發(fā)文表示將要“下云”。
“我們用過亞馬遜云科技、也用過谷歌云,試過裸虛擬機(jī)、也體驗(yàn)了 Kubernetes 容器編排。我們知道云能提供哪些功能,其中大部分都有實(shí)際應(yīng)用?,F(xiàn)在我們終于得出結(jié)論:對于像我們這樣一家增長穩(wěn)定的中型企業(yè)來說,租賃基礎(chǔ)設(shè)施資源總體上看是筆糟糕的買賣。云服務(wù)商做出的降低復(fù)雜性、控制運(yùn)營成本等承諾從來就沒能實(shí)現(xiàn),所以我們正在籌劃脫離云端、重歸本地?!?/p>
不過,在 David Heinemeier Hansson 撰寫的關(guān)于離開云計算的思考中,他特別提到了兩個情況是不能離開云計算的。一種是流量極低,一種是復(fù)雜不均衡:
第一個極端是當(dāng)您的應(yīng)用程序非常簡單且流量很低,通過使用完全托管的服務(wù)來降低復(fù)雜性確實(shí)能夠節(jié)省成本。這是 Heroku 鋪就的道路,也是 Render 等其他服務(wù)商所追隨的道路。當(dāng)您沒有客戶時,這是一個絕佳的起點(diǎn),即使在您開始擁有一些客戶后,它仍能推動您的業(yè)務(wù)發(fā)展。(然后,一旦使用量激增,賬單飆升到天際線上時,您可能會面臨一個好問題,但這是一個合理的權(quán)衡。)
第二個極端是當(dāng)您的負(fù)載非常不規(guī)則時。當(dāng)您的使用量出現(xiàn)劇烈波動或巨大峰值時。當(dāng)基線只是您最大需求的一小部分時?;蛘弋?dāng)您不知道您需要十臺服務(wù)器還是一百臺時。在這種情況下,沒有什么比云端更好了,就像我們在推出 HEY 時學(xué)到的那樣,突然有 30 萬用戶在三周內(nèi)注冊嘗試我們的服務(wù),而我們的預(yù)測是六個月內(nèi)有 3 萬用戶。
為了節(jié)省成本,去年 12 月,馬斯克還關(guān)閉 Twitter 加州數(shù)據(jù)中心。
據(jù)悉,在平安夜前夕,納斯克飛往加利福尼亞州的薩克拉門托——Twitter 三大主要計算存儲設(shè)施之一的所在地——切斷了維持該社交網(wǎng)絡(luò)平穩(wěn)運(yùn)行的服務(wù)器。有知情人士表示,雖然有員工擔(dān)心關(guān)閉這些服務(wù)器可能導(dǎo)致各種問題,但節(jié)省資金是首要任務(wù)。
隨后,世界各地的用戶報告 Twitter 服務(wù)中斷。一些用戶反饋 Twitter 出現(xiàn)很多奇怪的錯誤消息,比如看到空白頁面、無法回復(fù)推文或關(guān)注熱門話題,還有人被迫退出登陸。有熟悉 Twitter 基礎(chǔ)設(shè)施的人士表示,如果薩克拉門托的設(shè)施仍在運(yùn)行,它就可以在其他數(shù)據(jù)中心出現(xiàn)故障時提供備份計算能力,從而幫助緩解問題。
此外有消息稱,當(dāng)時馬斯克為了省錢,計劃將薩克拉門托的服務(wù)器搬到波特蘭,基礎(chǔ)設(shè)施團(tuán)隊稱這項(xiàng)工作至少要九個月才能完成,馬斯克一怒之下直接搭乘私人飛機(jī)跑去機(jī)房,拔了網(wǎng)路線與電源就搬上大卡車開始轉(zhuǎn)移,最后整個工作一個月就完成了。
在今年 9 月出版的《埃隆·馬斯克傳》中,詳細(xì)講述了馬斯克親自遷移服務(wù)器的故事(節(jié)選,經(jīng)編輯):
2022 年 12 月 22 日深夜,位于 X 公司 10 樓的會議室,馬斯克正在與兩名基礎(chǔ)設(shè)施經(jīng)理進(jìn)行緊張的交談。
位于薩克拉門托的一家數(shù)據(jù)服務(wù)公司允許 X 公司延長其服務(wù)器租約,以便在 2023 年有序遷出。一名顯得有些緊張的基礎(chǔ)設(shè)施經(jīng)理告訴馬斯克:“今天早上,他們回來告訴我們說這個計劃不再適用,因?yàn)樗麄冋J(rèn)為我們在財務(wù)上不再穩(wěn)健。”
這個設(shè)施每年花費(fèi) X 公司超過 1 億美元。馬斯克想通過將服務(wù)器遷移到 X 公司在俄勒岡州波特蘭的其他設(shè)施來節(jié)省這筆費(fèi)用。另一位經(jīng)理表示這項(xiàng)工作不能立即進(jìn)行。她平靜地說:“我們至少需要六到九個月的時間,因?yàn)樗_克拉門托仍然需要服務(wù)流量?!?/p>
馬斯克沉默了幾秒鐘,然后宣布:“你們有 90 天時間來完成這項(xiàng)任務(wù)。如果你們做不到,你們可以辭職?!边@名經(jīng)理開始詳細(xì)解釋遷移服務(wù)器到波特蘭的障礙。“機(jī)架密度不同,電力密度也不同,”她說?!八詸C(jī)房需要進(jìn)行升級?!彼_始詳細(xì)介紹更多原因,但被馬斯克打斷。“這讓我的大腦感到壓抑,”馬斯克說道,“你知道頭爆炸的表情符號嗎我的腦袋現(xiàn)在就是這個感覺。真是一堆屁話。波特蘭明顯有大量的空間,從一個地方遷移到另一個地方簡直小菜一碟?!?/p>
“你們需要做的就是將服務(wù)器遷移到波特蘭,”馬斯克說道,“如果超過 30 天,我會很震驚?!彼nD了一下,重新計算?!罢乙患野峒夜荆\(yùn)輸電腦需要一個星期,然后再花一個星期來連接它們。兩周。就應(yīng)該這樣?!?/p>
所有人都默不作聲。但馬斯克仍在發(fā)火?!叭绻銈冏饬艘粋€ U-Haul (一家租車公司),你們可能自己就能完成?!眱晌?X 公司的經(jīng)理看著他,試圖判斷他是否是認(rèn)真的。馬斯克的兩位親密助手 Steve Davis 和 Omead Afshar 也在場。他們多次看到過他這樣,知道他可能真的這么認(rèn)為。
12 月 23 日星期五晚上,James 和他的弟弟 Andrew(馬斯克的表弟)與馬斯克一起從舊金山飛往奧斯汀,當(dāng)飛機(jī)飛過拉斯維加斯時,James 提出了一個建議,他們現(xiàn)在就可以移動服務(wù)器。一個名為 Alex 的來自烏茲別克斯坦的 X 員工幫助他們進(jìn)入了 X 公司的數(shù)據(jù)中心,內(nèi)部共有大約 5200 個冰箱大小的機(jī)架,每個機(jī)架有 30 臺電腦。每個機(jī)架重約 2500 磅,高 8 英尺。但馬斯克認(rèn)為“這些東西看起來并不難移動”,他向保安借了一把小刀,抬起地板上的一個通風(fēng)口,這讓他可以撬開地板面板。然后他爬到服務(wù)器下面,用小刀撬開了一個電箱,拔掉了服務(wù)器插頭,等著看會發(fā)生什么。沒什么異常發(fā)生。服務(wù)器已經(jīng)準(zhǔn)備好遷移。
第二天——圣誕前夜,馬斯克召集了增援。Ross Nordeen,與他的朋友 James 在 Tesla 工作,從舊金山驅(qū)車而來。他在聯(lián)合廣場的 Apple Store 花了 2000 美元,買下了所有的 AirTags,這樣服務(wù)器在遷移過程中就可以被跟蹤。然后他去了家得寶,花了 2500 美元買了扳手、斷線鉗、頭燈和擰下地震螺栓所需的工具。
Steve Davis,馬斯克的忠誠副手,找人租了一輛半掛車,并安排了搬家車。其他來自 SpaceX 的援助隊員也已到達(dá)。這些服務(wù)器機(jī)架都有輪子,所以團(tuán)隊能夠斷開其中四個并將它們推到待命的卡車上。這表明,這五千兩百多個服務(wù)器可能在幾天內(nèi)全部移動。“伙計們干得好!”馬斯克興高采烈地說。
到這周結(jié)束時,他們已經(jīng)使用了薩克拉門托所有可用的卡車。盡管該地區(qū)受到了雨的襲擊,他們在三天內(nèi)移動了 700 多個機(jī)架。該設(shè)施之前的記錄是一個月移動 30 臺。這仍然留下了大量的服務(wù)器在設(shè)施中,但這群人已經(jīng)證明了它們可以被快速移動。其余的部分在 1 月份由 X 公司的基礎(chǔ)設(shè)施團(tuán)隊處理。
馬斯克的瘋狂舉動引發(fā)了不少爭議。網(wǎng)友海狗油 90 認(rèn)為,“幾乎沒有人明白數(shù)據(jù)中心搬遷要搬的是服務(wù)、數(shù)據(jù),而不是服務(wù)器本身,也不明白 X 這樣的公司,服務(wù)連續(xù)性、數(shù)據(jù)一致性值多少錢?!?/p>
網(wǎng)友酷憋哥評論稱:“除了證明馬斯克膽子大,這個案例沒有什么正面的意義,試想一下,哪個普通打工人可以做出這么魯莽的決定?他或她是否能承擔(dān)由這種行為導(dǎo)致的嚴(yán)重后果?所以最終只有老板能做這種事情,只要他愿意。”
來源:AI前線
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。