互聯(lián)網(wǎng)的奇葩事總是能刷新人類對科技公司下限的想象力。最近,Meta(原來的Facebook)被指控做了一件最尷尬的 AI 訓(xùn)練操作:用 2396 部成人電影來喂養(yǎng)自家的大模型。是的,你沒看錯。AI 界的巨頭,居然靠著「片庫」給模型打基礎(chǔ)。事情是這樣的,兩家成人內(nèi)容公司 Strike 3 Holdings 和 Counterlife Media 最近在美國加州聯(lián)邦法院把 Meta 告了。指控 Meta 從 2018 年起,就通過盜版下載它們公司付費(fèi)內(nèi)容 2396 部用于訓(xùn)練 AI 模型,其中包括視頻生成類模型 Meta Movie Gen 和大語言模型 LLaMA。重點(diǎn)是 Meta 不單單是自己用,還做種分享,累計分發(fā)下載超過了 10 萬次,把「互聯(lián)網(wǎng)精神」貫徹到位。讓人繃不住的是,兩家對 Meta 提起律師函后,后者還是沒關(guān)閉 BT 鏈接,仍然在繼續(xù)分發(fā)。(好人一生平安)按美國的版權(quán)法中的故意侵權(quán)來算,每部作品最高索賠 15 萬美元,所以總計合起來就是 3.59 億美元(約合人民幣 25 億元)。看到這可能有同學(xué)疑惑了,網(wǎng)上資源那么多,為啥要用成人電影訓(xùn)練呢?Strike 3 Holdings在訴狀里解釋了這個問題;都是法務(wù)的話術(shù),中譯中的意思是它們的內(nèi)容很高清、整個故事富有邏輯、表情自然、人物對話連貫、場景和人物變動非常少。相較于網(wǎng)上良莠不齊的視頻內(nèi)容,高素質(zhì)的「學(xué)習(xí)資料」對于 AI 來說是最好的「黃金飼料」,特別是視頻生成類的 AI 模型。Meta 之所以敢這么干還有兩個最重要的原因:下載途徑非常好獲取以及成人內(nèi)容維護(hù)版權(quán)的難度還是比較高的。不過這回 Meta 算是碰到刺頭了,Strike 3 Holdings 就是最愛維權(quán)的那個成人公司,為此還專門開發(fā)了自己的「VXN Scan」追蹤系統(tǒng)。從 2017 年到 2023 年,它就對這類型的侵權(quán)提起了 9500 多次訴訟,也就是說,基本每天都在打官司,并且依靠這個模式達(dá)到每年數(shù)千萬美元的「維權(quán)費(fèi)」收入。目前 Meta 已經(jīng)承認(rèn)侵權(quán)了,不過阿紅估摸著可能會庭外調(diào)解砍砍價把「車票錢」給補(bǔ)了。但賠錢只是一個方面,更大的問題是形象。一個全球科技巨頭,被指控「偷偷下片訓(xùn)練 AI」,就算最后能擺平這次事件,想洗白也很難。大家能想象股東大會上,投資人問扎克伯格:咱們 AI 的核心競爭力是什么?扎克伯格甩出一句:「你懂的」的場面嗎?而且盜版這事兒 Meta 已經(jīng)不是第一次干了。在 2023 年 Meta 就被指控用盜版網(wǎng)站的書來訓(xùn)練自己的大語言模型,還被自家的員工吐槽,雖然最終這件案子法院判Meta勝出,不過法院也不支持 Meta 的做法。同時盜版侵權(quán)這種事兒在 AI 圈已經(jīng)屢見不鮮了:AI 巨頭 OPEN AI 和微軟也在 2023 年被起訴盜用書籍和網(wǎng)站文章來訓(xùn)練 AI。然后就是濃眉大眼的蘋果和 NVIDIA 也同樣被曝出無授權(quán)使用 YouTube 上的視頻進(jìn)行 AI 訓(xùn)練。最后還有 Google,手握 YouTube 這么大一張牌,有多少內(nèi)容用來訓(xùn)練 AI 咱們也不得而知。所以,AI訓(xùn)練這行「先上車,后補(bǔ)票」幾乎都成為行業(yè)共識了。不過這次Meta被抓的現(xiàn)行要給同行們敲個警鐘,賠錢可能可以解決一時的麻煩,但名聲臭了,那就真的玩完了。數(shù)據(jù)來源:wired、apnews、torrentfreak,圖源網(wǎng)絡(luò)。
本文編輯:@ 阿紅
?本文著作權(quán)歸電手所有,未經(jīng)電手許可,不得轉(zhuǎn)載使用。