揭秘!村上春樹、史蒂芬·金盜版書成AI訓練數據,連AI巨頭也難逃此命運

AI快訊 2年前 (2023) AI工具箱
837 0
揭秘!村上春樹、史蒂芬·金盜版書成AI訓練數據,連AI巨頭也難逃此命運

為了訓練大型語言模型,包括OpenAI、Meta、谷歌、微軟在內的公司未經許可,從互聯網上搜集了大量受版權保護的作品,游走在版權法的灰色地帶中。

目前,OpenAI正面臨大量的法律訴訟,原告指控該公司訓練數據集中的大部分書籍來自盜版來源和非授權網站。一旦被判侵權,公司可能會面臨巨額罰款或重新設計算法的風險。這也導致如今AI公司越來越不愿意分享AI訓練數據的詳細信息。

然而,一些公開的盜版語料庫已經引起了人們的關注。

最近,有人發現了一個名為Book3的數據集,其中包含了近20萬本書籍,涵蓋了村上春樹、史蒂芬·金等暢銷書作家的著作,這個數據集被用于訓練AI模型,并最近受到了反盜版組織的頻繁攻擊。

版權問題像一把懸在AI公司頭上的利刃,形勢岌岌可危。

一直以來,AI模型的訓練數據并不完全透明。今年,多名美國作家聯合起來對OpenAI提起訴訟,指控其使用盜版書籍進行語言模型訓練,侵犯了版權并違反了多項法律。

這些作家提供了一些簡單的證據來支持他們的主張。因為他們從未同意過OpenAI使用他們的作品,然而ChatGPT卻能提供他們作品的準確摘要,這讓他們認為這是從某個地方獲取的信息。

揭秘!村上春樹、史蒂芬·金盜版書成AI訓練數據,連AI巨頭也難逃此命運

2020年,開源AI支持者Shawn Presser上傳了名為「books3」的數據集

超過一萬名作家已經聯合起來,敦促AI公司停止未經允許使用他們的作品。這些人不希望他們的寫作風格被AI模仿,除非科技公司為此支付費用。

美國作家協會已經向一些科技巨頭,包括OpenAI、谷歌、Meta、Stability AI、IBM和微軟的CEO們發出了一封公開信,要求他們停止未經允許使用他們的作品,或者對使用作品進行相應的補償。

今年,美國各地相繼對OpenAI、Meta等科技巨頭提起訴訟,指控他們未經作者同意或授權,擅自使用成千上萬名作家的作品來訓練大語言模型。這一訴訟涉及的行業規模龐大,預計將有更多內容創作者可能采取法律行動。

除了這些巨頭,其他生成AI公司也卷入了版權糾紛。例如,Stable Diffusion背后的Stability AI因在LAION-5B數據集上進行訓練而被告上法庭。該數據集包含超過58.5億個圖像文本對,其中大多數受到版權保護。Getty Images正起訴Stability AI,指控其未經許可在超過1200萬張Getty Images上訓練AI圖像生成模型。

許多藝術家和相關利益方也對Stability AI、DeviantArt和Midjourney等公司提起了侵權訴訟。他們指責這些公司侵犯了他們的版權、肖像權,并存在不正當競爭和不當獲利行為,要求賠償和禁令。

從當前輿論來看,盡管一些人擔心訓練AI可能引發版權問題,但也有人持有不同觀點。他們認為,像OpenAI這樣的AI公司不需要特別的許可協議來訓練模型,版權擔憂對AI的發展進步不利。另一方面,有人認為獲取作者的同意至關重要,創作者應享有拒絕的權利,或者AI公司至少應購買訓練數據的書籍。

技術正在創造人類歷史上從未有過的事物。在AI訓練數據方面,是否應該有開源精神的底線?未來的法律是限制還是保護?如何平衡AI的發展與尊重人類創作權益可能是和“通用人工智能何時到來”同樣重要的問題。

廣告也精彩

暫無評論

暫無評論...