作者:邱政談 上海融力天聞律師事務(wù)所合伙人
引言
AI能力三要素,算法、算力、數(shù)據(jù)。
算法是AI系統(tǒng)的大腦,算法的設(shè)計和選擇對AI系統(tǒng)的性能有著決定性的影響,比如以ChatGPT為代表的人工神經(jīng)網(wǎng)絡(luò)架構(gòu)在流派眾多的人工智能領(lǐng)域異軍突起,GPT路線在大模型方向上完全占據(jù)主流?!?】強大的算力可以加速模型的訓(xùn)練過程,處理更復(fù)雜的算法和更大的數(shù)據(jù)集,使AI系統(tǒng)能夠更快地進行訓(xùn)練和推理以獲得更優(yōu)能力。數(shù)據(jù)是人工智能系統(tǒng)的原材料,高質(zhì)量、多樣化的數(shù)據(jù)對于訓(xùn)練有效的AI模型至關(guān)重要,數(shù)據(jù)的量和質(zhì)直接影響模型的準(zhǔn)確性和泛化能力。
同時,OpenAI還提出了“規(guī)模法則”(ScalingLaw):隨著數(shù)據(jù)量、計算資源或模型規(guī)模的增加,AI系統(tǒng)性能的提升趨勢和模式。按照這個法則,人們相信數(shù)據(jù)和算力的不斷累積投入,可以不斷提升AI系統(tǒng)的能力,這也是當(dāng)前大模型互卷的一個重要原因。但由于算力受限于現(xiàn)實的硬件及能源,模型企業(yè)另一個重點爭奪的領(lǐng)域即是AI訓(xùn)練數(shù)據(jù)。OpenAI一位員工提出一個觀點:所有模型在同樣的數(shù)據(jù)級上,不同架構(gòu)模型在同樣的數(shù)據(jù)級收斂在一個點,現(xiàn)在發(fā)布的點都是收斂的情況下,決定模型能力的其實就是數(shù)據(jù),每個模型不代表自己的模型架構(gòu),也不代表自己的訓(xùn)練過程,只代表了原始數(shù)據(jù)的質(zhì)量。【2】故而現(xiàn)在存在一個很強的非共識是,不同的大模型利用相同的數(shù)據(jù)進行訓(xùn)練,最終模型能力會無限趨同。
國內(nèi)對于scaling Law的看法分為兩派,市場信仰派朱嘯虎(認(rèn)為Scaling Law失效)、技術(shù)信仰派楊植麟(認(rèn)可Scaling Law)。楊植麟第一性原理是增加模型壓縮比通向AGI,不斷Scaling不斷壓縮。而朱嘯虎不建議卷模型能力、算力,覺得開源就夠,應(yīng)該卷應(yīng)用,同時認(rèn)可專有領(lǐng)域的數(shù)據(jù)是AI企業(yè)的護城河,在開源模型預(yù)訓(xùn)練的基礎(chǔ)上進行專有數(shù)據(jù)的強化訓(xùn)練,可以產(chǎn)生垂類模型應(yīng)用能力的巨大差異。所以不論是技術(shù)信仰派還是市場信仰派,都認(rèn)為數(shù)據(jù)都很重要。
AI訓(xùn)練數(shù)據(jù),是衡量大模型能力的重要因素,也是大模型企業(yè)重點爭奪領(lǐng)域,也就有我們后面討論AI訓(xùn)練數(shù)據(jù)法律問題的必要性。
AI訓(xùn)練數(shù)據(jù)法律分類
當(dāng)前的大語言模型(LLM)訓(xùn)練過程一般分為預(yù)訓(xùn)練、監(jiān)督微調(diào)、基于人類反饋的強化學(xué)習(xí)三個階段。第一階段預(yù)訓(xùn)練所需的語料是各類世界知識,如公開網(wǎng)頁數(shù)據(jù)、社交媒體對話數(shù)據(jù)、書籍等,構(gòu)建模型基礎(chǔ)能力。第二階段監(jiān)督微調(diào)則需要標(biāo)注人員設(shè)計問答,將例題投喂,提升模型泛化能力。第三階段則需要人類對模型回答進行打分、排序,使模型價值觀與人類對齊?!?】所以我們一般更多地討論預(yù)訓(xùn)練階段數(shù)據(jù),大語言模型所采用的預(yù)訓(xùn)練數(shù)據(jù)通常包括網(wǎng)頁數(shù)據(jù)、圖書、論文、百科和社交媒體等。網(wǎng)頁數(shù)據(jù)方面是通用數(shù)據(jù)數(shù)量最多的一種,大模型公司爬取海量的網(wǎng)頁并不簡單,所以研究人員構(gòu)建了SogouT-16、CommonCrawl等在內(nèi)的開源網(wǎng)頁數(shù)據(jù)集,但是這些爬取的網(wǎng)頁數(shù)據(jù)還包含非常多的低質(zhì)量的文本,所以需要進行過濾和清洗以提高模型訓(xùn)練數(shù)據(jù)的質(zhì)量。【4】一般來說,以中國法律視角去對AI訓(xùn)練數(shù)據(jù)分類,我們認(rèn)為以下方式是更便于法律人進行分析的:
1.公共開源數(shù)據(jù)集(包含開源網(wǎng)頁數(shù)據(jù)集、開源對話數(shù)據(jù)集、開源書刊數(shù)據(jù)集等):涉及開源許可證
2.公開網(wǎng)絡(luò)數(shù)據(jù)但非開源(公開可訪問的互聯(lián)網(wǎng)數(shù)據(jù),需模型企業(yè)爬?。荷婕皵?shù)據(jù)合法獲取和使用、隱私合規(guī)、著作權(quán)問題
3.私有數(shù)據(jù)(未公開的行業(yè)數(shù)據(jù)集):隱私合規(guī)、數(shù)據(jù)合規(guī)
本文會以較大篇幅針對第二類“公開網(wǎng)絡(luò)數(shù)據(jù)但非開源”展開討論。
中美AI訓(xùn)練數(shù)據(jù)來源差異引發(fā)模型能力差異
美國的社會力量整合政府的開放數(shù)據(jù)與網(wǎng)絡(luò)的公開數(shù)據(jù),提升數(shù)據(jù)精細(xì)度和專業(yè)性,形成以開源為主的高質(zhì)量訓(xùn)練語料。我國的社會力量主要是結(jié)合海外優(yōu)質(zhì)開源數(shù)據(jù)集及中文語料,產(chǎn)出訓(xùn)練數(shù)據(jù)集,但各企業(yè)出于商業(yè)利益和知識產(chǎn)權(quán)的考慮,對于領(lǐng)域知識共享意愿度低,同時我國公共數(shù)據(jù)開發(fā)不足,【5】導(dǎo)致了整體開源的高質(zhì)量訓(xùn)練語料不足。[]這種差異也是導(dǎo)致中美模型能力差異的重要原因之一。阿里研究院提出幾大建議,著重建議提升中文訓(xùn)練數(shù)據(jù)的社會共享、授權(quán)運營機制?;诮荒甓鄟韺χ忻来竽P湍芰Φ某掷m(xù)觀察,為促進中國大模型能力提升和產(chǎn)業(yè)發(fā)展,我們亦建議法律界對AI訓(xùn)練數(shù)據(jù)的法律限制持開放寬松的態(tài)度。
國內(nèi)外大模型訓(xùn)練數(shù)據(jù)使用法律爭議
國外最知名的AI法律爭議當(dāng)屬《紐約時報》訴OpenAI案。2023年12月27日,紐約時報公司向OpenAI及微軟提起訴訟,指控被告未經(jīng)許可使用《紐約時報》的數(shù)百萬篇文章訓(xùn)練ChatGPT模型,侵害了《紐約時報》(簡稱時報)的版權(quán),并構(gòu)成不正當(dāng)競爭,其主張在GPT模型訓(xùn)練期間未經(jīng)授權(quán)復(fù)制了報刊作品,從其用于訓(xùn)練的數(shù)據(jù)集中可以看出許多內(nèi)容來自時報的獨創(chuàng)性內(nèi)容,即多次復(fù)制或提取了時報作品,且至少通過兩種方式在未經(jīng)授權(quán)的情況下公開展示時報作品,包括顯示從模型本身檢索到的時報作品的記憶副本或衍生作品,以及顯示根據(jù)必應(yīng)(Bing)搜索索引中儲存的副本生成的與時報作品基本相似的合成搜索結(jié)果,并且未提供明顯的超鏈接將用戶引導(dǎo)至?xí)r報的網(wǎng)站。與傳統(tǒng)知識產(chǎn)權(quán)侵權(quán)不同,ChatGPT產(chǎn)出的內(nèi)容并非傳統(tǒng)意義上的轉(zhuǎn)載或者演繹作品,而是一種快速和高效的自動化處理。被告的生成式AI產(chǎn)品基于大規(guī)模侵犯版權(quán)的商業(yè)模式獲得盈利,通過使用微軟的Bing搜索引擎,OpenAI對時報內(nèi)容復(fù)制和分類,生成比傳統(tǒng)搜索引擎更長更詳細(xì)的回復(fù),從而破壞了時報與其讀者之間的關(guān)系,剝奪了《紐約時報》的收入?;诖?,《紐約時報》主要提出兩方面的請求。第一,在金錢給付方面,雖未提出具體金額,但認(rèn)為被告應(yīng)當(dāng)負(fù)擔(dān)法定賠償金、補償性賠償金、不當(dāng)?shù)美颠€、律師費等金額。第二,被告應(yīng)當(dāng)停止侵權(quán)行為,并銷毀掉所有使用《紐約時報》版權(quán)材料的聊天機器人模型和訓(xùn)練數(shù)據(jù)集。《紐約時報》請求法院以永久性禁令來限制和禁止被告的持續(xù)侵權(quán)行為?!?】
本質(zhì)上是微軟必應(yīng)搜索引擎+大模型的一次商業(yè)探索。2023年微軟推出搭載GPT、DALL-E 3等模型去挑戰(zhàn)谷歌搜索引擎,其瞄準(zhǔn)的是一個萬億市場,基于RAG技術(shù)(檢索增強生成),一經(jīng)推出,谷歌市占率略有下降。
對應(yīng)的,最近國內(nèi)市場的AI智能搜索,秘塔AI、360智腦、百度的簡單搜素、字節(jié)小悟空也卷的火熱,因為是萬億市場,其背后都背靠著互聯(lián)網(wǎng)巨頭,除了上海本土明星企業(yè)秘塔AI。為了爭搶用戶,AI智能搜索可以給到用戶與以往的傳統(tǒng)搜索不同體驗,傳統(tǒng)的需要自己去排查網(wǎng)頁,現(xiàn)在AI只能搜索可以直接給到整體結(jié)果最后附鏈接(現(xiàn)在很多的國內(nèi)產(chǎn)品都會附鏈接,這一點合規(guī)做得就比微軟這個好)。
AI智能搜索是典型的大模型商業(yè)化的例子,也是大模型現(xiàn)在比較清晰明朗的Toc商業(yè)化方向。但是這種商業(yè)化一般只有原來就有一定搜索積累的巨頭才做好,現(xiàn)在做其實本質(zhì)上短期搜索市場不會有過多的提升,但是不做就會喪失搜索市場。同時做AI搜索會有更多的強化學(xué)習(xí)的機會,可以積累更多的用戶數(shù)據(jù),也可以反過來增強模型能力。
可以預(yù)見的是,接下來國內(nèi)AI智能搜索領(lǐng)域會成為司法實踐的前沿陣地,接下來會有很多的案例涌現(xiàn)供大家學(xué)習(xí)和思考。
除了《紐約時報》訴OpenAI案以外,在美國的Thomson Reuters Enterprise Center GMBH and West Publishing Corp. ,v.RossI ntelligence Inc.案中,湯森路透公司(版權(quán)人)擁有法律數(shù)據(jù)庫Westlaw的版權(quán),該數(shù)據(jù)庫使用特定的編號系統(tǒng)和批注功能。Ross公司是一家AI初創(chuàng)企業(yè),試圖使用Westlaw數(shù)據(jù)庫訓(xùn)練其自然語言搜索引擎,但遭到版權(quán)人拒絕。Ross公司隨后與LegalEase合作,使用其提供的法律意見書作為AI訓(xùn)練數(shù)據(jù)。而在合作過程中,Ross公司使用了Legal Ease公司向Ross公司發(fā)送的一些來自Westlaw數(shù)據(jù)庫中的編號系統(tǒng)。在本案中,美國司法領(lǐng)域也深入討論了未經(jīng)授權(quán)使用版權(quán)材料來訓(xùn)練大模型的行為是否構(gòu)成合理使用,美國特拉華州地方法院指出了“允許AI訓(xùn)練版權(quán)材料是否符合公共利益”這一關(guān)鍵問題,在判例法基礎(chǔ)上澄清了AI訓(xùn)練數(shù)據(jù)場景下合理使用的認(rèn)定標(biāo)準(zhǔn),嚴(yán)格區(qū)分事實和法律問題,其認(rèn)為,合理使用是一個法律和事實的混合問題,雖然本質(zhì)上是一個法律判斷,但需要對復(fù)制行為和市場這些相關(guān)的事實性問題進行認(rèn)定,目前,這些事實問題存在爭議,應(yīng)交由陪審團決定?!?】
而在國內(nèi),也產(chǎn)生了部分大模型訓(xùn)練數(shù)據(jù)使用而產(chǎn)生的爭議。早在2023年6月,筆神作文,一個中小學(xué)生作文AI批改平臺和投稿社區(qū),隸屬于北京一筆兩劃科技有限公司;旗下研發(fā)了一款人工智能輔助寫作軟件筆神,擁有千萬級寫作素材庫。筆神作文與學(xué)而思之間有著多年的合作基礎(chǔ),其指控學(xué)而思在未經(jīng)授權(quán)的情況下,使用“爬蟲”技術(shù)非法訪問和緩存其APP服務(wù)器數(shù)據(jù),用于訓(xùn)練AI大模型MathGPT和“作文AI助手”,數(shù)量達(dá)到258萬次,侵犯了其數(shù)據(jù)權(quán)益。爬取的基礎(chǔ)在于筆神作文與學(xué)而思先前的合作,當(dāng)時筆神作文與學(xué)而思旗下的一款學(xué)習(xí)工具APP——題拍拍簽約合作,為其提供作文素材查詢服務(wù)。雙方在合同中明確約定未經(jīng)許可不得將作文素材作為語料進行計算、訓(xùn)練。雖然本次風(fēng)波的實質(zhì)是授權(quán)合同違約糾紛,但很快引起了各行各業(yè)對大模型訓(xùn)練數(shù)據(jù)的來源合法性的關(guān)注,社會各界很快認(rèn)識到了大模型訓(xùn)練中數(shù)據(jù)來源合法性的重要性?!?】
在今年6月20日,北京互聯(lián)網(wǎng)法院審理了四起畫師起訴AI繪畫軟件開發(fā)運營者的著作權(quán)侵權(quán)案件。該案中,四位畫師認(rèn)為某AI繪畫軟件可以創(chuàng)作出帶有明顯模仿原告作品痕跡的圖片,其將四位原告作品用于訓(xùn)練AI模型并應(yīng)用于商業(yè)用途,已經(jīng)遠(yuǎn)超合理使用范疇,對原告權(quán)益造成嚴(yán)重侵害,其認(rèn)為涉案AI繪畫軟件習(xí)得原告作品的繪畫風(fēng)格后,“一鍵生成”的大批量圖片可以輕松替代原告一筆一劃繪制的作品,殘酷擠壓原告依托其作品獲得收益的空間,對原告作品未來的市場造成毀滅性打擊,故主張被告應(yīng)當(dāng)停止對原告著作權(quán)的侵害,包括但不限于停止在AI模型中使用原告作品、剔除模型中與原告作品相關(guān)的學(xué)習(xí)成果等,并賠禮道歉和賠償原告經(jīng)濟損失。該案目前仍在審理中?!?】
綜合來看,無論是在國內(nèi)還是國外,隨著人工智能技術(shù)的快速發(fā)展和應(yīng)用,大模型訓(xùn)練數(shù)據(jù)的來源合法性已成為AI大模型訓(xùn)練數(shù)據(jù)的重要法律議題。但就當(dāng)前發(fā)生的法律爭議來看,更多的集中在“數(shù)據(jù)合法獲取和使用”(反法數(shù)據(jù)競爭專條)“訓(xùn)練數(shù)據(jù)著作權(quán)保護”(著作權(quán)法)兩個角度,實際上AI訓(xùn)練數(shù)據(jù)的法律隱憂遠(yuǎn)比這些發(fā)生的涉著作權(quán)訴訟爭議更多,其他法律隱憂也值得我們更多地關(guān)注。
AI訓(xùn)練數(shù)據(jù)主要涉及的法律問題思考
國內(nèi)AI訓(xùn)練數(shù)據(jù)的法律隱憂
當(dāng)前國內(nèi)AI訓(xùn)練數(shù)據(jù)存在大量的法律隱憂還未被大規(guī)模討論。如AI訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量不足,易發(fā)生或正在發(fā)生的大量違規(guī)數(shù)據(jù)爬取、利用API合作接口違法獲取數(shù)據(jù)等獲取方面的合規(guī)性問題。類似于電商刷單、AI生成內(nèi)容水貼、惡意評論等基于互聯(lián)網(wǎng)流量生態(tài)而發(fā)生的數(shù)據(jù)污染問題。大模型企業(yè)進行預(yù)訓(xùn)練時使用的數(shù)據(jù)存在民族、種族、職業(yè)、地域的數(shù)據(jù)偏見問題。AI訓(xùn)練數(shù)據(jù)獲取時未進行隱私量化而產(chǎn)生的隱私問題等等(本文不作討論)。我們提出這些隱憂,希望能進行初步的一些討論
AI黑箱導(dǎo)致的AI訓(xùn)練數(shù)據(jù)不可感知而產(chǎn)生合規(guī)僥幸
現(xiàn)在有一個共識是存在一定程度的“AI黑箱”(人工智能系統(tǒng)缺乏透明度和可解釋性,在這些系統(tǒng)中,如何訓(xùn)練數(shù)據(jù)、輸入數(shù)據(jù)如何被轉(zhuǎn)換成輸出結(jié)果的過程不清晰,或者對于最終用戶和利益相關(guān)者來說不可見)。此時對于AI系統(tǒng)擁有者而言,其容易認(rèn)為如何進行模型的預(yù)訓(xùn)練外界無法感知,使用哪些AI訓(xùn)練數(shù)據(jù)亦不感,此時容易產(chǎn)生一種合規(guī)僥幸,在先其他行業(yè)的監(jiān)管經(jīng)驗告訴我們,監(jiān)管常常具有滯后性,對于AI大模型而言監(jiān)管可能會更大篇幅地放在模型的輸出端,而對于AI訓(xùn)練數(shù)據(jù)的獲取和使用偏向于自訓(xùn)練端的監(jiān)管會嚴(yán)重不足。實際上,歐盟《人工智能法》第(107)條【10】,已經(jīng)對模型的提供者作出了相應(yīng)的要求:模型的提供者應(yīng)就通用模型訓(xùn)練中使用的內(nèi)容制定并公開足夠詳細(xì)的摘要,并且人工智能辦公室可對此進行監(jiān)督。雖然當(dāng)前我國的人工智能立法還在摸索階段,但歐盟的立法對于我國是具有極高的參考價值的。我們可以見到諸如《生成式人工智能服務(wù)管理暫行辦法》僅就訓(xùn)練數(shù)據(jù)進行了原則性陳述“生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù)”【11】,以及中國電子商會發(fā)布的《生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南》對于訓(xùn)練數(shù)據(jù)有數(shù)據(jù)采集、交易、共享、授權(quán)獲取等諸多合規(guī)提示。但由于AI黑箱的存在,我們?nèi)孕枰诹⒎▽用孢M一步細(xì)化明確AI訓(xùn)練數(shù)據(jù)的披露要求和法律責(zé)任以消除模型企業(yè)就AI訓(xùn)練數(shù)據(jù)的合規(guī)僥幸。
AI訓(xùn)練數(shù)據(jù)收集、使用的法律要求
按照第一部分我們對于AI訓(xùn)練數(shù)據(jù)的分類進行分析:1.公共開源數(shù)據(jù)集;2.公開網(wǎng)絡(luò)數(shù)據(jù)但非開源;3.私有數(shù)據(jù)。
對于公共開源的數(shù)據(jù)集而言,僅需注意一個“開源許可證”的問題,“開源許可證”就是公共數(shù)據(jù)集的法律“使用說明”,會列舉數(shù)據(jù)集所有者對于使用者的要求和約束條件。【12】一般的開源數(shù)據(jù)社區(qū)都會為創(chuàng)作者設(shè)置在法律允許的最大范圍內(nèi)放棄其作品的版權(quán)和相關(guān)權(quán)利的協(xié)議,當(dāng)然同時也會對使用者進行相應(yīng)的限制,這對于大模型而言需要遵守開源許可證的要求進行訓(xùn)練數(shù)據(jù)的使用、共享、托管,即可滿足基本的法律合規(guī)要求。
對于私有數(shù)據(jù)而言,一般采用向第三方數(shù)據(jù)商采購的方式?!渡墒饺斯ぶ悄軘?shù)據(jù)應(yīng)用合規(guī)指南》中對于此類進行了合規(guī)提示:(模型)提供者應(yīng)同相對方簽訂相應(yīng)的法律協(xié)議,謹(jǐn)慎審核相對方的數(shù)據(jù)來源合法性和數(shù)據(jù)可交易性,并要求相對方作出來源合法性、可交易性和可使用性承諾,或出示相關(guān)證明等。鼓勵提供者通過數(shù)據(jù)交易所等公開平臺獲取數(shù)據(jù),以提升數(shù)據(jù)來源的合法合規(guī)性。對于此合規(guī)要求,其實是對現(xiàn)行的《數(shù)據(jù)安全法》《個人信息保護法》的落地解讀,我們認(rèn)為這一合規(guī)提示是基本滿足當(dāng)前對于私有數(shù)據(jù)的法律要求的。
對于公開網(wǎng)絡(luò)數(shù)據(jù)但非開源而言,一般采用人工采集或自動爬取的方式從互聯(lián)網(wǎng)獲取。不論是采取爬蟲還是諸如API接口等方法,當(dāng)前法律均要求遵守相應(yīng)的Robots協(xié)議或API服務(wù)鑒權(quán)聲明,避免使用技術(shù)手段進行違規(guī)獲取,且不得影響被獲取服務(wù)商的正常運行,為其增添不合理的負(fù)擔(dān)。當(dāng)然也有一定的例外,在禁止Robots協(xié)議的網(wǎng)站,并不意味著爬取行為違法,根據(jù)《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》第八條,“互聯(lián)網(wǎng)站所有者設(shè)置機器人協(xié)議應(yīng)遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由,不利用機器人協(xié)議進行不正當(dāng)競爭行為,積極營造鼓勵創(chuàng)新、公平公正的良性競爭環(huán)境。”一般認(rèn)為為促進信息自由流動,對于爬蟲爬取公開信息,網(wǎng)站需要具備一定的容忍度?!?3】雖然該自律公約是針對搜索引擎抓取行為的保障,但在當(dāng)前人工智能大發(fā)展的語境下討論,以鼓勵信息自由流動的視角看,只要爬取行為存在合理的正當(dāng)性,大模型企業(yè)爬取公開網(wǎng)絡(luò)數(shù)據(jù)也是可為的。綜合來看,對于這一類AI訓(xùn)練數(shù)據(jù)法律要求的分析,當(dāng)前還是需要更多結(jié)合《反不正當(dāng)競爭》數(shù)據(jù)競爭專條作論證。
AI訓(xùn)練數(shù)據(jù)偏見和歧視的思考
AI訓(xùn)練數(shù)據(jù)中的偏見和歧視是指在模型的訓(xùn)練過程中,由于數(shù)據(jù)集的不平衡、不完整或有誤導(dǎo)性,導(dǎo)致模型學(xué)習(xí)到的模式不公平地偏向某些群體,從而在預(yù)測和決策時產(chǎn)生歧視性結(jié)果。
歐盟《人工智能法案》針對AI訓(xùn)練數(shù)據(jù)可能造成的歧視問題進行了詳細(xì)的論述,也提出了具體的要求:高質(zhì)量數(shù)據(jù)和獲取高質(zhì)量數(shù)據(jù)在提供結(jié)構(gòu)和確保許多人工智能系統(tǒng)的性能方面發(fā)揮著至關(guān)重要的作用,特別是在使用涉及模型訓(xùn)練的技術(shù)時,目的是確保高風(fēng)險人工智能系統(tǒng)按預(yù)期安全運行,并且不會成為歐盟法律禁止的歧視來源。用于訓(xùn)練、驗證和測試的高質(zhì)量數(shù)據(jù)集需要實施適當(dāng)?shù)臄?shù)據(jù)治理和管理實踐。用于培訓(xùn)、驗證和測試的數(shù)據(jù)集,包括標(biāo)簽,應(yīng)具有相關(guān)性和足夠的代表性,并在最大程度上不存在錯誤,而且從系統(tǒng)的預(yù)期目的來看應(yīng)是完整的。為便于遵守歐盟數(shù)據(jù)保護法,如2016/679號條例,數(shù)據(jù)治理和管理實踐應(yīng)包括:就個人數(shù)據(jù)而言,數(shù)據(jù)收集的原始目的應(yīng)當(dāng)透明;數(shù)據(jù)集還應(yīng)具有適當(dāng)?shù)慕y(tǒng)計屬性,包括與高風(fēng)險人工智能系統(tǒng)的預(yù)期使用對象相關(guān)的個人或群體。此外,數(shù)據(jù)集還應(yīng)特別注意減少數(shù)據(jù)集中可能存在的偏差,這些偏差可能會影響個人的健康和安全,對基本權(quán)利產(chǎn)生負(fù)面影響,或?qū)е職W盟法律禁止的歧視,尤其是在數(shù)據(jù)輸出會影響未來操作的輸入(反饋回路)的情況下。例如,偏差可能是基礎(chǔ)數(shù)據(jù)集所固有的,特別是在使用歷史數(shù)據(jù)時,或者是在現(xiàn)實世界環(huán)境中實施系統(tǒng)時產(chǎn)生的。人工智能系統(tǒng)提供的結(jié)果可能會受到這些固有偏差的影響,這些偏差可能會逐漸增加,從而延續(xù)和擴大現(xiàn)有的歧視,特別是對屬于特定的弱勢群體(包括種族或族裔群體)的人的歧視。如果訓(xùn)練端的數(shù)據(jù)偏見不進行技術(shù)和法律層面的解決,勢必會影響整個人工智能系統(tǒng)的公平性輸出,而實際上對于AI訓(xùn)練數(shù)據(jù)偏見和歧視的治理是一個多學(xué)科的問題。
在法律視角來看,我國現(xiàn)行法律針對反歧視的規(guī)定散鑒于《勞動合同法》《婚姻法》《殘疾人保障法》等各個部門法,這種散落確實不利于人工智能時代對于AI企業(yè)進行訓(xùn)練數(shù)據(jù)偏見合規(guī),所以當(dāng)前亟待立法去集中梳理AI訓(xùn)練數(shù)據(jù)的偏見和歧視的監(jiān)管或合規(guī)要求。我們需要從數(shù)據(jù)收集、處理、分析、算法設(shè)計等技術(shù)角度去做規(guī)則的細(xì)化,同時還應(yīng)該建立相應(yīng)的第三方評估體系,監(jiān)管層出臺更多的細(xì)則指南和標(biāo)準(zhǔn)引導(dǎo)減少數(shù)據(jù)偏見。
AI訓(xùn)練數(shù)據(jù)的著作權(quán)問題
實際上,大模型在其訓(xùn)練和輸出階段,都可能涉及著作權(quán)問題。輸出階段有大模型使用的過程中生成的內(nèi)容的侵權(quán)認(rèn)定問題,即AIGC與在先作品構(gòu)成相同或者實質(zhì)性相似時,應(yīng)當(dāng)如何認(rèn)定其侵權(quán)責(zé)任以及由誰來承擔(dān)責(zé)任,已有北京互聯(lián)網(wǎng)法院和廣州互聯(lián)網(wǎng)法院的在先判決提出了階段性的司法意見。而追根溯源,大模型生成物是否構(gòu)成侵權(quán)并非大模型著作權(quán)問題的起點,大模型著作權(quán)問題從訓(xùn)練階段就已發(fā)生,存在于整個模型生命周期的前端。國內(nèi)目前關(guān)于大模型在訓(xùn)練過程中使用他人作品是否構(gòu)成侵權(quán),還尚未有司法界的定論。目前大模型應(yīng)用過程中可能存在的著作權(quán)法律問題,主要集中于訓(xùn)練數(shù)據(jù)授權(quán)許可使用和訓(xùn)練素材使用著作權(quán)侵權(quán)問題。
訓(xùn)練數(shù)據(jù)授權(quán)許可與著作權(quán)沖突
根據(jù)AI發(fā)展科研機構(gòu)Epochai發(fā)布的一項關(guān)于大模型消耗訓(xùn)練數(shù)據(jù)的研究報告,目前,人類公開的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集大約有300萬億tokens,但隨著ChatGPT等大模型的參數(shù)、功能越來越強以及過度訓(xùn)練,對訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級增長,預(yù)計將在2026年至2032年消耗完這些數(shù)據(jù)。當(dāng)然,除了公開的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集外,還有私有數(shù)據(jù),根據(jù)Epochai調(diào)查數(shù)據(jù)顯示,目前全球文本數(shù)據(jù)包含私有總量大概在3100萬億tokens,也就是說還有90%的私有數(shù)據(jù)可以使用?!?4】除了上述數(shù)據(jù)以外,還有通過合成數(shù)據(jù)、多模態(tài)和跨領(lǐng)域數(shù)據(jù)學(xué)習(xí)獲取數(shù)據(jù),以及一種最基礎(chǔ)的獲取訓(xùn)練數(shù)據(jù)的方式,即與真實世界實時交互學(xué)習(xí),通過與人類交互來獲得知識和技能。
隨之而來的,是訓(xùn)練數(shù)據(jù)的授權(quán)許可使用問題。不同于一般的授權(quán)許可,訓(xùn)練數(shù)據(jù)的特點在于其數(shù)據(jù)量和數(shù)據(jù)類型更為龐大和復(fù)雜,大模型訓(xùn)練通常需要大量多樣化的數(shù)據(jù),涉及更廣泛的數(shù)據(jù)來源,如大量的文本、圖片、音頻等,由于單個作品對于大模型訓(xùn)練來說是幾乎沒有意義的,大模型訓(xùn)練過程中需要投喂大量的數(shù)據(jù),且使用目的也并非直接使用或二次呈現(xiàn),而是被用于訓(xùn)練機器學(xué)習(xí)模型,以實現(xiàn)其它功能,若要進行授權(quán),其授權(quán)的基礎(chǔ)并不明確,授予的是著作權(quán)法上的何種權(quán)利有待論證,其授權(quán)的價值更多在于訓(xùn)練數(shù)據(jù)集中特征的集合,而非單個作品的獨特性表達(dá),采取作品的單獨授權(quán)是不現(xiàn)實的。因此,訓(xùn)練數(shù)據(jù)的授權(quán)方式和授權(quán)范圍則更為特殊?,F(xiàn)階段,數(shù)據(jù)的來源一般是使用公共數(shù)據(jù)訓(xùn)練集,或向第三方數(shù)據(jù)商采購。
如前文所述,對公共數(shù)據(jù)訓(xùn)練集而言,其往往來源于爬取的公開的網(wǎng)站、論壇、博客、App等,以及社交媒體、論壇帖子等對話,公開的書籍、電子文檔等內(nèi)容,并進行過濾篩選,整理上述公共數(shù)據(jù)訓(xùn)練集往往需要經(jīng)過漫長的過程,因此一些研究人員構(gòu)建了包括ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等在內(nèi)的開源網(wǎng)頁數(shù)據(jù)集。這些公共數(shù)據(jù)訓(xùn)練集一般通過開源許可協(xié)議的方式來約定權(quán)利義務(wù),例如在中文訓(xùn)練數(shù)據(jù)集CNNovel125K中,使用了大模型訓(xùn)練常用的Apache2.0許可證,這類許可協(xié)議授權(quán)用戶自由地使用、復(fù)制、修改、合并、發(fā)布和再許可被授權(quán)軟件的副本,并允許商業(yè),但在分發(fā)被授權(quán)軟件時,用戶需要包含原始版權(quán)、許可和免責(zé)聲明,以確保軟件的來源和許可信息被保留。部分公開數(shù)據(jù)集是采樣于其他開源項目或開源數(shù)據(jù)集,因此會在開源許可協(xié)議中要求使用者遵守原始許可的條款。相對來說,公共數(shù)據(jù)訓(xùn)練集基于網(wǎng)上現(xiàn)有的整理已較為完善,獲取也較為容易,授權(quán)許可使用協(xié)議也較為寬松。
當(dāng)然,公共數(shù)據(jù)訓(xùn)練集一般訓(xùn)練的是通用自然語言的能力,以及部分行業(yè)內(nèi)容,但對于行業(yè)大模型來說,其往往需要的是大量的專業(yè)內(nèi)容,而這部分專業(yè)內(nèi)容大多屬于私有數(shù)據(jù)。
對私有數(shù)據(jù)而言,往往需要通過向第三方數(shù)據(jù)商采購的方式獲取使用許可,部分內(nèi)容創(chuàng)作平臺也可以起到第三方數(shù)據(jù)商采購的角色。這類私有數(shù)據(jù)集往往具有獨特的特點,例如金融行業(yè)數(shù)據(jù)集往往會有股票價格、公司財報等眾多圖表和指標(biāo)數(shù)據(jù),并有著嚴(yán)格的時效性要求,醫(yī)療行業(yè)的數(shù)據(jù)集通常包括病歷記錄、醫(yī)學(xué)影像、基因數(shù)據(jù)等,這些數(shù)據(jù)的特點是格式復(fù)雜、需要專業(yè)人員進行標(biāo)簽化,并對準(zhǔn)確性和隱私性有著極高要求。這類數(shù)據(jù)在采購過程中往往通過采購協(xié)議或平臺協(xié)議約定權(quán)利義務(wù),且由于行業(yè)不同和數(shù)據(jù)要求標(biāo)準(zhǔn)不同,其定價和具體合同約定也會有相應(yīng)要求和區(qū)別。但是,對于第三方數(shù)據(jù)商或者平臺是否得到上游授權(quán)仍待考究,對第三方數(shù)據(jù)商來說,獲取全部的數(shù)據(jù)來源提供者的同意是不現(xiàn)實的,且會導(dǎo)致私有數(shù)據(jù)訓(xùn)練集的成本飆升,顯然這不是市場所期望看到的。如何平衡私有數(shù)據(jù)的著作權(quán)保護以及大模型訓(xùn)練的需求,是訓(xùn)練數(shù)據(jù)授權(quán)許可亟待解決的問題。
訓(xùn)練數(shù)據(jù)著作權(quán)侵權(quán)問題
自大模型發(fā)展以來,未經(jīng)許可使用他人享有著作權(quán)的作品作為大模型訓(xùn)練素材一直是常年的爭議焦點。國外有“紐約時報訴OpenAI案”,國內(nèi)有“小紅書被控AI模型訓(xùn)練素材侵權(quán)案”,但目前國內(nèi)外的司法實踐均尚未有定論,畢竟除模型開發(fā)者以外,其他人無法感知模型實際的訓(xùn)練素材,只能從大模型生成物反推訓(xùn)練素材的侵權(quán)使用,這對司法實踐認(rèn)定訓(xùn)練數(shù)據(jù)著作權(quán)侵權(quán)提出極大的挑戰(zhàn),其中存在一些需要分析的問題,我們就部分核心爭議焦點進行討論:
首先,侵權(quán)糾紛最大的問題在于是否構(gòu)成實質(zhì)性相似?對于大語言模型而言,實質(zhì)性相似是較為容易證成的,以“紐約時報訴OpenAI案”為例,訴狀通過圖片的方式直接展現(xiàn)了GPT4生成的多個結(jié)果,其將未經(jīng)授權(quán)的紐約時報作品逐字逐句復(fù)制并輸出,且由于紐約時報作品獨創(chuàng)性較為突出,易于和其他作品產(chǎn)生區(qū)分,這種方式將本應(yīng)該屬于紐約時報等版權(quán)人的流量轉(zhuǎn)移到合成搜索應(yīng)用之上,系著作權(quán)法意義上的復(fù)制行為;但對于AI文生圖的擴散模型而言,由于生成的圖片是通過擴散生成的,其會包含訓(xùn)練素材中的擴散向量,但不會完整的包含訓(xùn)練素材的部分圖片,因此不存在一模一樣的“復(fù)制”,無法直接證明生成的作品使用了他人的作品。況且,大模型的訓(xùn)練本質(zhì)上也是一種“黑盒”訓(xùn)練,即訓(xùn)練者本身也不知通過大量的數(shù)據(jù)訓(xùn)練會產(chǎn)生何種結(jié)果,甚至可能存在著通過完全使用他人素材訓(xùn)練的模型生成的內(nèi)容與訓(xùn)練素材相去甚遠(yuǎn)、完全達(dá)不到實質(zhì)性相似的標(biāo)準(zhǔn)的程度,也有可能存在未使用他人作品作為訓(xùn)練素材,但從概率學(xué)上存在著生成作品相似的可能性。因此,若要證明兩幅美術(shù)作品是否構(gòu)成實質(zhì)性相似,也即6月20日北京互聯(lián)網(wǎng)法院開庭審理的AI繪畫大模型訓(xùn)練著作權(quán)侵權(quán)案中,通過考慮線條、色彩、比例等要素上是否存在實質(zhì)性相似,或許能證明構(gòu)成實質(zhì)性相似,但若從生成作品反推證明訓(xùn)練過程中使用了其作品作為訓(xùn)練素材,則其難度大大增加。同時,我們注意到“Mike Huckabee等訴彭博社利用其版權(quán)作品訓(xùn)練AI系統(tǒng)BloombergGPT案”中,彭博社的答辯中提出一個非常關(guān)鍵的一點——原告未能明確指出哪些版權(quán)作品被使用,也未提供足夠的事實來支持版權(quán)侵權(quán)的主張。【15】這說明,在司法實踐中,證明訓(xùn)練數(shù)據(jù)中包含權(quán)利人的作品確實存在客觀上的事實證明障礙。
其次,傳統(tǒng)的著作權(quán)侵權(quán)抗辯是否能繼續(xù)適用?根據(jù)《北京市高級人民法院侵害著作權(quán)案件審理指南》7.7:被告能夠舉證證明被訴侵權(quán)作品與原告作品存在相同或者實質(zhì)性相似的表達(dá)部分來源于在先的其他作品,可以認(rèn)定在先其他作品合法來源抗辯成立。就目前絕大部分的美術(shù)作品而言,其大部分有借鑒前人的元素在內(nèi),如果放寬實質(zhì)性相似的標(biāo)準(zhǔn),則極容易導(dǎo)致在侵權(quán)的大模型生成圖片與權(quán)利圖片之前,可能還存在構(gòu)成實質(zhì)性相似的在先作品。因此,通過傳統(tǒng)的“接觸+實質(zhì)性相似”的方式認(rèn)定大模型生成的圖片構(gòu)成著作權(quán)侵權(quán),同意通過“在先作品”抗辯,侵權(quán)同樣難以認(rèn)定。
未經(jīng)許可使用他人享有著作權(quán)的作品作為大模型訓(xùn)練素材是否構(gòu)成著作權(quán)侵權(quán)?有學(xué)者認(rèn)為,大模型在數(shù)據(jù)訓(xùn)練中對作品的使用具有“非特定性”,即不指向具體而特定的單個作品,應(yīng)被視為“非作品性使用”行為,從而排除在著作權(quán)權(quán)利范圍之外;而數(shù)據(jù)訓(xùn)練是生產(chǎn)過程的一部分,具有中間使用的性質(zhì),對于大模型具有增強效應(yīng),因此,從功能性視角看,應(yīng)界定為“非作品性使用”,其不會削弱著作權(quán)人的整體激勵,而是導(dǎo)致了激勵行為的結(jié)構(gòu)性調(diào)整,不需要將著作權(quán)保護延伸至數(shù)據(jù)訓(xùn)練來予以補償?!?6】其本質(zhì)和美國法院在谷歌圖書館案中指出的轉(zhuǎn)換性使用類似,該案中谷歌將數(shù)字化后的圖書存放于服務(wù)器,供用戶以“檢索有限文字片段的方式”發(fā)現(xiàn)所需圖書,美國法院認(rèn)為不構(gòu)成對原有圖書購買市場的替代。也即這類使用是基于原創(chuàng)或擴展其使用,傳遞出新的不同的東西,進而促進了版權(quán)促進公共知識這一整體目標(biāo)。因此,僅用于數(shù)據(jù)訓(xùn)練而使用數(shù)據(jù),存在納入合理適用范圍的可能性。而在“紐約時報訴OpenAI案”中,其直接復(fù)現(xiàn)了紐約時報作品,將本應(yīng)該屬于紐約時報等版權(quán)人的流量轉(zhuǎn)移到合成搜索應(yīng)用之上,則是直接侵犯了作品的復(fù)制權(quán)。
阿里研究院觀點認(rèn)為:大模型對版權(quán)類訓(xùn)練語料的使用是轉(zhuǎn)換性使用,屬于合理使用或法定許可。大模型對于版權(quán)作品的使用,并不是以欣賞作品原有價值為目的而進行利用,或?qū)υ凶髌穬?nèi)容進行復(fù)制和傳播從而替代原有作品,而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎(chǔ)能力,就如給人類進行教育需要對其進行廣泛的知識授予一般。有鑒于此,用版權(quán)類數(shù)據(jù)對模型進行訓(xùn)練,不應(yīng)被視為“復(fù)制式拷貝”的版權(quán)侵權(quán)行為,而應(yīng)屬于轉(zhuǎn)換性使用的范疇,并應(yīng)構(gòu)成“合理使用”或“法定許可”?!?7】
我們在一定程度上認(rèn)可這一觀點,從產(chǎn)業(yè)的角度而言,過度強調(diào)訓(xùn)練數(shù)據(jù)侵權(quán),從客觀上并不能激勵創(chuàng)作者的創(chuàng)作,對產(chǎn)業(yè)的發(fā)展起到一定的遏制作用,面對海量的內(nèi)容生產(chǎn)者的維權(quán),也會對司法造成巨大壓力。從技術(shù)角度來看,AI的訓(xùn)練過程,起碼Diffusion算法,只是學(xué)習(xí)各種共性,而人類作品的共性都離不開人類共同的文化、思想、審美,就算一個作品有創(chuàng)新的部分,在絕對的大模型中,這種創(chuàng)新都會顯得微不足道?!?8】人工智能時代,著作權(quán)法可適當(dāng)適應(yīng)新生產(chǎn)力和生產(chǎn)方式的變革,調(diào)整激勵結(jié)構(gòu),促進人們積極面對、適應(yīng)、擁抱人工智能工具的創(chuàng)新及其帶來的新型生產(chǎn)方式。
AI訓(xùn)練數(shù)據(jù)的著作權(quán)問題的未來展望
探究合理使用的適用空間
在現(xiàn)有的眾多開源訓(xùn)練數(shù)據(jù)集中都會談及訓(xùn)練數(shù)據(jù)的合理使用,及將使用他人作品用于訓(xùn)練大模型納入合理使用的范疇。而這一討論在域外已經(jīng)有了一定的法律實踐探索。
歐盟《人工智能法案》(106)開發(fā)和訓(xùn)練此類模型需要獲取大量文本、圖像、視頻和其他數(shù)據(jù)。在這種情況下,文本和數(shù)據(jù)挖掘技術(shù)可廣泛用于檢索和分析這些內(nèi)容,而這些內(nèi)容可能受到版權(quán)和相關(guān)權(quán)利的保護。對受版權(quán)保護內(nèi)容的任何使用都必須獲得相關(guān)權(quán)利人的授權(quán),除非適用相關(guān)的版權(quán)例外和限制。2019/790號指令引入了例外和限制,允許在特定條件下為文本和數(shù)據(jù)挖掘的目的復(fù)制和提取作品或其他主體。根據(jù)這些規(guī)則,權(quán)利人可以選擇保留對其作品或其他主體的權(quán)利,以防止文本和數(shù)據(jù)挖掘,除非是為了科學(xué)研究的目的。在以適當(dāng)方式明確保留選擇退出權(quán)的情況下,通用人工智能模型的提供者如果想對這些作品進行文本和數(shù)據(jù)挖掘,需要獲得權(quán)利人的授權(quán)。同時,歐盟的《單一數(shù)字市場版權(quán)指令》第4條規(guī)定,在版權(quán)人未以適當(dāng)方式保留文本與數(shù)據(jù)挖掘的權(quán)利的情況下,對合法獲取的作品或其他內(nèi)容進行復(fù)制和提取的行為是可以豁免的。
不同于歐盟針對人工智能和數(shù)據(jù)單獨出具法律規(guī)定,日本直接擴大了著作權(quán)法中合理使用的邊界,根據(jù)日本的《著作權(quán)法》第30條第4款:在如下所列情形以及其他情形下,當(dāng)對作品的利用并非為了自己或他人享受作品所表達(dá)的思想或情感時,在使用的必要范圍內(nèi),可以以任何方式利用作品。其直接將“不以自己或他人享受作品所表達(dá)的思想或情感為目的”的作品使用納入了合理使用的范圍【19】。在去年6月,日本文化廳發(fā)布了一份名為《AI與著作權(quán)》的文檔,詳細(xì)陳述了他們認(rèn)為訓(xùn)練AI使用的數(shù)據(jù)不涉及版權(quán)問題的原因。其核心邏輯是:擁有版權(quán)的作品能直接引發(fā)欣賞者的特殊感受,但AI在使用版權(quán)作品訓(xùn)練時并不以此為目的,而且訓(xùn)練過程中也沒有一個真正的人在以欣賞的態(tài)度對待這些作品,所以不涉及到版權(quán)保護的問題?!?0】
在美國,對于是否將“使用他人作品用于訓(xùn)練大模型”納入“合理使用”的問題同樣進行了激烈的討論。但美國的合理使用制度要更為靈活,美國版權(quán)法以“例示列舉+一般要件”的方式對合理使用制度進行了規(guī)定,在任何特定案件中判斷對作品的使用是否屬于合理使用時,應(yīng)考慮的因素包括:(1)使用的目的與性質(zhì);(2)該版權(quán)作品的性質(zhì);(3)使用部分占被利用作品質(zhì)與量的比例;(4)該使用對版權(quán)作品潛在市場或價值所產(chǎn)生的影響。這被稱為合理使用認(rèn)定“四要素標(biāo)準(zhǔn)”?!?1】又如彭博社在回應(yīng)其開發(fā)的大語言模型BloombergGPT被指控侵權(quán)未經(jīng)許可訓(xùn)練他人的版權(quán)作品“Books3”數(shù)據(jù)集時,其便在答辯中主張該使用屬于合理使用范疇,并通過四要素標(biāo)準(zhǔn)進行了闡釋,首先是1.使用的目的和性質(zhì):彭博社的使用是出于研究目的,具有教育性質(zhì)。2.受版權(quán)保護作品的性質(zhì):原告的作品是創(chuàng)造性的,但彭博社的使用是轉(zhuǎn)換性的,并不替代原作。3.使用作品的數(shù)量:彭博社使用的是大量數(shù)據(jù)集來訓(xùn)練AI,而不是復(fù)制作品的全部或部分。4.對作品市場的影響:Bloomberg GPT沒有對原告作品的市場造成影響,也沒有替代原作?!?2】
在本段討論環(huán)境下,我們可采用三步檢驗法去論證,同時可以適當(dāng)結(jié)合美國合理使用四要素的方法,審查我國大模型訓(xùn)練數(shù)據(jù)合理使用的適用范圍。即維持“只能在特殊情況下做出,與作品的正常利用不相沖突,沒有不合理的損害版權(quán)人的利益”的三步檢驗法框架,并以“(1)使用的目的與性質(zhì);(2)該版權(quán)作品的性質(zhì);(3)使用部分占被利用作品質(zhì)與量的比例;(4)該使用對版權(quán)作品潛在市場或價值所產(chǎn)生的影響”四要素去豐富三步檢驗法的論證邏輯,以增強其適用的靈活性,更好地應(yīng)對大模型時代層出不窮的新型使用形式,同時避免產(chǎn)業(yè)對于AI訓(xùn)練數(shù)據(jù)的利用掣肘導(dǎo)致在大模型競爭中落后于歐美。關(guān)鍵在于分析AI訓(xùn)練之使用對版權(quán)作品潛在市場或價值所產(chǎn)生的影響。因此,通過三步檢驗法并結(jié)合四要素,著眼于“該使用對版權(quán)作品潛在市場或價值所產(chǎn)生的影響”可以較為靈活地分析大模型訓(xùn)練數(shù)據(jù)是否構(gòu)成合理使用情形。
類似于法定許可的技術(shù)和商業(yè)可行性展望
不得不承認(rèn)的是,我國現(xiàn)有的《著作權(quán)法》框架下很難就AI訓(xùn)練數(shù)據(jù)使用版權(quán)作品的情形直接適用“合理使用”的列舉條款,需要后續(xù)立法或司法解釋進一步明確AI訓(xùn)練數(shù)據(jù)的合理使用適用問題。那么是否存在類似于“法定許可”的一種制度適用空間,我們簡單提出一些思考:
1.可以參考WEB3或版權(quán)鏈的形式進行作品使用權(quán)重分析、收益權(quán)重和模型能力貢獻度分析進而自動化分配許可收益。(算力成本過高,不現(xiàn)實)
2.以類似法定許可的方式構(gòu)建大模型數(shù)據(jù)流通共享,促進大模型能力,避免數(shù)據(jù)荒,降低模型能力的提升成本。
3.充分利用市場機制,鼓勵私有數(shù)據(jù)隱私化提供及獎勵機制(大模型企業(yè)公開制式數(shù)據(jù)搜集渠道,參考短視頻平臺初期的內(nèi)容創(chuàng)作獎勵模式?;騼?nèi)容平臺構(gòu)建平臺數(shù)據(jù)池,進行用戶獎勵,后續(xù)內(nèi)容平臺可與大模型企業(yè)進行集體組織式的授權(quán)合作,消除“數(shù)據(jù)數(shù)量和質(zhì)量”的焦慮)。
?????? 注釋:
【1】[美]斯蒂夫·沃爾夫拉姆:《這就是ChatGPT》,人民郵電出版社。
【2】黃文灝:《零一萬物黃文灝:大模型Scaling Law的訓(xùn)練方法論 | 智源大會》,微信公眾號猜想筆記,2024-06-18.
【3】阿里巴巴集團等編寫,《大模型訓(xùn)練數(shù)據(jù)白皮書》。
【4】Feeltouchlabs:《AI大語言模型之預(yù)訓(xùn)練數(shù)據(jù)來源》,微信公眾號FeelTouch Labs,2024-06-03 21:59.
【5】王崢 傅宏宇 袁媛:《大模型數(shù)據(jù)之二|中美大模型的競爭之路:從訓(xùn)練數(shù)據(jù)講起》,微信公眾號阿里研究院,2023-12-28.
【6】牛予薇:《紐約時報訴OpenAI進展解讀》,微信公眾號清華大學(xué)智能法治研究院,2024-05-05.
【7】南?!禔I訓(xùn)練版權(quán)材料是否構(gòu)成合理使用?美國法院觀點及對我國的借鑒》,微信公眾號熊貓法律星球,2024-01-02.
【8】《學(xué)而思被指“偷數(shù)據(jù)”訓(xùn)練AI,大模型數(shù)據(jù)來源合法性第一案?》,微信公眾號清華大學(xué)智能法治研究院,2023-06-18.
【9】董文佳 任惠穎:《全國首例涉及AI繪畫大模型訓(xùn)練著作權(quán)侵權(quán)案今日開庭審理》,微信公眾號知產(chǎn)力,2024-06-20.
【10】《人工智能法》(107)為了提高通用人工智能模型的預(yù)訓(xùn)練和訓(xùn)練中使用的數(shù)據(jù)的透明度,包括受版權(quán)法保護的文本和數(shù)據(jù),此類模型的提供者應(yīng)就通用模型訓(xùn)練中使用的內(nèi)容制定并公開足夠詳細(xì)的摘要。在適當(dāng)考慮保護商業(yè)秘密和商業(yè)機密信息的同時,該摘要的范圍應(yīng)在總體上全面,而不是在技術(shù)上詳細(xì),以方便包括版權(quán)持有者在內(nèi)的合法權(quán)益方行使和執(zhí)行其在歐盟法律下的權(quán)利,例如列出用于訓(xùn)練模型的主要數(shù)據(jù)收集或數(shù)據(jù)集,如大型的私有或公共的數(shù)據(jù)庫或數(shù)據(jù)檔案,并對所使用的其他數(shù)據(jù)來源進行敘述性的解釋。人工智能辦公室宜提供一個摘要模板,該模板應(yīng)簡單、有效,并允許提供者以敘述形式提供所需的摘要。
【11】《生成式人工智能服務(wù)管理暫行辦法》第七條。
【12】養(yǎng)兔子的好人:《大模型訓(xùn)練用數(shù)據(jù)的開源許可證小調(diào)查》,微信公眾號新江灣的周日,2024-06-10.
【13】宋婉瑜:《企業(yè)通過爬蟲爬取他人公開數(shù)據(jù)的合法性探討》,微信公眾號電商與數(shù)字經(jīng)濟法務(wù)圈,2023-02-14.
【14】《ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開文本數(shù)據(jù)》,微信公眾號AIGC開放社區(qū),2024-06-19.
【15】《AI版權(quán)之爭丨彭博社對侵權(quán)控訴做出回應(yīng)(附答辯狀中譯)》,微信公眾號AI與網(wǎng)絡(luò)法,2024-06-24.
【16】 劉曉春:《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》,《法學(xué)論壇》2024年第3期“特別策劃·中國人工智能立法專論”欄目。
【17】阿里巴巴集團等編寫,《大模型訓(xùn)練數(shù)據(jù)白皮書》。
【18】李伯陽:《萬字!從技術(shù)角度評析AI著作權(quán)第一案 | 誰擁有算力,誰壟斷國內(nèi)AI著作權(quán)的未來?》,微信公眾號游戲人的法律手冊 2023-12-01.
【19】朱開鑫:《一文讀懂:AI大模型訓(xùn)練中的核心版權(quán)問題》微信公眾號騰訊研究院,2023-10-19.
【20】《生成式AI的訓(xùn)練數(shù)據(jù),該由誰買單?|監(jiān)管》,https://mp.weixin.qq.com/s/w8ay_fXoiM0y7WSRiL6EYg.
【21】朱開鑫:《一文讀懂:AI大模型訓(xùn)練中的核心版權(quán)問題》微信公眾號騰訊研究院,2023-10-19.
【22】《AI版權(quán)之爭丨彭博社對侵權(quán)控訴做出回應(yīng)(附答辯狀中譯)》,微信公眾號AI與網(wǎng)絡(luò)法,2024-06-24.
?。ū疚膬H代表作者觀點,不代表知產(chǎn)財經(jīng)立場)
查看更多知識產(chǎn)權(quán)精彩內(nèi)容,請瀏覽知產(chǎn)財經(jīng)官網(wǎng):www.gtkf.cn