作者:吳凡 北京市融泰律師事務所合伙人
隨著生成式人工智能等顛覆性AI技術的突飛猛進,人類社會的生產、生活方式乃至社會治理模式都將隨之迎來新的變革。在這一時代背景下,如何認識人工智能產業(yè)發(fā)展帶來的各種法律問題,也越來越具有現(xiàn)實意義?;诖耍?月13日,由中國人民大學知識產權學院主辦、知產財經協(xié)辦的“人工智能相關法律適用問題”研討會在北京舉辦,會議邀請了行業(yè)多領域代表,共同探討和研究實務中遇到的涉人工智能法律問題及解決之道,以期為人工智能相關環(huán)節(jié)的法律適用問題探究答案。會上,北京市融泰律師事務所合伙人吳凡圍繞“人工智能模型訓練階段法律問題及解決路徑”話題進行主題演講,知產財經對其主講內容進行了整理,以饗讀者。以下是其演講實錄。
各位好,很榮幸能在這里向大家匯報我對人工智能模型訓練階段法律問題及解決路徑的思考。
前不久,《紐約時報》起訴OpenAI和微軟未經許可使用其作品訓練模型,除了索賠之外,甚至還要求銷毀與之相關聯(lián)的AI模型和數(shù)據。谷歌也曾因未經授權使用新聞媒體的報道訓練聊天機器人而被罰款2.5億歐元。無論在國內還是國外,模型訓練階段未經授權的版權使用行為所引發(fā)的糾紛都層出不窮。人工智能模型訓練階段的數(shù)據使用到底是合法使用還是非法使用,也決定了后續(xù)人工智能應用、輸出是否正當。
根據我國《生成式人工智能服務管理暫行辦法》的要求,生成式人工智能服務提供者在開展相應的數(shù)據訓練活動時,要尊重他人的知識產權。這包含了我們對快速發(fā)展人工智能和保護知識產權的雙重愿景,這一方向無疑是正確的。如果在未來,計算機已經擁有了人類一樣的思想,進入高等人工智能的時代,今天討論的問題也許就不再是問題。但是在當下,我國人工智能的發(fā)展仍然處于初期階段,我們仍然要回答人工智能帶來的模型訓練階段的現(xiàn)實問題。
一、訓練數(shù)據來源困境:高質量數(shù)據的需求vs版權侵權的風險
相較于美國在人工智能領域當中的領先地位,我國目前還處在追趕階段。無論是算法還是算力,我國都與美國有明顯的差距。數(shù)據是我國制勝的關鍵之一,高質量數(shù)據是人工智能發(fā)展的根基,和龐大的數(shù)據數(shù)量相比,良好的數(shù)據質量更能成為人工智能發(fā)展的引擎和催化劑。有學者研究,在同等條件之下,使用更高質量的數(shù)據來訓練模型,20億參數(shù)量級的模型甚至可以超過100億參數(shù)量級的模型。高質量訓練數(shù)據必然包含了作品和由作品所組成的數(shù)據庫,這些內容是人工智能模型訓練階段的優(yōu)質養(yǎng)料。
人工智能模型訓練階段包含諸多步驟,比如內容獲取與輸入、數(shù)據處理與轉化、算法測試與訓練等。這可能涉及復制權、改編權、信息網絡傳播權等諸項著作權內容。
對作品的利用大多數(shù)情況下都離不開復制,復制權是著作權人所享有的經濟權利的基本核心。在“作者中心主義”的影響下,隨著新技術出現(xiàn),復制權往往成為權利人主張權利的權利基礎。在他人將其作品輸入到計算機系統(tǒng)時,就已經實現(xiàn)了復制。在人工智能模型訓練階段,將作品轉化為機器可讀的作品的過程中,作品的表達沒有發(fā)生根本性改變,仍然可能侵犯復制權。這個過程中,有必要區(qū)分臨時復制和永久復制。盡管當前各國對臨時復制的法律性質存在爭議,但對永久性復制應當歸入復制權規(guī)制范圍卻存在共識。
此外,由于模型訓練的黑箱性質,如果人工智能生成物中出現(xiàn)了他人享有信息網絡傳播權的作品,則可以合理推定人工智能服務提供者將他人受保護客體用于數(shù)據訓練。在數(shù)據訓練過程中涉及對算法進行測試及同行校驗,亦可能涉及信息網絡傳播權等向公眾傳播的權利。如果向用戶提供的人工智能生成物并非原樣提供他人作品,而是對他人作品進行改編后的作品,也可以合理推定人工智能服務提供者在數(shù)據訓練過程中將他人作品進行了改編。
整體來看,人工智能模型訓練階段存在著高質量的數(shù)據要求和侵權風險之間的沖突關系。
二、訓練數(shù)據來源途徑:從“拿”到“買”
面對上述高質量數(shù)據要求和侵權風險之間的沖突問題,人工智能服務提供者已經以實際行動給出了他們的答案。簡單歸納下,人工智能訓練數(shù)據來源途徑,一個是“拿”,一個是“買”。
對于“拿”,有兩種獲取數(shù)據的方式。一種方式是從公有領域獲取,但是公有領域作品的時效性無法滿足人工智能的需求。另一種方式是冒著破壞技術措施、不正當競爭、破壞計算機信息系統(tǒng)等一系列顯而易見的法律風險,選擇使用爬蟲等技術手段直接抓取。
除了“拿”,“買”也是訓練數(shù)據來源的重要途徑。從長遠看,初始發(fā)展階段簡單粗暴的數(shù)據“拿來主義”不是長久之計。此外,權利人呼吁或以提起維權訴訟等方式主張權利的行為,使不少人工智能開發(fā)者意識到,為了獲得全面、完整、穩(wěn)定且高質量的訓練數(shù)據需要與相關權利人訂立合同取得授權,只有在授權范圍內的使用行為,才能最大程度避免侵權發(fā)生。
但是,向誰買?怎么買?買不買得到?這都是現(xiàn)實問題。若向權利人購買版權,但作品的權利人極為分散,找到作品權利人且獲得授權,是難上加難的,是效率低、成本高的事,而且無法滿足模型訓練的需要。若向數(shù)據庫或者類似平臺購買版權,比如數(shù)字圖書館、出版商等,但權利范圍能否滿足需要,權利來源是否一定合法,高度類型化的數(shù)據能否滿足模型訓練多樣化的需求,也是難題。此外,雖然我國目前已有音樂、音像、文字、攝影和電影五個著作權集體管理組織,且在國際上,由著作權集體管理解決權利許可的一種相對可行的辦法,但是立足于我國國情,基于覆蓋面、授權準確性等原因,難以由著作權集體管理組織來從根本上解決模型訓練階段的權利授權問題。
三、訓練數(shù)據困境的解決之道:合理使用制度
?。ㄒ唬┈F(xiàn)行著作權法的合理使用制度難以滿足模型訓練需求
現(xiàn)有的市場許可機制似乎已經難以解決模型訓練階段的主要問題,此時我們的目光有必要轉向合理使用制度。我國現(xiàn)行著作權法的合理使用制度采用了封閉式的規(guī)定,列舉了具體情形,雖然規(guī)定了“法律、行政法規(guī)規(guī)定的其他情形”,但由于立法的空白,合理使用制度仍是限于十二項具體情形。
合理使用制度規(guī)定的“為個人學習、研究或者欣賞,使用他人已經發(fā)表的作品”,雖然對數(shù)量等沒有限制,但限于“個人”。以個人為中心創(chuàng)設的合理使用制度,目前還難以擴大解釋到“機器人”乃至“機器人”背后的機構。合理使用制度例舉的以科研為目的使用,能夠豁免復制權的侵權,但是“少量復制”的要求難以適配人工智能領域。文化遺產機構等對內容的復制則是限于陳列或者保存版本的需要,亦不符合人工智能模型訓練的需要。
雖然現(xiàn)行的合理使用制度,不能完整涵蓋模型訓練。但是人工智能模型訓練階段,作品并非用于欣賞性、閱讀性使用,而是作為模型訓練的養(yǎng)料。同時,人工智能未對原作或轉碼、標記、整理的內容進行傳播,范圍可控。此外,如果模型訓練中的使用行為在我國被判定為侵權,將會促使新技術流向法律環(huán)境更為寬松的國家,不利于我國參與國際競爭。因此,模型訓練過程中對作品的使用,具有被作為權利例外的基礎。
針對如何優(yōu)化合理使用制度這一問題,有觀點提出引入“轉換性使用”。美國法院整體對文本與數(shù)據挖掘持相對開放的立場,當中最具代表性的案件便是美國“谷歌圖書館”案。但因未在我國法律法規(guī)或司法解釋中予以規(guī)定,我國法院在司法實踐中極少適用轉換性使用理論作出裁判。我國著作權法暗含了“三步檢驗法”,在現(xiàn)在的爭議案件、訴訟案件中,法院有可能認定特定情況之下,模型訓練階段使用他人作品屬于合理使用。但是司法裁判是一事一議,且裁判標準的不完全統(tǒng)一,仍會使得人工智能服務提供商處于迷茫的尷尬境地。
?。ǘ┖侠硎褂弥贫鹊膬?yōu)化構想
我認為,在現(xiàn)行的法律規(guī)定之內增加合理使用的具體情景是一個能更簡便、快捷地解決當前迫切需求的路徑。
合理使用制度具有豐富的內涵,體現(xiàn)了版權法在其諸多價值目標發(fā)生沖突時的一種解決路徑,肯定了公共利益價值在一定條件下的優(yōu)先地位。擴展著作權法中的合理使用,明確數(shù)據訓練過程中的合理使用標準,鼓勵開發(fā)者使其行為符合合理使用的要求,如非商業(yè)性用途或者非直接商業(yè)用途的計算機分析、適度復制、合法獲得訪問權限的版權材料、不侵犯原作品的市場價值等。
與此同時,傳統(tǒng)作者群體的訴求也不容忽視,畢竟人工智能的健康可持續(xù)發(fā)展,是在各方權利安排有序、利益分配合理的基礎上實現(xiàn)的。若簡單劃一地將整個過程視為合理使用,確實易引發(fā)潛在作者群體的抵觸情緒,甚至最終挫傷潛在作者群體的創(chuàng)作積極性。傳統(tǒng)作者群體對生成式人工智能的敵意,某種程度上是來自“機器訓練”“機器學習”這一表象之下的“商業(yè)目的”,有著激烈利益沖突。很多作者不是不歡迎人工智能,而是不能容忍其作品在自己不知情的情況下被用于模型訓練。我們應當在尊重版權的前提下,促進人工智能產業(yè)的發(fā)展。比如為作者建立“選擇退出”“選擇加入”機制,給予作者充分的選擇決定權;比如推動建立人工智能開發(fā)者與作者、著作權集體管理組織、研究機構等共同探索建立正版化的高質量數(shù)據庫;比如讓作者參與人工智能面市前的模型測試階段,若人工智能產品面市,則可以給予作者免費使用或者低價使用的機會,給作者一定的經濟讓利。
我個人傾向于采取優(yōu)化合理使用制度的方案,至少解決以科研為目的的文本和數(shù)據挖掘問題,并且承認出于非商業(yè)目的的科研性質的數(shù)據使用的合法性。同時也需要結合權利保留、著作權集體管理組織以及事后補償?shù)却胧C合性實現(xiàn)人工智能發(fā)展和保護知識產權的雙重目標。
我國目前的生成式人工智能技術創(chuàng)新還處在初級階段,而且技術快速迭代,現(xiàn)在是我們抓住機遇的黃金時期,一旦錯過,可能需要更多的時間來追趕。法律法規(guī)的制定應當給科技創(chuàng)新留有一定的發(fā)展空間,對于產品在研發(fā)階段的數(shù)據合法性要求,建立相對寬松的法律、政策環(huán)境。
今天我的分享就到這里,謝謝。
(本文僅代表作者觀點,不代表知產財經立場)
查看更多知識產權精彩內容,請瀏覽知產財經官網:www.gtkf.cn