作者:邱政談 上海融力天聞律師事務(wù)所合伙人
隨著生成式人工智能等顛覆性AI技術(shù)的突飛猛進,人類社會的生產(chǎn)、生活方式乃至社會治理模式都將隨之迎來新的變革。在這一時代背景下,如何認(rèn)識人工智能產(chǎn)業(yè)發(fā)展帶來的各種法律問題,也越來越具有現(xiàn)實意義?;诖?,7月13日,由中國人民大學(xué)知識產(chǎn)權(quán)學(xué)院主辦、知產(chǎn)財經(jīng)協(xié)辦的“人工智能相關(guān)法律適用問題”研討會在北京舉辦,會議邀請了行業(yè)多領(lǐng)域代表,共同探討和研究實務(wù)中遇到的涉人工智能法律問題及解決之道,以期為人工智能相關(guān)環(huán)節(jié)的法律適用問題探究答案。會上,上海融力天聞律師事務(wù)所合伙人邱政談圍繞“AI訓(xùn)練數(shù)據(jù)商業(yè)現(xiàn)狀和法律分析”話題進行主題演講,知產(chǎn)財經(jīng)對其主講內(nèi)容進行了整理,以饗讀者。以下是其演講實錄。
各位老師、各位領(lǐng)導(dǎo)上午好,今天,我以一個商業(yè)觀察者的身份,從商業(yè)視角做分析,期待給各位法學(xué)專家提供一些新的內(nèi)容。
我的分享分為兩部分。第一部分,AI訓(xùn)練數(shù)據(jù)商業(yè)重要性。我會從AI三要素、AI訓(xùn)練過程所包含的階段,以及AI訓(xùn)練數(shù)據(jù)在其中發(fā)揮的作用幾方面說明,為什么數(shù)據(jù)對于AI大模型如此重要。第二部分,我將分享對AI訓(xùn)練使用數(shù)據(jù)相關(guān)法律問題的思考,包含數(shù)據(jù)歧視、數(shù)據(jù)污染等。本次分享的重點是著作權(quán)問題,尤其是數(shù)據(jù)收集和使用的合規(guī)問題。
一、AI訓(xùn)練數(shù)據(jù)商業(yè)重要性
1.AI能力三要素
AI能力三要素包括算法、算力和數(shù)據(jù)。第一塊是算法,算法是一個模型能力的大腦,前年,OpenAI發(fā)布ChatGPT后,大家發(fā)現(xiàn)OpenAI的人工神經(jīng)網(wǎng)絡(luò)的架構(gòu)算法非常好,后面所有的模型可能都會模仿他們的這種算法,算法是奠定一個模型能力的基礎(chǔ)。第二塊是算力,算力很重要,高算力意味著大模型擁有更高更快的訓(xùn)練能力,所以美國會對我國進行一些AI訓(xùn)練數(shù)據(jù)方面的禁令,比如芯片出口的禁令。第三塊是數(shù)據(jù),數(shù)據(jù)是實現(xiàn)人工智能訓(xùn)練的原材料,只有高質(zhì)量的數(shù)據(jù),才能不斷提升人工智能的訓(xùn)練能力。
2.“規(guī)模法則”(ScalingLaw)
OpenAI為什么這么厲害?因為它首次提出了“規(guī)模法則”(ScalingLaw),ScalingLaw即隨著數(shù)據(jù)量、計算資源或模型規(guī)模的增加,AI系統(tǒng)性能的提升趨勢和模式。
國內(nèi)市場上對于ScalingLaw有兩種截然不同的看法。國內(nèi)著名VC投資人朱嘯虎認(rèn)為,ScalingLaw可能會失效,他認(rèn)為國內(nèi)大模型企業(yè)不需要過多在模型能力上做大投入,只需要使用開源模型,利用企業(yè)內(nèi)部核心數(shù)據(jù)做訓(xùn)練,這可能會使得大模型在應(yīng)用層面比通用模型有更好的體現(xiàn),從而獲取更多商業(yè)價值。朱嘯虎雖然認(rèn)為ScalingLaw可能會失效,但同時又認(rèn)為企業(yè)私有化的數(shù)據(jù)很重要,私有化數(shù)據(jù)決定企業(yè)訓(xùn)練模型的能力。KimiChat的創(chuàng)始人楊植麟則認(rèn)為,根據(jù)第一性原理,不斷增加模型的壓縮比可以最終實現(xiàn)通用人工智能。但是在不斷壓縮的過程中,一定要有不斷擴大模型規(guī)模的過程,所以他本質(zhì)上也是認(rèn)可ScalingLaw的。
無論如何,最終回歸到一個判斷:不斷提升AI訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,才是不斷提升模型能力的最關(guān)鍵核心。市場上有一個很強的共識:不同的大模型利用相同的數(shù)據(jù)進行訓(xùn)練,最終模型能力會無限趨同。AI訓(xùn)練數(shù)據(jù)決定模型能力,應(yīng)當(dāng)審慎看待AI訓(xùn)練數(shù)據(jù)的法律問題。中美有很多模型能力上的差異,可能大家覺得是因為中國的AI人才不如硅谷,或者是因為沒有那么多的萬卡甚至十萬卡集群,所以算力不夠,其實最關(guān)鍵的原因是中美訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量上的差異。
3.大語言模型(LLM)訓(xùn)練過程
下面以大語言模型為例,介紹AI訓(xùn)練過程,包括三個階段。第一,預(yù)訓(xùn)練,即利用公開數(shù)據(jù)進行基本模型能力的搭建。在預(yù)訓(xùn)練基礎(chǔ)上,進入到第二階段,監(jiān)督微調(diào),大模型企業(yè)的員工會進行針對性的設(shè)問和回答,把例題投喂給模型,模型根據(jù)人提供的例題實現(xiàn)監(jiān)督微調(diào)功能。第三階段,基于人類反饋的強化學(xué)習(xí)。前兩段訓(xùn)練出來的模型并不能很好地匹配人類的價值觀,甚至可能涉及反人類理論,因此第三階段很重要,這是使得模型最終能夠面向公眾的階段。在討論AI訓(xùn)練數(shù)據(jù)時,主要涉及第一個階段,后兩個階段較少涉及AI訓(xùn)練數(shù)據(jù)。
4.AI訓(xùn)練數(shù)據(jù)分類及合規(guī)要求
此處的AI訓(xùn)練數(shù)據(jù)分類是我站在法律人和商業(yè)觀察者雙重角度,提出的比較適合做法律分析的分類。市面上有一些對AI訓(xùn)練數(shù)據(jù)的分類,但都是站在技術(shù)角度的。第一,公共開源的數(shù)據(jù)集(包含開源網(wǎng)頁數(shù)據(jù)集、開源對話數(shù)據(jù)集、開源書刊數(shù)據(jù)集等),需要注意“開源許可證”問題。第二,公開但非開源數(shù)據(jù),一般采取人工采集或自動爬取的方式從互聯(lián)網(wǎng)獲取,需要注意合法利用爬蟲或者API接口,不能違反Ropots協(xié)、者API服務(wù)鑒權(quán)聲明等要求,還可能涉及著作權(quán)問題、隱私問題、數(shù)據(jù)合法使用問題。第三,私有數(shù)據(jù),一般向第三方數(shù)據(jù)商采購獲取,需要注意數(shù)據(jù)合規(guī)、隱私問題、合法交易問題。對于前兩種公開數(shù)據(jù),大部分模型企業(yè)掌握的都差不多,但私有數(shù)據(jù)是拉開各個企業(yè)模型能力差距的重要原因。
5.中美AI訓(xùn)練數(shù)據(jù)來源差異引發(fā)模型能力差異
當(dāng)前,中美模型能力存在差異,而最根本的差異是AI訓(xùn)練數(shù)據(jù)本身的差異,中國的訓(xùn)練數(shù)據(jù)整體不如美國。美國的社會力量整合政府的開放數(shù)據(jù)與網(wǎng)絡(luò)的公開數(shù)據(jù),提升數(shù)據(jù)精細度和專業(yè)性,形成以開源為主的高質(zhì)量訓(xùn)練語料。我國主要是利用海外優(yōu)質(zhì)開源數(shù)據(jù)集及中文語料數(shù)據(jù)集。在互聯(lián)網(wǎng)上,90%的訓(xùn)練數(shù)據(jù)都是英文內(nèi)容,中文內(nèi)容不足10%。除了巨大的數(shù)量差異,還有一些社會原因?qū)е挛覈腁I訓(xùn)練數(shù)據(jù)遠遠不如美國。中國企業(yè)處于商業(yè)利益和知識產(chǎn)權(quán)的考慮,對于領(lǐng)域知識共享意愿度低。因此,我國公共數(shù)據(jù)開發(fā)不足,整體開源的高質(zhì)量訓(xùn)練語料不足。分享這些內(nèi)容,是希望各位在討論AI訓(xùn)練數(shù)據(jù)的法律問題時,能夠考慮到產(chǎn)業(yè)保護,幫助國產(chǎn)大模型提升自己的能力。
二、國內(nèi)外AI訓(xùn)練數(shù)據(jù)主要法律問題
從“紐約時報與微軟OpenAI案”“筆神作文與學(xué)而思AI訓(xùn)練數(shù)據(jù)糾紛”等案件中可以發(fā)現(xiàn),司法層面最為核心的問題是AI訓(xùn)練數(shù)據(jù)的合法獲取和使用問題。
1.國內(nèi)AI訓(xùn)練數(shù)據(jù)的法律隱憂
國內(nèi)AI訓(xùn)練數(shù)據(jù)會存在的法律隱憂包括數(shù)據(jù)違規(guī)獲?。ㄟ`反爬蟲協(xié)議、利用API接口違規(guī)獲取等)和相關(guān)著作權(quán)問題,以及AI訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量不足、數(shù)據(jù)污染(電商刷單、AI生成內(nèi)容水貼、惡意評論)、數(shù)據(jù)偏見與歧視、未進行數(shù)據(jù)隱私向量化、數(shù)據(jù)投毒等問題。今天的討論主要集中于數(shù)據(jù)違規(guī)獲取和相關(guān)著作權(quán)問題。
2.AI黑箱導(dǎo)致的AI訓(xùn)練數(shù)據(jù)不可感知而產(chǎn)生合規(guī)僥幸
“算法黑箱”是過去經(jīng)常提到的一個概念,AI技術(shù)發(fā)展后的共識是存在一定程度的“AI黑箱”(人工智能系統(tǒng)缺乏透明度和可解釋性,在這些系統(tǒng)中,如何訓(xùn)練數(shù)據(jù)、輸入數(shù)據(jù)如何被轉(zhuǎn)換成輸出結(jié)果的過程不清晰,或者對于最終用戶和利益相關(guān)者來說不可見)。此時對于AI系統(tǒng)擁有者而言,其容易認(rèn)為如何進行模型的預(yù)訓(xùn)練外界無法感知,使用哪些AI訓(xùn)練數(shù)據(jù)亦不感,此時容易產(chǎn)生一種合規(guī)僥幸。
歐盟《人工智能法》中有AI合規(guī)僥幸相關(guān)規(guī)定,歐盟《人工智能法》第(107)條提出,通用人工智能模型提供者應(yīng)就通用模型訓(xùn)練中使用的內(nèi)容制定并公開足夠詳細的摘要,例如列出用于訓(xùn)練模型的主要數(shù)據(jù)收集或數(shù)據(jù)集,如大型的私有或公共的數(shù)據(jù)庫或數(shù)據(jù)檔案,并對所使用的其他數(shù)據(jù)來源進行敘述性的解釋。
中國目前相關(guān)立法只有《生成式人工智能服務(wù)管理辦法》第七條的概括性的描述:生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù)。
我認(rèn)為,如果要規(guī)制人工智能行業(yè),需要在后續(xù)立法及實施細則上作出更多更詳細地規(guī)定,比如詳細規(guī)定需要制定一個怎樣的摘要,摘要內(nèi)容應(yīng)該包含哪些信息,后續(xù)監(jiān)督的機構(gòu)是怎樣的,以及未實施這些細則產(chǎn)生的法律責(zé)任。
3.訓(xùn)練數(shù)據(jù)授權(quán)許可不是很適用著作權(quán)授權(quán)許可使用制度
我認(rèn)為,走傳統(tǒng)的著作權(quán)授權(quán)許可路徑對訓(xùn)練數(shù)據(jù)授權(quán)許可,不是很適用。原因有以下幾點。第一,訓(xùn)練數(shù)據(jù)的特點是數(shù)據(jù)量大、類型復(fù)雜,大模型訓(xùn)練時需要非常大規(guī)模的數(shù)據(jù),可能會涉及非常廣泛的數(shù)據(jù)來源。單個或者部分的作品對于大模型整個訓(xùn)練的過程的作用幾乎可以忽略不計。第二,考慮使用目的,人工智能訓(xùn)練對可能包含版權(quán)作品的數(shù)據(jù)進行使用時,并不是直接呈現(xiàn)版權(quán)內(nèi)容,也不是二次呈現(xiàn),只是提煉出其中具有特征向量化的數(shù)值去投喂給模型,使得模型具備理解那些數(shù)值的能力,進而通過算法生成一些新的內(nèi)容。第三,授權(quán)基礎(chǔ)不明確,與傳統(tǒng)著作權(quán)授權(quán)不同。傳統(tǒng)著作權(quán)授權(quán)的權(quán)項非常明確,比如購買版權(quán)內(nèi)容是為了實現(xiàn)信息網(wǎng)絡(luò)傳播。但是,由于人工智能訓(xùn)練時使用版權(quán)內(nèi)容的方式是完全不一樣的,授權(quán)的是哪個權(quán)項,這一問題非常不明確。第四,考慮授權(quán)價值,AI訓(xùn)練數(shù)據(jù)非傳統(tǒng)著作權(quán)授權(quán)的作品本身使用或欣賞價值。最后,考慮授權(quán)難度,面對龐雜的數(shù)據(jù),尋求單一或部分作品的授權(quán)存在障礙。因此,當(dāng)前的AI訓(xùn)練數(shù)據(jù)可能不是很適用著作權(quán)許可授權(quán)的制度。
4.訓(xùn)練數(shù)據(jù)著作權(quán)侵權(quán)問題
阿里研究院觀點認(rèn)為:大模型對版權(quán)類訓(xùn)練語料的使用是轉(zhuǎn)換性使用,屬于合理使用或法定許可。大模型對于版權(quán)作品的使用,并不是以欣賞作品原有價值為目的而進行利用,或?qū)υ凶髌穬?nèi)容進行復(fù)制和傳播從而替代原有作品,而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎(chǔ)能力,就如給人類進行教育需要對其進行廣泛的知識授予一般。有鑒于此,用版權(quán)類數(shù)據(jù)對模型進行訓(xùn)練,不應(yīng)被視為“復(fù)制式拷貝”的版權(quán)侵權(quán)行為,而應(yīng)屬于轉(zhuǎn)換性使用的范疇,并應(yīng)構(gòu)成“合理使用”或“法定許可”。
本人在一定程度上認(rèn)可上述阿里研究院的觀點,我們認(rèn)為,通過這種方式,可能使得國內(nèi)模型企業(yè)的能力有一定的提升,能夠保障他們在跟美國模型競爭時有一定的競爭力。
以上是我的分享,謝謝。
(本文僅代表作者觀點,不代表知產(chǎn)財經(jīng)立場)
查看更多知識產(chǎn)權(quán)精彩內(nèi)容,請瀏覽知產(chǎn)財經(jīng)官網(wǎng):www.gtkf.cn