作者:李士林 南昌大學(xué)法學(xué)院教授
?????????? 黃?? 誠 南昌大學(xué)法學(xué)碩士
一、ChatGPT的技術(shù)核心與法律表達(dá)
ChatGPT是美國人工智能研究公司OpenAI發(fā)布的一款智能聊天機(jī)器人,通過 “模仿學(xué)習(xí)+強(qiáng)化學(xué)習(xí)”表現(xiàn)出非常通用且強(qiáng)大的自然語言處理能力,不僅可以與用戶進(jìn)行高質(zhì)量的對(duì)話,而且可以準(zhǔn)確地按照用戶意圖問答、對(duì)話,完成文檔概況、文本創(chuàng)作等場(chǎng)景任務(wù),甚至可以撰寫行業(yè)報(bào)告、營銷方案等[1]。難能可貴的是,ChatGPT可以主動(dòng)承認(rèn)錯(cuò)誤,質(zhì)疑不正確的對(duì)話,支持上下文理解并展開連續(xù)多輪對(duì)話。
ChatGPT之所以能夠?qū)崿F(xiàn)復(fù)雜的智能對(duì)話,端賴于其獨(dú)特的核心技術(shù)構(gòu)成,其可簡要?dú)w納為三點(diǎn):其一,基于GPT-3.5(Generative Pre-trained Transformer 3.5)自然語言處理模型,主要包含超大的統(tǒng)計(jì)語言模型或順序文本預(yù)測(cè)模型,使用RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))技術(shù)進(jìn)行訓(xùn)練。這一訓(xùn)練范式增強(qiáng)了人類對(duì)模型輸出結(jié)果的調(diào)節(jié),并且對(duì)結(jié)果進(jìn)行了更具理解性的排序。獎(jiǎng)勵(lì)和優(yōu)化模型獲得SFT(Supervised Fine-Tuning)模型。訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Model,RM)采用PPO(Proximal Policy Optimization,近端策略優(yōu)化)強(qiáng)化學(xué)習(xí)來優(yōu)化策略。其二,大數(shù)據(jù):截止2022年11月參數(shù)量已經(jīng)達(dá)到千億級(jí),預(yù)訓(xùn)練的數(shù)據(jù)量達(dá)到百T級(jí);該模型使用來自互聯(lián)網(wǎng)的文本數(shù)據(jù)庫進(jìn)行訓(xùn)練,包括從書籍、網(wǎng)絡(luò)文本、維基百科、文章和互聯(lián)網(wǎng)其他文本中獲得的高達(dá)570GB的數(shù)據(jù)。更準(zhǔn)確地說,它在5000億個(gè)單詞組成的訓(xùn)練數(shù)據(jù)上進(jìn)行了高強(qiáng)度訓(xùn)練。其三,邏輯算法,ChatGPT仍然是黑盒模型。目前還未能對(duì)ChatGPT的內(nèi)在算法邏輯進(jìn)行分解,雖然使用AI對(duì)齊水平,加入了道德和倫理因素,但是并不能保證ChatGPT不會(huì)產(chǎn)生攻擊甚至傷害用戶的表述。[2]
ChatGPT不僅是技術(shù)上的一次突破,而且其強(qiáng)大的功能可能會(huì)帶來生產(chǎn)關(guān)系的變革,考量和沖擊現(xiàn)有的法律體系??疾炱涔δ軐?shí)現(xiàn)路徑,我們不難發(fā)現(xiàn)ChatGPT作為智能機(jī)器人在法律語境下可以做如下表達(dá):其一,在支持人工智能為法律主體的國家,ChatGPT可以獲得主體地位;其二,構(gòu)成ChatGPT的自然語言處理模型、反饋模型、優(yōu)化模型等以計(jì)算機(jī)語言和程序代碼實(shí)現(xiàn),可以歸類為著作權(quán)法上的計(jì)算機(jī)軟件;其三,ChatGPT不同于搜索功能的大語言庫,[3]依賴于獲取的超量數(shù)據(jù),受數(shù)據(jù)法律規(guī)范和相關(guān)文本訪問與使用的約束;其四,ChatGPT的輸出和表達(dá)涉及信息的表達(dá)和傳播,受信息法律的監(jiān)管和規(guī)制;其五,其運(yùn)用算法進(jìn)行內(nèi)部訓(xùn)練和學(xué)習(xí),可能存在著作權(quán)侵權(quán)和合理使用的疑問。
二、現(xiàn)有法律框架內(nèi)的風(fēng)險(xiǎn)評(píng)價(jià)
在我國當(dāng)下的法律語境中,調(diào)整信息的規(guī)范方式有內(nèi)外之別。存在于內(nèi)心無發(fā)乎于外者當(dāng)屬內(nèi)心自由的范疇,不受法律的約束,由此延及私人領(lǐng)域的學(xué)習(xí)自由、交流自由和表達(dá)自由。個(gè)人可以利用一切可及的資料和素材充實(shí)自己的知識(shí),提高自身的智識(shí)水平,達(dá)致高水平的專業(yè)能力;在他人允許的范圍內(nèi),可以自由選擇交流的對(duì)象,交換自己的思想和觀點(diǎn);通過寫作和自言自語自由表達(dá)自己的思想,或者借助一定的表達(dá)工具記錄自己的想法和觀點(diǎn)。所有這一切私人行為只要限定在不影響他人的范圍內(nèi),當(dāng)不受法律的監(jiān)控和規(guī)制。如果信息以一定的方式表達(dá)并公之于眾,對(duì)他人產(chǎn)生智識(shí)、思想或情感上的影響,那么以信息為中心形成的多種社會(huì)關(guān)系就成為法律所調(diào)整的對(duì)象,為法律所規(guī)范。信息的傳播因其方式的不同分別受到新聞法、出版法、網(wǎng)絡(luò)信息法等規(guī)范的約束。具備獨(dú)創(chuàng)性的作品在復(fù)制、傳播過程中形成了一系列的財(cái)產(chǎn)關(guān)系。侵權(quán)性抄襲、復(fù)制、網(wǎng)絡(luò)傳播等行為引發(fā)相應(yīng)的侵權(quán)訴訟。
ChatGPT是一款在模型框架內(nèi)對(duì)大語言數(shù)據(jù)運(yùn)用算法和算力訓(xùn)練而成的智能對(duì)話機(jī)器人。其強(qiáng)大的智能對(duì)話和文字處理功能皆建立在模型對(duì)大量資料的存儲(chǔ)、運(yùn)算、識(shí)別和調(diào)用中。依照信息規(guī)范的內(nèi)外路徑,ChatGPT包含了信息的內(nèi)部處理程序和外部表達(dá)程序。在內(nèi)部信息的處理過程中,其通過預(yù)先的學(xué)習(xí)、強(qiáng)化、反饋等過程,生成大語言庫,在接收到用戶對(duì)話或需要的內(nèi)容指令,生成經(jīng)過大算力之后的信息,然后將信息文本或?qū)υ捦ㄟ^編碼輸入,再通過解碼輸出最后的內(nèi)容,即用戶最終需要的文本、語音對(duì)話等。整個(gè)過程都在ChatGPT的內(nèi)部程序和算法控制的范圍內(nèi)運(yùn)行。從信息的內(nèi)部規(guī)范路徑審視,這些行為都屬于私人領(lǐng)域的事務(wù),并不受外部規(guī)范的約束。但是ChatGPT并非像自然人一樣自行控制自己的內(nèi)部學(xué)習(xí),其全部的私行為其實(shí)為程序員施行大量的外部性社會(huì)行為的結(jié)果。剖析ChatGPT內(nèi)部的運(yùn)行機(jī)理,我們可以將其為集成程序所進(jìn)行的外部行為歸納為一個(gè)流程,即資料搜集、數(shù)據(jù)攫取——加工整合成大語言數(shù)據(jù)庫——命令的接收和算法運(yùn)算——結(jié)果輸出。
首先,從目前報(bào)道的情況看,ChatGPT的大語言信息來源于公開的網(wǎng)頁信息、信息資源庫(比如,維基百科等)、數(shù)字圖書館、專業(yè)數(shù)據(jù)庫、社交平臺(tái)等內(nèi)容,使用爬蟲協(xié)議等底層技術(shù)通過對(duì)大語言信息的搜索、歸類、分析,訓(xùn)練ChatGPT成為智者。所爬取的信息如果屬于公開可以利用的數(shù)據(jù),自然就可以歸入大語言庫,如果屬于信息來源方采用技術(shù)措施加密或不愿意分享的內(nèi)容,ChatGPT就無法合法取得,否則構(gòu)成破壞技術(shù)措施侵權(quán),或者因非法訪問、處理他人數(shù)據(jù),構(gòu)成不正當(dāng)競爭侵害。由此可見,ChatGPT的訓(xùn)練學(xué)習(xí)和智能對(duì)話建立在大量信息的獲取基礎(chǔ)上,在不同的語言區(qū)域內(nèi),由于獲取某種語言的信息廣度和限度不同,導(dǎo)致ChatGPT處理和輸出的信息量有所不同,在不同語言操作的情景對(duì)話情形下,ChatGPT輸出的結(jié)果有所偏差,比如,在英語對(duì)話的場(chǎng)景中獲得的結(jié)果比某種小語種輸出的結(jié)果豐富??紤]到ChatGPT非對(duì)話情境下的強(qiáng)大翻譯能力,用戶可能獲取的結(jié)果更多源于對(duì)英語信息的處理。如此以來,ChatGPT在推動(dòng)信息流動(dòng)的同時(shí),反而加重了知識(shí)產(chǎn)權(quán)塑造的信息殖民格局。如果考慮到ChatGPT所在國善于政治操弄,ChatGPT政治立場(chǎng)上“選邊站隊(duì)”,[4]那么在ChatGPT置入意識(shí)形態(tài)內(nèi)容,比如對(duì)平權(quán)意識(shí)、種族問題、性別問題等,它都會(huì)有一套符合美國政治標(biāo)準(zhǔn)的處理方案,并不是一個(gè)純粹全球性的東西。[5]這反而更便捷于對(duì)他國發(fā)動(dòng)信息戰(zhàn)和政治攻擊。
其次,在信息處理和形成的過程中,除面對(duì)數(shù)據(jù)權(quán)益和壟斷的問題,還牽涉對(duì)享有知識(shí)產(chǎn)權(quán)信息的處置。ChatGPT的訓(xùn)練和學(xué)習(xí)過程是否存在知識(shí)產(chǎn)權(quán)問題,需要知識(shí)產(chǎn)權(quán)的例外和豁免?或者如上述的私人學(xué)習(xí)過程,根本不涉及知識(shí)產(chǎn)權(quán)問題呢?著作權(quán)對(duì)于私人學(xué)習(xí)行為,包括學(xué)習(xí)、研究、欣賞以及介紹、評(píng)論、說明某一問題引用的內(nèi)容予以著作權(quán)侵權(quán)例外。ChatGPT的大語言訓(xùn)練過程,包含了對(duì)海量數(shù)據(jù)的處理,自然也涉及對(duì)作品的學(xué)習(xí)和利用,這個(gè)訓(xùn)練過程歸入私人學(xué)習(xí)的范疇呢,還是屬于復(fù)制、剪輯和重新排列組合呢?在著作權(quán)規(guī)范表達(dá)及其延伸至表達(dá)的物化載體前提下,我們大可不必究問形成表達(dá)的內(nèi)部過程,不管是對(duì)于私人的學(xué)習(xí),還是人工智能的內(nèi)部訓(xùn)練,只要其最終的表達(dá)不落入著作權(quán)權(quán)利覆蓋的范圍內(nèi),自然不會(huì)侵犯著作權(quán)。唯一的疑問在于,ChatGPT內(nèi)部訓(xùn)練學(xué)習(xí)的過程中,是否牽涉對(duì)他人數(shù)據(jù)的非法訪問、存儲(chǔ)、截取和運(yùn)算。目前在我國法域內(nèi),數(shù)據(jù)的非法操作可能涉嫌構(gòu)成不正當(dāng)競爭。為了推動(dòng)數(shù)據(jù)的流通,促進(jìn)數(shù)字經(jīng)濟(jì)的發(fā)展,未來需要探索數(shù)據(jù)產(chǎn)權(quán)制度,為數(shù)據(jù)流通提供足夠的制度支撐。
綜合以上論述,ChatGPT的內(nèi)部訓(xùn)練可以歸結(jié)為法律規(guī)范上的數(shù)據(jù)使用問題,如此以來,ChatGPT的法律評(píng)價(jià)主要牽涉外部表達(dá)的法律性問題。
最后,考慮到ChatGPT強(qiáng)大的對(duì)話、思辨和學(xué)習(xí)能力,我們將其視為言論者或發(fā)言者并不過為。就言論者而言,其表達(dá)受到更多的人權(quán)憲章、國家主權(quán)、反邪教、反歧視、鼓吹戰(zhàn)爭、犯罪色情等限制。從我國的信息管控法的層面分析,這屬于公法所控制的信息范圍,任何組織和個(gè)人不得傳播。
利用信息優(yōu)勢(shì)和技術(shù)優(yōu)勢(shì),對(duì)他國政府、人民和社會(huì)進(jìn)行污蔑、歪曲和抹黑,進(jìn)行所謂的意識(shí)形態(tài)滲透,搞雙標(biāo),操縱國際議論孤立和壓制他國,以所謂的人權(quán)問題,顛倒黑白,扶植和組織反對(duì)勢(shì)力對(duì)他國進(jìn)行網(wǎng)絡(luò)攻擊和數(shù)據(jù)篡改等等一系列侵害他國信息安全和信息主權(quán)的行為都可能被ChatGPT翻越管控,放大、突出和散播。
第二類信息管控的是有害價(jià)值觀和意識(shí)形態(tài)的軟影響,虛假信息,煽動(dòng)、拱火和挑撥,未經(jīng)證實(shí)的偽科學(xué),以及利用政治手段打壓經(jīng)濟(jì)、文化、疫情等全球化和國際化的共同問題。尤其是私權(quán)爭端的政治化,比如美國通過的商業(yè)秘密執(zhí)行法案,將知識(shí)產(chǎn)權(quán)爭端政治化和妖魔化等等有害言論。[6]
第三類為ChatGPT口頭對(duì)話和文字表達(dá)涉嫌對(duì)他人人身性權(quán)利的損害,包括隱私權(quán)、人格尊嚴(yán)等等的隱私、歧視性侵害。文字表達(dá)涉嫌對(duì)他人作品的抄襲和剽竊,這其中可能會(huì)加重網(wǎng)絡(luò)洗稿、超大數(shù)據(jù)片段的重新排列和組合,猶如混音作品對(duì)大量音樂音符的抽取和重組,加重了傳統(tǒng)三步法、層次法等內(nèi)容比對(duì)判斷作品侵權(quán)方法應(yīng)對(duì)的難度。
三、面向技術(shù)未來的法律變革
當(dāng)前圍繞AI的主導(dǎo)權(quán)爭奪戰(zhàn)愈演愈烈,不管對(duì)于哪個(gè)領(lǐng)域,數(shù)據(jù)都是AI不可或缺的基礎(chǔ)資源。在汽車、醫(yī)藥、能源行業(yè)AI應(yīng)用發(fā)展居于前列,新藥的研發(fā)有賴于對(duì)病例的大數(shù)據(jù)分析,借助于AI針對(duì)病癥、病灶的藥物分子研究可以提高藥物的研發(fā)效率,保證新藥的有效靶點(diǎn)數(shù)。汽車的AI駕駛技術(shù),電力的有效分配和電力系統(tǒng)的持續(xù)供應(yīng)依賴于AI的算力和精準(zhǔn)反應(yīng)。AI智能有效運(yùn)行的核心是數(shù)據(jù),建立有效的數(shù)據(jù)流通和交換制度,解綁約束信息自由流通的知識(shí)產(chǎn)權(quán)制度,是推動(dòng)ChatGPT新一代人工智能技術(shù)發(fā)展的必由之路。
(一)構(gòu)建數(shù)據(jù)產(chǎn)權(quán)制度
為了在關(guān)鍵核心技術(shù)上獲得突破性發(fā)展,我國發(fā)布了《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(又稱《數(shù)據(jù)二十條》)以促進(jìn)數(shù)據(jù)合規(guī)高效流通使用、賦能實(shí)體經(jīng)濟(jì)為主線,探索適應(yīng)數(shù)字經(jīng)濟(jì)發(fā)展的產(chǎn)權(quán)制度。根據(jù)數(shù)據(jù)來源和數(shù)據(jù)生成特征,分別界定數(shù)據(jù)生產(chǎn)、流通、使用過程中各參與方享有的合法權(quán)利,建立數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營權(quán)等分置的產(chǎn)權(quán)運(yùn)行機(jī)制,推進(jìn)非公共數(shù)據(jù)按市場(chǎng)化方式“共同使用、共享收益”的新模式。
目前依照我國法律的規(guī)定,信息的來源主體為個(gè)人、企業(yè)和政府部門。個(gè)人數(shù)據(jù)的主要內(nèi)容為個(gè)人信息,剔除可識(shí)別性信息或者匿名化之后的數(shù)據(jù),可以使用與流通。依照共同收益的原則,即便匿名化后的數(shù)據(jù)被使用和流通,也應(yīng)當(dāng)分配部分收益給個(gè)人。來自于企業(yè)的數(shù)據(jù)成分比較復(fù)雜,既有搜集于外部的交易類數(shù)據(jù),也有內(nèi)部生產(chǎn)管理過程中產(chǎn)生的數(shù)據(jù),在不考慮數(shù)據(jù)原始來源的情況下,企業(yè)作為數(shù)據(jù)的收集者和加工處理者,可以流通享有權(quán)益的數(shù)據(jù)包。由于政府?dāng)?shù)據(jù)和公共數(shù)據(jù)的公益性,自有其特殊性,不便于商業(yè)數(shù)據(jù)一體處置。如此以來,借鑒我國農(nóng)地三權(quán)分置制度,建構(gòu)由各環(huán)節(jié)分享收益的有限產(chǎn)權(quán)制度,可以充分激活數(shù)據(jù)的流通價(jià)值和資源價(jià)值,打破數(shù)據(jù)的分割和壟斷,弱化數(shù)據(jù)產(chǎn)權(quán)對(duì)數(shù)據(jù)流通的影響和不適當(dāng)控制。
?。ǘ┳兏镏R(shí)產(chǎn)權(quán)制度
據(jù)前述,即便我們認(rèn)定ChatGPT內(nèi)部的訓(xùn)練和學(xué)習(xí)落入合理使用的范疇,但是由于技術(shù)措施對(duì)作品的保護(hù),產(chǎn)權(quán)對(duì)數(shù)據(jù)訪問的限制,事實(shí)上仍導(dǎo)致ChatGPT建立的大語言數(shù)據(jù)庫存在數(shù)據(jù)資源的不足,尤其在同質(zhì)人工智能產(chǎn)品的開發(fā)者之間,可便捷取得的數(shù)據(jù)資源將成為左右競爭的核心要素。為了推動(dòng)人工智能科技的發(fā)展,我們可以考慮弱化著作權(quán)控制,合理解綁技術(shù)措施的保護(hù),加大技術(shù)措施的例外和細(xì)化AI合理使用的情形。對(duì)于難以私下協(xié)商取得授權(quán)的數(shù)據(jù)庫和資源庫,可以集中設(shè)立著作權(quán)便捷性許可使用平臺(tái),推動(dòng)著作權(quán)交易高效進(jìn)行。
至于ChatGPT是否為創(chuàng)作主體,因不同法域規(guī)定的差別,大多數(shù)國家可能并不把AI人工智能視為法律主體,其創(chuàng)作物單純從形式上判斷可能滿足作品獨(dú)創(chuàng)性的構(gòu)成要件,而一旦表明人工智能為創(chuàng)作人的事實(shí),其作品性馬上就會(huì)被否認(rèn)。ChatGPT盡管有所突破,但它的回答是基于經(jīng)驗(yàn)主義的判斷,是先驗(yàn)知識(shí)基礎(chǔ)上的精加工“知識(shí)拼盤”,[7]而非自主意識(shí)支配下的知識(shí)創(chuàng)新和自我思考下的靈感乍現(xiàn),何況其不具備為創(chuàng)作負(fù)責(zé)的能力。[8]
?。ㄈ﹥?yōu)化信息監(jiān)管制度
我國對(duì)涉及國家主權(quán)和安全的信息采用絕對(duì)監(jiān)管原則,虛假和不實(shí)信息由網(wǎng)信部門協(xié)助通信、衛(wèi)生、公安、文化等部門執(zhí)法,知識(shí)產(chǎn)權(quán)和侵害人身類信息主要依賴權(quán)利人自身維權(quán)。信息的分類分級(jí)管理體制和健康良好網(wǎng)絡(luò)生態(tài)環(huán)境的總目標(biāo),使得我國的信息管控比較嚴(yán)格,國外未經(jīng)認(rèn)證的網(wǎng)絡(luò)信息不可訪問,損害政治生態(tài)和國家體制的信息不得傳播,網(wǎng)絡(luò)內(nèi)重大問題和實(shí)質(zhì)問題的討論和爭辯鮮少見到。
ChatGPT的大語言數(shù)據(jù)庫依賴于可以獲得的高質(zhì)量信息,高質(zhì)量的數(shù)據(jù)來源是建構(gòu)AI大語言系統(tǒng)的基礎(chǔ)。如果在信息資源和信息元數(shù)據(jù)的供應(yīng)上不足或者無法滿足大智能機(jī)器訓(xùn)練和學(xué)習(xí)需要的素材,那么人工智能產(chǎn)品的產(chǎn)出必然受到影響。為此,我們應(yīng)該適當(dāng)保持開放、共贏的原則,引入高質(zhì)量的網(wǎng)絡(luò)內(nèi)容平臺(tái),對(duì)信息內(nèi)容的審查堅(jiān)持底線思維,盡量寬容。
結(jié)論
ChatGPT作為科技領(lǐng)域內(nèi)的現(xiàn)象級(jí)成果,既能展開智能對(duì)話,又能夠完成撰寫代碼、論文、詩歌、小說等等任務(wù)。但是其可能成為傳播錯(cuò)誤和虛假信息的工具,制造或加重各種歧視性話題,威脅他國網(wǎng)絡(luò)安全和薪資主權(quán),成為其所在國發(fā)動(dòng)信息戰(zhàn)的武器,諸如此類的缺陷讓公眾擔(dān)心。
為了推動(dòng)我國人工智能的發(fā)展,我們應(yīng)當(dāng)以數(shù)據(jù)流通為著力點(diǎn),松綁知識(shí)產(chǎn)權(quán)對(duì)人工智能訓(xùn)練內(nèi)容的限制,對(duì)信息流通和傳播抱持寬容的態(tài)度,切實(shí)掃清阻礙生產(chǎn)力發(fā)展的舊生產(chǎn)關(guān)系,新立或修改不適合技術(shù)發(fā)展的法律法規(guī)。
注釋:
1.王金橋:《嗨ChatGPT,人類對(duì)你最好奇的是什么呢?》,中科院之聲,2023-02-16。
2.ChatGPT發(fā)展歷程、原理、技術(shù)架構(gòu)詳解和產(chǎn)業(yè)未來。
3.由于 ChatGPT是一個(gè)大型語言模型,不直接具備網(wǎng)絡(luò)搜索功能,因此不連接搜索引擎的版本只能基于2021年所擁有的數(shù)據(jù)集進(jìn)行回答。
4.賈驥業(yè)、王林:《ChatGPT爆火,倫理安全拷問現(xiàn)行治理體系》,中國青年報(bào),2023-02-21 。
5.承天蒙:《復(fù)旦教授徐英瑾:ChatGPT并不具備純粹的全球性》,澎湃新聞?科創(chuàng)101,2023-02-16。
6.美國2023年初通過了《商業(yè)秘密保護(hù)執(zhí)行法案》,可以利用政府力量對(duì)涉嫌侵害商業(yè)秘密的外國組織和個(gè)人啟動(dòng)刑事追訴程序。
7.張佳欣、劉園園、陳 曦:《ChatGPT:“頂流”之下,看人工智能喜與憂》,科技日?qǐng)?bào),2023-02-16。
8.萬勇:《ChatGPT引發(fā)著作權(quán)問題新思考》,法治日?qǐng)?bào),2023-02-15。
(本文僅代表作者個(gè)人觀點(diǎn),不代表知產(chǎn)財(cái)經(jīng)立場(chǎng))