人工智能的眾創治理
2023-04-27 11:24:01 來源:法治日報·法治周末
智道
欄目主持人:於興中
□ 朱悅
人工智能的新近發展,包括GPT(生成式預訓練變換模型)等大模型的發展,背后都有開源社區的功勞。開源社區不僅是人工智能發展和普及的驅動力,也處在人工智能治理探索的最前沿。人工智能發展和治理的統一需要開源社區,提升人工智能素養、填平人工智能鴻溝也需要開源社區,為此需要解決若干法律問題。
開源社區推動人工智能發展普及
人工智能的發展歷程始終離不開開源社區。數據、模型和基準的開源共同推動了人工智能的發展。隨著大模型的發展,專門服務于人工智能的開源社區興起。社區成員以共創的方式讓大模型更透明、更壓縮、更可訓練、更加普及。這是每天都在前進的、令人激動的趨勢。
人工智能的發展依賴于數據、模型和基準的開源。數據是訓練人工智能的原材料。沒有開源易得的數據,大部分人無法開始學習人工智能的第一步。模型是人工智能能力的核心。沒有開源易得的模型,只有極少數主體能用上高性能的人工智能?;鶞适窃u價人工智能的標準,大家通過超越過往的基準來進步。沒有開源易得的基準,人工智能的發展缺乏明確方向,難以形成合力。
相反,只有數據、模型和基準三者都開源易得,每個普通人才有學習人工智能的機會,每個新入行的研究者才有摸索高性能人工智能的可能性,人工智能的研究社群才有共同的努力方向。
人工智能的兩類新近發展尤其體現了開源社區的意義。GPT和類似的人工智能已經展現出通用人工智能的潛力。擴散模型(diffusion model)生成圖片和視頻的能力同樣廣受矚目。兩類人工智能對于原本算力都有比較高的要求。個人原本沒有機會學習、使用這些人工智能。正是因為開源社區及無數成員的探索,今日眾多的普通人才有機會使用、創新這些人工智能。
就GPT而言,雖然ChatGPT和隨后的GPT-4不再開源,開源社區一直沒有停止追趕的努力。社區首先讓普通人也能深入學習相關原理的NanoGPT模型,然后是有了性能上接近ChatGPT的LLaMA等開源模型,最后是通過進一步加工、微調LLaMA等模型,來滿足現實應用的要求。這一過程既包括把大模型壓縮得很小,使其能夠在家用計算機上訓練;也包括漢語增強,使其避免語言和文化上的偏差。這些努力使得GPT的發展始終不至于脫離個人的能力范圍太遠。
再說擴散模型。開源社群對擴散模型的“馴服”更加成功。2022年下半年時,擴散模型已經能夠很容易地在家用計算機上訓練。2023年的進展更加迅速。僅僅是4個來月的時間,圖片和視頻生成中的失真和失控問題已經得到了相當程度的解決。由此,個人生成的畫作和影片正如“雨后春筍”般發生。不夸張地說,擴散模型的發展前沿正是由開源社區的一個個具體的人構成。
開源社區中的人工智能治理實踐
開源社區也處在人工智能治理探索的最前沿。各方發現的治理風險在這里匯聚,各方最新的治理方案在這里交鋒,世界范圍內的權威技術標準在這里形成。談論人工智能治理,目光每時每刻都不能脫離開源社區的動態。
個人對人工智能的學習和使用圍繞開源社區而展開。一旦遇到安全、公平、有害內容等問題,個人自然也會在開源社區中反饋。自主且分散的探索對于“勘探”新興技術中的潛在風險尤其重要。美國社交平臺推特的嘗試就是一個很好的例子。
一方面,推特很早就發起了算法的眾包治理項目,鼓勵各方研究者針對其推薦算法提交安全、公平、有害內容等方面的反饋。這確實解決了許多治理問題。另一方面,在眾包項目的基礎上,2023年4月,推特進一步在開源社區中開放了所有的代碼,不僅包括內容和好友推薦算法的代碼,也包括底層框架的工程代碼。圍繞這些代碼的分析正在如火如荼地展開。對治理風險的認識前所未有地深入,哪怕是對于大型互聯網平臺的繁復代碼,開源社區也能貢獻共創的治理智慧。
開源社區既容納了人工智能發展所需的數據、模型和基準,也容納了人工智能治理的前沿方案。不妨以數據卡和模型卡為例。數據卡的提出還不到3年,但已經是許多重要人工智能進展中的“標配”。數據卡不僅記載數據的來源,也詳列了數據的類型、格式和生成方式等。由此可以評估數據來源的合法性,可以糾正錯誤或偏見,還可以實施進一步的數據治理。開源社區是數據卡發展推廣的關鍵節點。GPT等項目在開源社區發布的高水平數據卡引領了社區規范的發展,后來者也有了借鑒的樣板。隨著配備數據卡的人工智能項目越來越多,服務于人工智能的開源社區專門開發了數據卡的功能??ㄆ嫌涊d的項目得到標準化,展示的方式也更加宜人。
模型卡的演變也是類似的。模型卡不僅記載模型的類型和結構,也詳列了模型的訓練方式和潛在風險?;蛘哒f,模型卡是開源社區版本的算法備案。人工智能項目普遍配備數據卡——GPT-4模型近百頁長的技術報告,即可視為一張特大號的模型卡。相應的開源社區也專門開發了標準化、可視化的模型卡功能。
開源社區還是世界性的技術組織探討和制定技術標準的場所。萬維網聯盟(World Wide Web Consortium,簡稱W3C)制定了互聯網領域許多權威的技術標準。其標準制定實踐也有開放眾創的特點。簡單來說,每個標準都是開源社區里的一個項目。盡管不是每一個體都能直接參與標準會議,但標準制定過程中的會議記錄都會充分開源。最為開放的,是將每一次討論的會議錄音上傳到開源社區。相對封閉的,則是上傳參加者發言的整理要點。雖然個體無法直接參與會議,但還是可以利用開源社區的功能直接在項目中反饋。由于這是一個緊密聯系的社區,這些反饋通常都有回音。萬維網聯盟正在制定若干對人工智能發展相當重要的標準。許多個體正在參與完善這些標準。
通過開源社區邁向發展和治理相統一
開源社區始終處在人工智能的發展和治理的最前沿,甚至可以說是人工智能的發展和治理的主干道。開源社區的眾創努力讓GPT和擴散模型的發展始終處在個人可以追及的范圍之內。開源社區的眾創治理也適用于繁雜的工程代碼、新興的數據卡模型卡和權威的技術標準。單個的先進技術可以讓人驚艷,一部深思熟慮的法律足以造福社會。一個生機勃發、不斷賦能個體的開源社區,則是能夠源源不斷地培養人工智能素養過硬的普通人,不斷抵抗人工智能技術鴻溝擴張的趨勢。這樣,先進的技術和治理的思想才有源源不斷產出的土壤。
為了培養這樣的沃壤,既要掃清社區發展的法律障礙,也要及時給予明確的法律肯認。需要掃清的障礙具體有三種:一是當前人工智能治理方案的對象主要是極少數的企業,對這些企業的要求如果適用于個人,將會過于嚴格;二是當前的治理方案較為偏重商業知識產權,或將構成對個人學習和使用的障礙;三是由于開源社區容納了來自世界各地的討論,需要掃清數據和算法在合理范圍內流動和共享所面臨的障礙。
法律也可以考慮推衍并認可個人的三類發展權利:一是參與開源社區的權利;二是個人使用大模型等人工智能的權利;三是更加廣泛的自我發展人工智能素養的權利。
(作者系北京科技創新中心研究基地研究員)