三、人工智能的安全风险
人工智能的发展促进了当今世界科技进步的同时,也带来了很多安全风险,要从技术与法规两方面加以应对。
首先是互联网虚假信息泛滥。这里列举若干场景:一是数字分身。AI Yoon是首个使用DeepFake技术合成的官方“候选人”,这个数字人以韩国国民力量党候选人尹锡悦(Yoon Suk-yeol)为原型,借助尹锡悦20小时的音频和视频片段、以及其专门为研究人员录制的3000多个句子,由当地一家DeepFake技术公司创建了虚拟形象 AI Yoon,并在网络上迅速走红。实际上 AI Yoon 表达的内容是由竞选团队撰写的,而不是候选人本人。
二是伪造视频,尤其是伪造领导人视频引起国际争端,扰乱选举秩序,或引起突发舆情事件,如伪造尼克松宣布第一次登月失败,伪造乌克兰总统泽连斯基宣布“投降”的信息,这些行为导致新闻媒体行业的社会信任衰退。
三是伪造新闻,主要通过虚假新闻自动生成牟取非法利益,使用ChatGPT生成热点新闻,赚取流量,截至2023年6月30日全球生成伪造新闻网站已达277个,严重扰乱社会秩序。
四是换脸变声,用于诈骗。如由于AI语音模仿了企业高管的声音,一家香港国际企业因此被骗3500万美元。
五是生成不雅图片,特别是针对公众人物。如影视明星的色情视频制作,造成不良社会影响。因此,迫切需要发展互联网虚假信息的伪造检测技术。
其次,AI大模型面临严重可信问题。这些问题包括:(1)“一本正经胡说八道”的事实性错误;(2)以西方价值观叙事,输出政治偏见和错误言论;(3)易被诱导,输出错误知识和有害内容;(4)数据安全问题加重,大模型成为重要敏感数据的诱捕器,ChatGPT将用户输入纳入训练数据库,用于改善ChatGPT,美方能够利用大模型获得公开渠道覆盖不到的中文语料,掌握我们自己都可能不掌握的“中国知识”。因此,迫切需要发展大模型安全监管技术与自己的可信大模型。
除了技术手段外,人工智能安全保障需要相关立法工作。2021年科技部发布《新一代人工智能伦理规范》,2022年8月,全国信息安全标准化技术委员会发布《信息安全技术 机器学习算法安全评估规范》,2022-2023年,中央网信办先后发布《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法》等。欧美国家也先后出台法规,2018年5月25日,欧盟出台《通用数据保护条例》,2022年10月4日,美国发布《人工智能权利法案蓝图》,2024年3月13日,欧洲议会通过了欧盟《人工智能法案》。
我国应加快推进《人工智能法》出台,构建人工智能治理体系,确保人工智能的发展和应用遵循人类共同价值观,促进人机和谐友好;创造有利于人工智能技术研究、开发、应用的政策环境;建立合理披露机制和审计评估机制,理解人工智能机制原理和决策过程;明确人工智能系统的安全责任和问责机制,可追溯责任主体并补救;推动形成公平合理、开放包容的国际人工智能治理规则。
四、中国智能计算发展困境
人工智能技术与智能计算产业处于中美科技竞争的焦点,我国在过去几年虽然取得了很大的成绩,但依然面临诸多发展困境,特别是由美国的科技打压政策带来的困难。
困境一为美国在AI核心能力上长期处于领先地位,中国处于跟踪模式。中国在AI高端人才数量、AI基础算法创新、AI底座大模型能力(大语言模型、文生图模型、文生视频模型)、底座大模型训练数据、底座大模型训练算力等,都与美国存在一定的差距,并且这种差距还将持续很长一段时间。
困境二为高端算力产品禁售,高端芯片工艺长期被卡。A100,H100,B200等高端智算芯片对华禁售。华为、龙芯、寒武纪、曙光、海光等企业都进入实体清单,它们芯片制造的先进工艺④受限,国内可满足规模量产的工艺节点落后国际先进水平2-3代,核心算力芯片的性能落后国际先进水平2-3代。
困境三为国内智能计算生态孱弱,AI开发框架渗透率不足。英伟达CUDA⑤(Compute Unified Device Architecture, 通用计算设备架构)生态完备,已形成了事实上的垄断。国内生态孱弱,具体表现在:一是研发人员不足,英伟达CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;二是开发工具不足,CUDA有550个SDK(Software Development Kit, 软件开发工具包),是国内相关企业的上百倍;三是资金投入不足,英伟达每年投入50亿美元,是国内相关公司的几十倍;四是AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10。更为严重的是国内企业之间山头林立,无法形成合力,从智能应用、开发框架、系统软件、智能芯片,虽然每层都有相关产品,但各层之间没有深度适配,无法形成一个有竞争力的技术体系。
困境四为AI应用于行业时成本、门槛居高不下。当前我国AI应用主要集中在互联网行业和一些国防领域。AI技术推广应用于各行各业时,特别是从互联网行业迁移到非互联网行业,需要进行大量的定制工作,迁移难度大,单次使用成本高。最后,我国在AI领域的人才数量与实际需求相比也明显不足。
五、中国如何发展智能计算的道路选择
人工智能发展的道路选择对我国至关重要,关系到发展的可持续性与最终的国际竞争格局。当前人工智能的使用成本十分高昂,微软Copilot套件要支付每月10美元的使用费用,ChatGPT每天消耗50万千瓦时的电力,英伟达B200芯片价格高达3万美元以上。总体来说,我国应发展用得起、安全可信的人工智能技术,消除我国信息贫困人口、并造福“一带一路”国家;低门槛地赋能各行各业,让我国的优势产业保持竞争力,让相对落后的产业能够大幅地缩小差距。
选择一:统一技术体系走闭源封闭,还是开源开放的道路?
支撑智能计算产业的是一个相互紧耦合的技术体系,即由一系列技术标准和知识产权将材料、器件、工艺、芯片、整机、系统软件、应用软件等密切联系在一起的技术整体。我国发展智能计算技术体系存在三条道路:
一是追赶兼容美国主导的A体系。我国大多数互联网企业走的是GPGPU/CUDA兼容道路,很多芯片领域的创业企业在生态构建上也是尽量与CUDA兼容,这条道路较为现实。由于在算力方面美国对我国工艺和芯片带宽的限制,在算法方面国内生态林立很难形成统一,生态成熟度严重受限,在数据方面中文高质量数据匮乏,这些因素会使得追赶者与领先者的差距很难缩小,一些时候还会进一步拉大。
二是构建专用封闭的B体系。在军事、气象、司法等专用领域构建企业封闭生态,基于国产成熟工艺生产芯片,相对于底座大模型更加关注特定领域垂直类大模型,训练大模型更多采用领域专有高质量数据等。这条道路易于形成完整可控的技术体系与生态,我国一些大型骨干企业走的是这条道路,它的缺点是封闭,无法凝聚国内大多数力量,也很难实现全球化。
三是全球共建开源开放的C体系。用开源打破生态垄断,降低企业拥有核心技术的门槛,让每个企业都能低成本地做自己的芯片,形成智能芯片的汪洋大海,满足无处不在的智能需求。用开放形成统一的技术体系,我国企业与全球化力量联合起来共建基于国际标准的统一智能计算软件栈。形成企业竞争前共享机制,共享高质量数据库,共享开源通用底座大模型。对于全球开源生态,我国企业在互联网时代收益良多,我国更多的是使用者,是参与者,在智能时代我国企业在RISC-V⑥+AI开源技术体系上应更多地成为主力贡献者,成为全球化开放共享的主导力量。
选择二:拼算法模型,还是拼新型基础设施?
人工智能技术要赋能各行各业,具有典型的长尾效应⑦。我国80%的中小微企业,需要的是低门槛、低价格的智能服务。因此,我国智能计算产业必须建立在新的数据空间基础设施之上,其中关键是我国应率先实现智能要素即数据、算力、算法的全面基础设施化。这项工作可比肩二十世纪初美国信息高速公路计划(即信息基础设施建设)对互联网产业的历史作用。
信息社会最核心的生产力是网络空间(Cyberspace)。网络空间的演进过程是:从机器一元连接构成的计算空间,演进到人机信息二元连接构成的信息空间,再演进到人机物数据三元连接构成的数据空间。从数据空间看,人工智能的本质是数据的百炼成钢,大模型就是对互联网全量数据进行深度加工后的产物。在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象。智能计算的一个核心特征就是用数值计算、数据分析、人工智能等算法,在算力池中加工海量数据件,得到智能模型,再嵌入到信息世界、物理世界的各个过程中。
我国政府已经前瞻性地提前布局了新型基础设施,在世界各国竞争中抢占了先机。首先,数据已成为国家战略信息资源。数据具有资源要素与价值加工两重属性,数据的资源要素属性包括生产、获取、传输、汇聚、流通、交易、权属、资产、安全等各个环节,我国应继续加大力度建设国家数据枢纽与数据流通基础设施。
其次,AI大模型就是数据空间的一类算法基础设施。以通用大模型为基座,构建大模型研发与应用的基础设施,支撑广大企业研发领域专用大模型,服务于机器人、无人驾驶、可穿戴设备、智能家居、智能安防等行业,覆盖长尾应用。
最后,全国一体化算力网建设在推动算力的基础设施化上发挥了先导作用。算力基础设施化的中国方案,应在大幅度降低算力使用成本和使用门槛的同时,为最广范围覆盖人群提供高通量、高品质的智能服务。算力基础设施的中国方案需要具备“两低一高”,即在供给侧,大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本,让广大中小企业都消费得起高品质的算力服务,有积极性开发算力网应用;在消费侧,大幅度降低广大用户的算力使用门槛,面向大众的公共服务必须做到易获取、易使用,像水电一样即开即用,像编写网页一样轻松定制算力服务,开发算力网应用。在服务效率侧,中国的算力服务要实现低熵高通量,其中高通量是指在实现高并发⑧度服务的同时,端到端服务的响应时间可满足率高;低熵是指在高并发负载中出现资源无序竞争的情况下,保障系统通量不急剧下降。保障“算得多”对中国尤其重要。
选择三:AI+着重赋能虚拟经济,还是发力实体经济?
“AI+”的成效是人工智能价值的试金石。次贷危机后,美国制造业增加值占GDP的比重从1950年的28%降低为2021年的11%,美国制造业在全行业就业人数占比从1979年的35%降低为2022年的8%,可见美国更倾向于回报率更高的虚拟经济,轻视投资成本高且经济回报率低的实体经济。中国倾向于实体经济与虚拟经济同步发展,更加重视发展装备制造、新能源汽车、光伏发电、锂电池、高铁、5G等实体经济。
相应地美国AI主要应用于虚拟经济和IT基础工具,AI技术也是“脱实向虚”,自2007年以来硅谷不断炒作虚拟现实(Virtual Reality,VR)、元宇宙、区块链、Web3.0、深度学习、AI大模型等,是这个趋势的反映。
我国的优势在实体经济,制造业全球产业门类最齐全,体系最完整,特点是场景多、私有数据多。我国应精选若干行业加大投入,形成可低门槛全行业推广的范式,如选择装备制造业作为延续优势代表性行业,选择医药业作为快速缩短差距的代表性行业。赋能实体经济的技术难点是AI算法与物理机理的融合。
人工智能技术成功的关键是能否让一个行业或一个产品的成本大幅下降,从而将用户数与产业规模扩大10倍,产生类似于蒸汽机对于纺织业,智能手机对于互联网业的变革效果。
我国应走出适合自己的人工智能赋能实体经济的高质量发展道路。