蔡炫:中国AI新创公司深度求索(DeepSeek)近期先后推出DeepSeek-V3、DeepSeek-R1掀起话题,这两款为开源大型语言模型(LLM),性能据传可以媲美OpenAI o1,再度引发中美科技圈的热议,在川普政府上任后成为点燃科技战的全新引线。 根据报载DeepSeek是杭州对冲基金兼AI公司幻方量化旗下公司,两款大型模型透过低廉成本,成为中国AI未来发展的方程式,在美国封锁下的AI突围也让DeepSeek逆风崛起。
美国《CNBC》报道指出,AI新创公司Scale AI的创办人亚历山大‧王(Alexandr Wang)揭露,DeepSeek大约拥有5万个H100芯片,疑似透过英伟达管道取得,等于违反美国芯片禁令下的出口管制措施。 英伟达随即发布声明指出,大陆人工智能(AI)公司DeepSeek进展表明英伟达芯片对中国市场的可用性,未来将需要更多芯片来满足服务需求。
DeepSeek 同时登上中美应用商店榜首,主要仍是与当前AI模型性能对比不遑多让,在深度学习上再创AI进程。 DeepSeek深度意味一个层层深入的学习过程,能从复杂数据自动提取,无需人类耗费心力从头做起,不论是自然语言还是图像识别,正在走出中国发展特色下的技术突破。
中美科技恶战 “大院高墙”崩坏
美国对中国AI技术发展的“大院高墙”战术俨然崩坏,主张美国政府从芯片升级到资金,且聚焦人工智能的全面围堵(大院),划定适当战略边界(高墙),从2018年对中科技防御策略,再到2022年的高规芯片出口管制规范,都在遏制中国于先进科技领域突围。 然而,DeepSeek横空出世再度证明,这类限制并未构成中国AI发展的致命打击,DeepSeek仍以创新技术架构,成功降低AI模型训练对高性能芯片的科技依赖。
DeepSeek的大语言模型以低成本运算为基础,大陆本地AI芯片供应链的快速成长已是崛起关键,例如华为、寒武纪等企业主导的国产芯片逐渐成熟,也为发展技术提供基础支持,美国芯片出口限制政策,反而激发了大陆自给自足的技术创新,对比OpenAI的ChatGPT不仅性能相当,具备更广泛的语言文化需求的深度思考功能, 意味在芯片资源受限的情况下,DeepSeek仍以软件优化和硬件效率,推动了一波以效率为导向的技术革命。
援引Meta打造“开源模型”
中国研究机构去年早已使用Meta开源的Llama模型,开发一种军事应用的人工智能(AI)工具,Meta采取开源策略,在战略意涵上为了提升AI技术普及,但也给予其他国家运用技术进行开发的契机,大陆进而结合自己参数,也让DeepSeek重新定义了AI竞争版图。 根据相关学者的分析,DeepSeek在多方面的技术指标上已经能与OpenAI抗衡,甚至在某些领域实现超越,例如DeepSeek的自然语言处理能力,并且针对亚洲市场进行在地优化,使其贴近用户需求。
DeepSeek的AI程序在全球下载量迅速攀升,AI技术的竞争已从单纯的技术指标转向生态系统的全面对抗,Meta即便要求开源模型不能用于“军事、战争、核工业应用等”,并禁止用于煽动暴力以及研发武器,但由于模型是公开取得,对于未经授权使用难以有效控制,更增加了政策的不确定性。 DeepSeek的成功意谓着大陆在AI竞争中逐渐站稳脚步,进而撼动美国技术霸权地位,使得AI领域的竞争将不再是一家独大的局面,而是一场多角化的竞逐。
中式创新的深度学习”
DeepSeek注重应用导向的“深度学习”,中国式创新典范改变AI发展历程,例如融合中国文化特色,满足了本地用户,举凡语言、习惯和情感的多元需求。 其中,AI模型能够流畅处理中文指令、方言等语言特性,别于其他国际AI产品。 从跟随到自主创新的转变过程,而这其中深度学习技术扮演了重要角色,DeepSeek的开发过程中,充分运用了中国本土的数据资源与演算优势。
DeepSeek展现中国在技术生态系统建设上的优势,在资源限制条件下的创新,突破传统AI训练的“演算至上”逻辑,DeepSeek 透过优化混合专家模型(MOE),解决困扰产业的数值不稳问题,包含损失峰值的常态现象,技术方案无需依赖额外基础设施即可稳定训练流程,也让DeepSeek透过垂直领域创新(整并深度思考与联网搜寻), 持续优化并缩小与美国通用大模型如 GPT-4的科技落差。
DeepSeek的横空出世,揭开中美科技战的全新篇章,不仅象征美国“大院高墙”崩坏,中大陆成功降低AI模型训练对高性能芯片的科技依赖; 进而援引Meta打造“开源模型”,针对亚洲市场进行在地优化贴近用户需求; 中式创新的深度学习,充分展现中国本土的数据资源与演算优势。 未来,随着传播科技的日新月异,AI产业格局势必走向多元,DeepSeek不仅逆风崛起还迎头赶上,难怪川普谈到DeepSeek直言不讳:“美AI产业一记当头棒喝。”
※作者蔡炫为台湾国际战略学会副研究员