当前位置:走进德成 > 德成动态
发布日期:2025-02-02 来源: 作者:北京德成经济研究院 加入收藏
2025年元月27,阴历腊月28,Deep Seek AI模型横空出世,对世界人工智能产业、生成大模型、硅谷科技界掀起惊天骇浪;或许也是中国春节最好的年饭佳肴、主菜;或许如同辰龙春节的股灾的主菜一样。Deep Seek AI模型取得巨大成功浪潮后一天,元月28日,巨大争议与质疑也铺天而来的,也包括许多非专业、非逻辑的、非理性的争议。德成智库是一所具有情怀、使命有智慧的智库,作为在2020年武汉疫情时提出建议得到总理签批的智库,在Deep Seek AI模型横空出世与质疑声声的时间节点,应该发出德成智库独立的、理性的声音。
我希望能从经济学视角看Deep Seek AI模型。只用基本理论研究逻辑说话、只用数据说话。没有政治立场,没有爱国、卖国的动机。不谈大国战略博弈、不谈阴谋论、不谈弯道超车或换道超车等话语;假设不存在知识与数据侵权问题。只从经济学理论分析Deep Seek AI模型的成就在哪里,创新光谱的位置在哪些,今后演化、迭代与涌现的机会在哪里。
经济学,英文是“Economics”。 “Economics”不仅是一个单数的英文单词,更是一个复数的多学科领域。所以,我这里说的“经济学”不是政策经济学、不是宏观经济学,也不是人工智能产业经济学。只是新古典经济学、创新经济学及复杂性经济学/非线性经济学的分析。
我们知道,新古典经济学(Neoclassical Economics)也是一个庞大的科学体系有诸多视角与方法。我以为只需要用“约束条件—目标函数分析框架”分析就可以“一条逻辑红线贯之” 。“约束条件”我也最简单的界定为两个要素:技术与成本。还会用更直白的“成本与收益”来分析。
创新经济学我以为只需要借助熊彼特的“创造性颠覆”的理论分析Deep Seek AI模型。就是两个标准:一是是否带来了技术革命性,比如电动颠覆蒸汽机,智能化颠覆工业化;并导致+商业模式重构,如工厂颠覆工场,企业颠覆工厂、电商颠覆零售等。
复杂性经济学/非线性经济学,我们也仅仅借助其学科的核心分析工具:涌现理论 。
一、从新古典经济学的“约束条件—目标函数分析框架”分析其Deep Seek AI模型的成就
Deep Seek AI模型的开发只用了2048块性能比较低的芯片,只用几个月的训练,只用588万美元,比 Open AI模型开发成本节约了98%;其效率和性能在许多方面已经非常接近这个领域的领头老大Open AI模型,甚至在一些基准测试方面还超过了Open AI模型去年年底发布的新版本模型。
据有关信息,Deep Seek AI模型引发了美国科技界和科技类股的大震荡。为AI提供算力的芯片厂商英伟达,在1月27号它的股价下跌了16%这么多,市值蒸发了6,000亿美元;在App在美国区苹果应用商店免费应用下载榜登顶。
这些成就与震荡,从“约束条件—目标函数分析框架”看,就是效用同等情况下,降低了成本与推进了技术创新。还可以说,Deep Seek AI语言模型,在成本更低、时间更短、所用芯片数量更少的约束条件下,效率更高、提供的知识更加准确、专业关联度更广,与人类的思考逻辑更为接近。
从现有公开资料还可以分析到,Deep Seek AI模型是从已经结果做逆向工程,是简化要素与逻辑,是从确定性结果,逆索到原因,是从已知逆推已知。从科学方法论看,是一种演绎法+加剪枝法。我们知道演绎法是一个向外拓展的逻辑思维树,如果知道结果,通过剪枝,就是演绎+剪枝就会减少逻辑路径、只赴结果。
Deep Seek AI模型有一个“数据蒸馏”的过程,是一个逻辑的剪枝;虽然没有增加知识的创新,但简化了思维的路径。而chatGPT横空出世时,是从已知探索未知;是知识的创造,就是熊彼特的“创造性颠覆”。
因为不知道去哪里、在哪里,所以需要更多的前提要素。记得50年前,我们在宜昌船厂搞《轴的自动对焊机》的技术革新时,结果一直不好,逆推每个环节、每个要素,花三天三夜后,发现,不过是一个设备的主动轮与次动轮次序按反。而Deep Seek AI语言模型,是知道结果的过程中的创新。可以借助金字塔思维,即只需要第一层的3个要素与第二层的3个要素,9个要素就好。
我以为从新古典经济学的“约束条件—目标函数分析框架”分析看,成就是巨大的、不可忽视、诋毁与否定的。
二、从创新经济学视角看Deep Seek AI模型在创新光谱的哪个位子。
我不重述创新的类型、过程、分类等等,只从《技术创新经济学》 及《知识经济创新论》 为标准,认为Deep Seek AI模型的创新模式,一是具有可以被归类为开放式创新。比如,完全采用了完全开源的策略,其模型代码和训练方法对全球开发者开放;二是具有“技术二次创新”特征。包括采用MLA(Mixture of Experts)架构,实现效率和性能的提升,结合量化技术(如FP8低精度训练),显著降低GPU内存占用,同时保持模型性能稳定;三是模仿创新与创新的叠加阶段的创新。是在学习模仿率先创新者的方法,破译率先创新者的核心技术和技术秘密,并以此为基础进行改进和完善,并在现有基础上的改进和突破,通过引入新的思想、方法、技术或产品,满足新的需求或优化资源配置的创新;四是技术推动型创新。比如,Deep Seek AI模型通过优化架构和训练方式,实现了大模型效率和效能的提升,形成了以算法(高效率、低成本)为主线的新竞争范式。但客观的说,还不具有熊彼特的“创造性颠覆”带来了革命性的创新。一是还没有带来颠覆性的技术革命,比如电动颠覆蒸汽机,智能化颠覆工业化;二是没有导致商业模式重构,如工厂颠覆工场,企业颠覆工厂、电商颠覆零售等。
三、从复杂性经济学看Deep Seek AI模型
Deep Seek AI模型对层次神经网络架构,具有通过简单的神经元连接规则,形成复杂的认知和学习能力,并将涌现新的知识有智能,这是从无机物涌现有机物;从有机物涌现生命、从跨界涌现新的思想、技术与生命。这是作者看好的地方,但不限于Deep Seek AI模型。这也是人类有识之士担忧智能机器人超越人类可能性的机理。
四、结语
我曾在北京德成智库公众号 2024-07-31 上发表一篇《在从姜萍参赛,看中国优秀数学人才为何难以脱颖而出?》随笔。随着事实真相的部分暴露,我的观点是错的。错的原因是,在这篇文章中,在做了如下的一个假设:“本推文把讨论的问题做个界定:我们只关注姜萍参赛的中专生、刷题等话题,至于姜萍有没有造假,阿里有没有参与造假,那是中国制度设计之恶与人性放大之恶的话题,是另一个话题。”结果出在“制度设计之恶与人性放大之恶”上。
现在Deep Seek AI模型受到诸多质疑。一是数据与技术来源,模型蒸馏技术的合法性。OpenAI指控Deep Seek AI模型在训练其模型时使用了未经授权的“模型蒸馏”技术,即通过提取OpenAI模型的输出数据来训练自己的模型,这种行为被OpenAI认为违反了其服务条款;二的数据隐私问题。意大利数据隐私监管机构Garante对DeepSeek的数据收集和使用方式提出了质疑,要求其提供详细解释,以确保符合隐私保护法规;三是技术独立性,即是否依赖开源模型。有观点认为Deep Seek AI模型可能在训练过程中使用了开源模型(如Mistral和Llama)进行蒸馏,这种做法在行业内虽不罕见,但引发了对其技术独立性的质疑;四是技术透明度问题。尽管Deep Seek AI模型在技术报告中声称未使用OpenAI模型的输出数据,但外界对其技术细节的披露仍存在疑虑;五是用户体验与性能问题。尽管Deep Seek AI模型在成本和性能上有一定优势,但部分用户和专家认为其在某些方面仍与OpenAI的模型存在差距,尤其是在复杂任务处理和推理能力上;六是API稳定性。由于Deep Seek AI模型的API定价较低且使用量激增,其API稳定性面临挑战,未来可能需要引入并发限制;七是商业道德与市场竞争问题。部分人士质疑DeepSeek是否通过不正当手段获取竞争优势,例如未经授权使用竞争对手的技术;八是公司背景与市场认知。由于Deep Seek AI模型背后有幻方量化公司的背景,部分投资者和用户对其存在误解,认为其与股票市场上的量化投资策略有关,从而对其可靠性产生质疑。
不知道,Deep Seek公司能否回答这些质疑,但愿能回答。是否存在知识产权的侵权与数据侵权问题,但愿不是,但我不敢确定。信息渠道的单一性,使得我无法“博学之,审问之,慎思之,明辨之,笃行之”。
病榻之上、草就成之!
[2]柳卸林.技术创新经济学[M].清华大学出版社,1998年版。
[3]甘德安.知识经济创新论[M].华中科技大学出版社,1998年。