国产大模型Deep seek这次为什么这么🐂？

这几天大家都被deepseek刷屏了，有个朋友问我对deepseek怎么看？

我看了下，大家可能普遍的认识，就是觉得deepseek很厉害，这次让国产模型争了口气，而且价格还比国际主流模型便宜很多，甚至因为价格太便宜，导致连专门做AI训练显卡的英伟达公司股票都跌了不少，连米国总统都跑出来喊话，可见其影响之大。

那么，我们今天就来从专业的角度，解释下deep seek为什么这么厉害？到底厉害在哪里？

我们知道，现在主流的AI都是LLM ，所谓LLM中文就是大语言模型的意思，大语言模型就是推理模型，无论是deepseek，还是open AI ,或者说meta的llama，都是属于这一类。

推理模型，说穿了就是靠强大的算力不断推理，靠海量输出去撞去对答案，看起来很笨，但实际却很有效。

前两年GPT4上线时，大家普遍有这样的认识，就是只要有钱有资源，所谓资源，无非就是显卡和数据，AI主要靠算力和数据，按照这个逻辑，只要把模型越做越大，喂更多数据，大语言模型的性能就会蹭蹭蹭往上飙——这也就是所谓的预训练规模定律。

在这之后，国内许多AI大模型，就是靠有着这样的指引，不断的用大量的显卡和数据，做出更大参数的大模型，而deepseek的厉害在于，偏偏另辟蹊径，换了个方式去训练大模型，不但让训练成本为原先的不足10分之一，deep seek R1 现在的狠招在于：它比 o1 便宜 30 倍！但效果还差不多。能省钱，谁不爱？

DeepSeek仅用2048块H800显卡、耗时两个月，就训出了一个6710亿参数的DeepSeek-V3。相较于Meta训练参数量4050亿的Llama 3，用了16,384块更强的H100显卡，花了54天。Deepseek的训练效率提升了11倍。

我们都知道，因为竞争和贸易等关系，米国禁止高端的显卡销售给我国，而大模型硬件主要靠显卡来实现算力，没有显卡就没法实现算力，deepseek这样另辟蹊径，大幅低降低了显卡的数量，训练效率却更是明显，真的可谓是拨云见日，让更多大模型企业看到了希望和曙光。

这不能不让老外感到震惊，甚至连米国总统特朗普都跑出来喊话，“给美国相关产业敲响了警钟”，

这也解释了为什么R1出现之后，靠卖显卡的英伟达股价都会跟着受影响暴跌的原因了。

说了这么多，我们总结下，R1 的重要意义是什么？

便宜、开源、能跟世界主流的AI大模型o1 掰手腕。

deepseek r1大模型，在性能和价格之间实现了完美平衡，OpenAI 原先一副神秘面纱，现在也被 R1 大大方方地掀开了！

欢迎关注微信视频号【大伟说AI】

不能不说，deep seek这次真为国争光，不仅赶上世界主流大模型，让国产大模型也给世界做出了贡献，不仅让国人感到骄傲，也赢得了对手的尊重,更让一些对手感到了前所未有的紧张。

敢于开源的态度也再明确不过，我把解题的思路也公开了，以前是我们抄你们作业，现在你们也可以来抄我的作业，我也不怕别人抄作业，来，大家一起进步。