这几天大家都被deepseek刷屏了,有个朋友问我对deepseek怎么看?
我看了下,大家可能普遍的认识,就是觉得deepseek很厉害,这次让国产模型争了口气,而且价格还比国际主流模型便宜很多,甚至因为价格太便宜,导致连专门做AI训练显卡的英伟达公司股票都跌了不少,连米国总统都跑出来喊话,可见其影响之大。
那么,我们今天就来从专业的角度,解释下deep seek为什么这么厉害?到底厉害在哪里?
我们知道,现在主流的AI都是LLM ,所谓LLM中文就是大语言模型的意思,大语言模型就是推理模型,无论是deepseek,还是open AI ,或者说meta的llama,都是属于这一类。
推理模型,说穿了就是靠强大的算力不断推理,靠海量输出去撞去对答案,看起来很笨,但实际却很有效。
前两年GPT4上线时,大家普遍有这样的认识,就是只要有钱有资源,所谓资源,无非就是显卡和数据,AI主要靠算力和数据,按照这个逻辑,只要把模型越做越大,喂更多数据,大语言模型的性能就会蹭蹭蹭往上飙——这也就是所谓的预训练规模定律。
在这之后,国内许多AI大模型,就是靠有着这样的指引,不断的用大量的显卡和数据,做出更大参数的大模型,而deepseek的厉害在于,偏偏另辟蹊径,换了个方式去训练大模型,不但让训练成本为原先的不足10分之一,deep seek R1 现在的狠招在于:它比 o1 便宜 30 倍!但效果还差不多。能省钱,谁不爱?
DeepSeek仅用2048块H800显卡、耗时两个月,就训出了一个6710亿参数的DeepSeek-V3。相较于Meta训练参数量4050亿的Llama 3,用了16,384块更强的H100显卡,花了54天。Deepseek的训练效率提升了11倍。
我们都知道,因为竞争和贸易等关系,米国禁止高端的显卡销售给我国,而大模型硬件主要靠显卡来实现算力,没有显卡就没法实现算力,deepseek这样另辟蹊径,大幅低降低了显卡的数量,训练效率却更是明显,真的可谓是拨云见日,让更多大模型企业看到了希望和曙光。
这不能不让老外感到震惊,甚至连米国总统特朗普都跑出来喊话,“给美国相关产业敲响了警钟”,
这也解释了为什么R1出现之后,靠卖显卡的英伟达股价都会跟着受影响暴跌的原因了。
说了这么多,我们总结下,R1 的重要意义是什么?
便宜、开源、能跟世界主流的AI大模型o1 掰手腕。
deepseek r1大模型,在性能和价格之间实现了完美平衡,OpenAI 原先一副神秘面纱,现在也被 R1 大大方方地掀开了!
欢迎关注微信视频号【大伟说AI】
不能不说,deep seek这次真为国争光,不仅赶上世界主流大模型,让国产大模型也给世界做出了贡献,不仅让国人感到骄傲,也赢得了对手的尊重,更让一些对手感到了前所未有的紧张。
敢于开源的态度也再明确不过,我把解题的思路也公开了,以前是我们抄你们作业,现在你们也可以来抄我的作业,我也不怕别人抄作业,来,大家一起进步。
再牛啊,关键现在用起来不稳定了
我已经切换其他大模型API了
我说内容咋有点熟悉,原来是已经看过视频了😊
真的非常顶,已经动了美帝的蛋糕了,现在他们开始用下三滥的手段攻击deepseek,不过360,华为等大巨头公司开始集结一起帮忙应对了。。。