原创 说点想说的而已 城泉 2025年01月28日

这几天一款国产AI大模型横空出世,那就是DeepSeek。据说这款大模型打得美国科技公司找不到北,就连市值刚刚超越苹果的英伟达都被打翻在地,股票都大跌16%,又重新被苹果踩在脚下。主要原因是 DeepSeek 声称在训练其最新模型 DeepSeek-V3 时只使用了 2048 块英伟达 H800 GPU。整个训练过程花费了不到两个月时间,总成本约为 557.6 万美元。而且这个成本包括了预训练和后续训练的阶段......就是这个声明,把美国科技圈给炸了,美国科技股应声大跌,总市值跌掉1万亿美元!要知道,目前 DeepSeek 的表现很接近 OpenAI GPT-4o 版本,而OpenAI达到此性能时,花费那可是惊人的。OpenAI 的GPT-3训练使用了大约2万个英伟达 A100 GPU。总花费460万美元。GPT-4 的训练估计使用了 2万多块英伟达 H100 GPU。总花费接近1亿美元,用了7个多月时间。要知道H100 和 A100 的算力比 H800要强太多。也就是说, DeepSeek 用非常低的成本,极短的时间,更低的算力,达到了一样的智能表现。正因如此,美国科技圈被炸了个大雷,一众科技圈的大佬都蒙圈了......所有的大佬都在自我怀疑,难道之前追求的高算力是错误的?要知道,马斯克为了组建自己的 Grok 智能大模型,花了近20亿美元,买下十万块Nvidia H100 GPU。按算力比较的话,马斯克的 Grok 智能大模型算力是全球最强的。如果算力真的不重要,那就证明了美国科技圈加上火星人马斯克都是傻X!要知道,马斯克有多家成功的企业,不论是造车,还是造火箭,都是以降低成本而闻名的,难道他会蠢到花二十亿美元的冤枉钱去买GPU,而不是像 DeepSeek 那样,开发出更高效的算法?要么美国科技圈一众大佬全是傻X,只知道拼算力,蛮干,其中还包括火星人马斯克。要么DeepSeek 撒谎了,它隐瞒了算力,它在训练大模型时有作弊。首先,大家要知道,外国大佬为什么会懵逼,主要还是他们所生活的环境导致。如果在美国搞智能大模型,谎报算力投入,谎报成本,就算你搞得再先进,谎言揭穿的那一刻,就是破产之时。所以他们自然会认为 DeepSeek 声称的算力投入和成本数据是真实的。我个人根据一些零散消息做出的判断,那就是 DeepSeek 撒谎,不仅在成本上,而且在算力上和训练数据上,都没说实话。消息一,DeepSeek 的训练数据使用的是的 OpenAI 训练之后的数据,再次过滤,然后声称是自己短时间训练好的。

早期对 DeepSeek 提问时,问它是什么型号,它会自称是 ChatGPT的OpenAI开发的语言模型,这就是铁证。消息二、DeepSeek 隐瞒了算力,它投入的远不只2048块H800 GPU,它至少有5万块H100 GPU。这倒没有确实的证据,只有马斯克在被问及 DeepSeek被传拥有5万张英伟达H100时,马斯克的回复是:“毫无疑问地”。而且马斯克质疑DeepSeek用了那么少的成本,就完成训练!OpenAl的创始人萨姆·奥特曼亦发文表示:“复制已有有效的事物相对容易,但在不确定任何前景的情况下,尝试新事物、冒险和挑战则是极其困难的”。另有一条消息,说的是中国绕过美国监管,从新加坡、中东国家进口芯片,这些国家疯狂采购 H100 GPU,但并没有投入到的AI智能大模型开发,而是热衷于开发主权资料中心的原因。
也许正是因为要避开监管,才故意隐瞒算力。但还有另外一种可能,那就是蓄谋做空英伟达。
DeepSeek V2面世已经半年,V3 面世已经快两个月了,为什么会突然被媒体送上热搜,而不是在V3版本一面世就被关注到,这就很值得怀疑!小编更愿意相信,是金融大鳄在利用 DeepSeek 炒作AI算力过剩,以此狙击英伟达的股价,先做空赚一波,再自证 DeepSeek 的谎言,然后再反手做多,赚个盆满钵满。要知道美股能加到500倍杠杆,而英伟达的市值有三万多亿美元,盘子足够大,这波下跌一定有人发了大财。至于那些深信国产 DeepSeek 以极低成本超越 OpenAI,甚至觉得 DeepSeek 完成弯道超车,颠覆了科技界,并以此自豪的人来说,好像没有人在乎他们......最后,祝大家新年快乐,恭喜发财!
没有评论:
发表评论