2025年1月30日星期四

DeepSeek 是实力,还是骗局!

  说点想说的而已 城泉 2025年01月28日 


这几天一款国产AI大模型横空出世,那就是DeepSeek。
据说这款大模型打得美国科技公司找不到北,就连市值刚刚超越苹果的英伟达都被打翻在地,股票都大跌16%,又重新被苹果踩在脚下。
主要原因是 DeepSeek 声称在训练其最新模型 DeepSeek-V3 时只使用了 2048 块英伟达 H800 GPU。整个训练过程花费了不到两个月时间,总成本约为 557.6 万美元。而且这个成本包括了预训练和后续训练的阶段......
就是这个声明,把美国科技圈给炸了,美国科技股应声大跌,总市值跌掉1万亿美元!
要知道,目前 DeepSeek 的表现很接近 OpenAI GPT-4o 版本,而OpenAI达到此性能时,花费那可是惊人的。
OpenAI 的GPT-3训练使用了大约2万个英伟达 A100 GPU。总花费460万美元。
GPT-4 的训练估计使用了 2万多块英伟达 H100 GPU。总花费接近1亿美元,用了7个多月时间。
要知道H100 和 A100 的算力比 H800要强太多。
也就是说, DeepSeek 用非常低的成本,极短的时间,更低的算力,达到了一样的智能表现。
正因如此,美国科技圈被炸了个大雷,一众科技圈的大佬都蒙圈了......
所有的大佬都在自我怀疑,难道之前追求的高算力是错误的?
然后就是靠卖高算力GPU的英伟达股价崩跌!
要知道,马斯克为了组建自己的 Grok 智能大模型,花了近20亿美元,买下十万块Nvidia H100 GPU。
按算力比较的话,马斯克的 Grok 智能大模型算力是全球最强的。
如果算力真的不重要,那就证明了美国科技圈加上火星人马斯克都是傻X!
要知道,马斯克有多家成功的企业,不论是造车,还是造火箭,都是以降低成本而闻名的,难道他会蠢到花二十亿美元的冤枉钱去买GPU,而不是像 DeepSeek 那样,开发出更高效的算法?
现在就有一个问题,需要大家去判断。
要么美国科技圈一众大佬全是傻X,只知道拼算力,蛮干,其中还包括火星人马斯克。
要么DeepSeek 撒谎了,它隐瞒了算力,它在训练大模型时有作弊。
首先,大家要知道,外国大佬为什么会懵逼,主要还是他们所生活的环境导致。如果在美国搞智能大模型,谎报算力投入,谎报成本,就算你搞得再先进,谎言揭穿的那一刻,就是破产之时。
所以他们自然会认为 DeepSeek 声称的算力投入和成本数据是真实的。
我个人根据一些零散消息做出的判断,那就是 DeepSeek 撒谎,不仅在成本上,而且在算力上和训练数据上,都没说实话。
消息一,DeepSeek 的训练数据使用的是的 OpenAI 训练之后的数据,再次过滤,然后声称是自己短时间训练好的。
证据:





早期对 DeepSeek 提问时,问它是什么型号,它会自称是 ChatGPT的OpenAI开发的语言模型,这就是铁证。
消息二、DeepSeek 隐瞒了算力,它投入的远不只2048块H800 GPU,它至少有5万块H100 GPU。
这倒没有确实的证据,只有马斯克在被问及 DeepSeek被传拥有5万张英伟达H100时,马斯克的回复是:“毫无疑问地”。
而且马斯克质疑DeepSeek用了那么少的成本,就完成训练!
OpenAl的创始人萨姆·奥特曼亦发文表示:“复制已有有效的事物相对容易,但在不确定任何前景的情况下,尝试新事物、冒险和挑战则是极其困难的”。

另有一条消息,说的是中国绕过美国监管,从新加坡、中东国家进口芯片,这些国家疯狂采购 H100 GPU,但并没有投入到的AI智能大模型开发,而是热衷于开发主权资料中心的原因。

也许正是因为要避开监管,才故意隐瞒算力。但还有另外一种可能,那就是蓄谋做空英伟达。

 DeepSeek V2面世已经半年,V3 面世已经快两个月了,为什么会突然被媒体送上热搜,而不是在V3版本一面世就被关注到,这就很值得怀疑!
小编更愿意相信,是金融大鳄在利用 DeepSeek 炒作AI算力过剩,以此狙击英伟达的股价,先做空赚一波,再自证 DeepSeek 的谎言,然后再反手做多,赚个盆满钵满。
要知道美股能加到500倍杠杆,而英伟达的市值有三万多亿美元,盘子足够大,这波下跌一定有人发了大财。
至于那些深信国产 DeepSeek 以极低成本超越  OpenAI,甚至觉得 DeepSeek 完成弯道超车,颠覆了科技界,并以此自豪的人来说,好像没有人在乎他们......

最后,祝大家新年快乐,恭喜发财!

没有评论:

发表评论

页面