DeepSeek(1):为何火?何处最牛?为何受到全社会热捧?
创始人
2025-02-18 01:01:15
0

——————————————

最近DeepSeek火爆出圈,引发了国际AI领域的高度重视,纷纷开始研究DeepSeek——正像前几年国内的AI公司研究ChatGPT一样。

国内则在极短的时间内,掀起了DeepSeek的热潮。各地方政府、企事业单位、甚至很多个人,都宣称自己“接入”或“部署”了DeepSeek,不过有很多却只是噱头,可能只是赶个热闹、生怕自己落后而已。

DeepSeek为何大火?它有什么牛的地方?导致全世界、各产业界都在为它”折腰“?

以及作为老师,我们应如何看待它?它是不是万能的?在哪里表现好、哪里表现不好?

王珏老师就从一个计算机科班毕业、20多年从事教育技术研究的角度,为大家简要剖析一下。

个人能力有限,只是我的一些学习体会,不一定对,仅供大家参考。

——————————————

我个人认为:DeepSeek的最大价值,并非”个人使用“层面——对于个人来说,它就是众多大模型中比较优秀的一个。

DeepSeek火爆,有几个关键之处:

1、DeepSeek是咱们中国的原始创新

从技术角度来说,这是中国首次在大模型领域,(在某些方面)走在全世界的最前列。具体表现为:DeepSeek的论文和代码都是公开的,现在全世界所有大模型公司都在彻夜研究,想了解中国人是怎么做到的。

从纯技术角度,在哪些方面DeepSeek有较大突破呢?技术术语比较繁复、难懂,这里就只提供少许精简资料,大家扫一眼就好,看不懂直接略过:

对DeepSeek技术细节感兴趣的,可以参阅如下推文:

2、DeepSeek是开源的

自从OpenAI开发了GPT 3.5后,从GPT4开始就不再开源了。(国内很多大模型,最开始时都是用的GPT 3.5的代码,有的可能一行代码都不改,直接用用中文语料库作微调,就号称是自己开发的大模型……)

“闭源”,意味着其他人无法拿到它的代码,当然也无法研究。甚至,最近一段时间,OpenAI连论文都不再发了,一切都变成了公司内部的黑盒子,被严格保密,生怕被别人学走,形成了一家独有的“商业机密”、“知识霸权”。

——当然, 作为商业公司,这完全可以理解。

然而, DeepSeek却勇敢地选择了“开源”。而且,它不仅代码开源,而且有详尽的研究论文,还有研究人员会给予详细解释——就怕你不知道它是什么、怎么思考的、怎么开发出来的。

IT界一直公认: 只有开源,才能取得最为快速进步。因为这样,就会有更多的机构、更多的人、尤其是更多的聪明人参与进来,大家群策群力、共同贡献智慧,这样才能快速迭代,更快更好地造福人类。

而且,也正是因为DeepSeek是开源的,其它人在需要时才能自行部署、使用——比如,很多政府部门、企业(如纳米搜索、腾讯混元大模型)都可以自行部署DeepSeek提供服务。

而如果是像OpenAI那样闭源,那我们就只有向其购买服务,任何单位和个人都不可能自行部署,当然也更谈不上如何帮它改进。

3、DeepSeek是免费的

DeepSeek不仅是开源的,所有人都能拿到它的源代码,而且还提供 免费的网络服务。任何人在浏览器中输入 chat.deepseek.com、或通过app,都可以免费使用它。

——不要小看这一点。大模型不光是训练成本高,为大众提供服务的成本也相当高!我们的每次提问,大模型输出的每个字都会进行大量计算,购置服务器的成本不说,光每天的电费就高得吓人!所以,DeepSeek能提供免费的网络服务,是非常有魅力的。

不过,由于DeepSeek在短时间内在全世界产生了巨大影响力,导致访问量过大,大到它自己早就撑不住了,网络经常繁忙——要知道DeepSeek有1万块A100显卡,按照12万一块计算,光显卡就价值12亿,仍然顶不住汹涌而来的访问大潮……

——这个没办法,虽然DeepSeek想接住这波流量,但大模型服务实在太贵,它又不收费,不可能无穷无尽地往里扔钱(再说漂亮国还禁售A100,想买也买不到……)

此时,它开源的优势就体现出来了!其它单位、公司都可以部署,为公众提供服务的(按照开源协议,不能进行商业运营去挣钱)!所以我们看到,也有一些公司勇敢地站了出来,为公众提供DeepSeek免费服务。

文顺便提 供三个能提供DeepSeek免费服务的网站,大家如果碰到DeepSeek网站繁忙的情况,可以试试(目前速度都很快):

  • 腾讯元宝(最佳推荐,和DeepSeek服务完全一样)

  • 360纳米搜索(可以聊天,但不能上传文件)

  • AskManyAI(一天免费20次,且不能上传文件)

4、DeepSeek R1 免费提供“逻辑推理”服务

OpenAI的o1推出后,具备了强大的逻辑推理、数理推理功能,使得AI真正“学会思考”,震惊了全世界。

不过o1是付费的。这太可以理解了,因为推理成本非常高,据说o3解决一个复杂的数理逻辑问题,可能需要几十美元的成本!

而DeepSeek是除了OpenAI之外,正式发布了具有强大推理能力的大模型——称为R1或“ 深度思考模式”。此外,另一个国产大模型Kimi在同一天(2025.1.20),正式发布了具有“推理”能力的大模型——现在称为 Kimi 1.5长思考版。(这两个公司之前都发布了预览版,这里只以正式发布时间为准)

前面说过,o1最早就实现了逻辑推理功能,o3又实现了跨模态的推理功能(就是视觉推理的意思),而且能力相当强悍,同样令人震撼。不过,它却收费高昂,普通人难以体验。

所以,无论是DeepSeek、还是Kimi,能够免费向公众提供逻辑推理服务,给公众所带来的震撼感受是无与伦比的!

而DeepSeek相比Kimi,它既开源、又免费(Kimi并不开源),而且相对来说推理质量比Kimi稍高一些,也可以说更胜一筹吧。

4、DeepSeek无人能及的优势是:成本低!

你如果说DeepSeek在技术上在国际上有多么领先,肯定是不符合实情的。目前为止,世界范围内技术和能力最领先的,仍然是OpenAI(chatGPT、o3)。

即使是在国内,在很多测评项目中,测评分值最高的大模型也并非DeepSeek,而是阿里的 千问大模型Qwen

说是逻辑推理能力,DeepSeek和Kimi大体也在伯仲之间……

那DeepSeek凭什么获得从大模型公司、到政府、企事业单位的认可呢?

其实,这是因为它 有一个无人能及的优势:

  • 它能以10%的训练成本,提供性能大体相当于o1的推理服务,或大体相当于GPT-4的语言生成服务。

显然,作为商业服务而言,技术成本越低,普及度才可能越大。实际上,高昂的大模型训练成本与服务成本,已经令产业界大为头脑,而且成本还在越来越贵!但是,大模型是未来的必然趋势,谁也不想放弃,所以捏着鼻子,贵也得接着干!

而DeepSeek以它自己的大量技术创新 (主要是工程创新、而非理论创新),走了一条不(完全)同于国外大模型的技术路线,居然在相同性能的前提下,成本下降了这么多!

这同时也开创了IT界对大模型技术路线的全新认知,从某种意义上,它重塑造了大模型的未来发展的技术路线——这也正是“开源”的魅力!

很有趣的是:DeepSeek能做到这一点,其中漂亮国的高端显卡禁售政策“功不可没”。因为没有足够的高性能显卡,所以开发人员想尽了各种办法,使得使用低端显卡也能开展有效训练——而这些方法,也是DeepSeek技术创新的一部分。

或许可以这么说:DeepSeek的技术路线,使漂亮国的高端显卡禁售政策“意外”失败了。现在,咱们国产的中低端显卡也能派上用场了!

——现在,有一家叫 “硅基流动”的公司(cloud.siliconflow.cn), 就是采用了华为的昇腾显卡,在国产GPU上提供了DeepSeek服务。不过上面这个网站主要是提供的是面向企业的API服务,当然个人也可以体验。

5、DeepSeek的绝技:”知识蒸馏“

DeepSeek的火爆,还有一个重要方面:各家各业的人士都在探讨把DeepSeek赋能,如:医疗、汽车、手机、智能音箱、学习机、网络服务等等等等。

首先,只有开源,才有可能让全社会都来做AI赋能的工作——毕竟是免费的,你可以在自己单位内部随便使用。

不过,只有开源,还做不到这么火。大家别忘了:大模型的技术门槛和服务门槛太高,非大模型公司很难驾驭,非超大行业和超大公司无法承受。

此时,DeepSeek的另一个绝技:知识蒸馏,就派上了用场!

——网上有很多人,说自己在个人电脑或笔记本上“成功部署了DeepSeek”,其实根本就不是! 它们部署的,其实是用 DeepSeek R1对其它大模型进行”蒸馏“后的版本,比如下面这张表中的 Distill,就是”蒸馏“的意思:

(蒸馏的原理,简单说:就是用DeepSeek生成的一些高质量数据,对原版大模型进行“微调”;或者说,让DeepSeek当老师,把自己的教学经验 -也就是数据-告诉被蒸馏的大模型,帮助它改进提升 )

这些被”蒸馏“后的大模型——比如Qwen 32B(指320亿参数的千问大模型),它还是千问大模型,只不过比“原生”的版本,性能要有一定的提升。能提升多少呢?大家可以参看下表:

其实, Qwen 2.5版-32B参数量的大模型,其本身就是非常优秀的大模型——仅以320亿参数,就能达到接近于世界最先进的水平!要知道,DeepSeekR1或许更厉害,但它有6710亿参数呢!

从上图中,大家可以看到,经过 DeepSeekR1的“蒸馏”后,Qwen-32B的测评分值有了不小的、甚至是极大的提升!(由此大家也可以理解高质量数据的重要性,因为蒸馏的本质就是用DeepSeek生成的高质量数据,对Qwen大模型进行“微调”的)

好了,到这里大家可能已经明白了:

  • 那些号称自己在个人电脑上成功部署DeepSeek的,恐怕大多数是被模型名称中的“DeepSeek”给骗了,他们部署的实际上可能是Qwen的蒸馏版、或者Llama的蒸馏版!

讲真, DeepSeek有6710亿参数,要想跑起来,大致上需要上百万元的硬件才能支撑(主要是显卡)!因此,任何个人的设备 ,都没有任何可能性部署 “满血版”DeepSeek

——这件事还有另外一个关键:DeepSeek只有一个版本:671B!没有第二种选择!因此,如果仅靠DeepSeek自身的话,硬件门槛太高,不可能大面积普及!

因此,大家所看到的1.5B、3B、7B、14B、32B这些大模型,并非DeepSeek,而是用DeepSeek R1对其它大模型进行“蒸馏”、或者说“微调”后的产物。

对照上图,我们又要再说一个 Qwen(千问大模型)。Qwen 2.5提供了各种参数级别的版本。参数量越高,一般来说能力越强,反之亦然。

大家想想:如果有一种方法,能将参数值大幅降低,而性能损失不大的话,那么对于在手机、汽车、或个人电脑,将能产生多么巨大的价值呀!!

比如,王珏老师自己尝试了一下,将 Qwen-3B版本部署在了我的办公笔记本中,自己个人用着玩,感觉速度也还能接受——只不过,30亿参数的Qwen那能力差得不是一般的多,也就只能玩玩而已,很难说有什么实用价值!

当然,如果我们在笔记本电脑、或台式机中配上独立显卡(如英伟达4060),那么跑个Qwen-14B就问题不大了——现在大家再去看看上图中的DeepSeek-R1-Distilled-Qwen-14B,和Qwen原版的32B相比,是不是还要更强?

更甚至,Qwen-7B的蒸馏版,在某些能力方面,居然也比32B原版要强!3B的蒸馏版,在数学能力上,和32B相当!

这简直太不可思议了!因为在AI领域,大家公认的规律是:“规模即能力”、参数值就相当于“智商”。然而,一个5岁孩子(比较弱的)大脑,经过某种神秘的加持后,他的能力居然比15岁孩子还强!

——这就是知识“蒸馏”最重大的价值!它使得原来需要更高性能的硬件才能跑得动的大模型,可以降低参数值、而能力损失较少,甚至还有可能做到:参数值更低、能力反而更强!

现在,你应该知道:为什么社会各界,无论大中小型企事业单位,甚至是个人,都能用得起、用得上大模型了吧!

这将会使大模型的部署门槛、使用门槛进一步降低,低到甚至连个人电脑(安装独立显卡)、将来也许连智能音箱、手机、车机都能轻松部署和使用,这对于AI产业的发展促进作用之大,是无可估量的!

以上王珏老师从五点剖析了DeepSeek为何火、为何牛,希望对大家全面、理性理解DeepSeek提供些许帮助。

由于个人能力有限,文中肯定有很多不当之处,欢迎指出,敬请谅解!

相关内容

热门资讯

加沙营养不良危机迅速恶化 本月... 世卫组织27日表示,加沙地带营养不良危机正迅速恶化,2025年迄今已有74人因营养相关问题死亡,其中...
雪域绵延家国梦 江源奔涌山海情 西海新闻记者 周建萍巍巍昆仑,见证深情厚谊;滔滔黄河,诉说奋斗故事。2010年,党中央、国务院从战略...
科幻照进现实 中国把机器人故事...   证券时报记者 陈雨康  以“智能时代 同球共济”为主题的2025世界人工智能大会7月26日至7月...
中方对柬泰冲突造成两国伤亡深感... 7月27日,外交部发言人就柬泰边境冲突答记者问。问:在国际社会调停下,柬埔寨和泰国近日均表达了停火止...
大清公路项目 官亭2号隧道右线... 本报讯(西海新闻记者 徐变银)7月24日,青海大河家(甘青界)至清水段公路工程项目取得重大进展:历时...