|
- 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎
DeepSeek-V3据我所知,是第一个(至少在开源社区内)成功使用FP8混合精度训练得到的大号MoE模型。 众所周知,FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定,这导致实际大模型训练中BF16仍旧是主流选择。
- OpenAI GPT-5 和 DeepSeek 等 AI 工具均向用户免费,免费后靠什么盈利呢? - 知乎
有人说 DeepSeek 靠 API 盈利,但 API 都已经停止充值了,他们也不做 toB 业务,所以目前来看,DeepSeek 纯纯为爱发电。 至于原因,我们也许可以在梁文锋的采访中找到答案。 去年 DeepSeek 发布 V2 后,梁文锋接受 36Kr 采访时这样说: DeepSeek 不贴钱,也不赚取暴利。
- 都说接入的DeepSeek是满血版,为什么感觉还是官方的好用? - 知乎
看到一个很好用的测试案例,可以用来简单测试是不是DeepSeek满血版。 请用我给你的四个数字,通过加、减、乘、除、括号,组成一个运算,使得结果为24。注意:数字需要全部我提供的数字:4 4 6 8。 这是DeepSeek官方提供的回答,简洁明了,一次就答对了。
- 为什么用 DeepSeek 总是提示「服务器繁忙」?怎么解决? - 知乎
为什么用 DeepSeek 总是提示「服务器繁忙」? 怎么解决? 最近使用deepseek时,不知道是不是问问题的方式不对还是服务器不稳定原因,很多问题半天也没有一个回答。 所以deepseek到底该怎么与其交流呢? 显示全部 关注者 662 被浏览
- 如何把 deepseek-R1 微调或蒸馏为某领域的一个专家? - 知乎
DeepSeek-R1是一个通过大规模强化学习训练出的强大推理模型,在数学、编程等推理任务上达到了与OpenAI-o1相当的性能水平。 本文将基于DeepSeek团队发布的技术报告,详细解析如何通过知识蒸馏技术,将DeepSeek-R1的推理能力高效地迁移到参数量更小的Qwen系列模型中。 1
- deepseek和chatgpt有什么区别?哪个更好用? - 知乎
deepseek怎么样?DeepSeek是中式思维,Chatgpt则拥有典型的西方文化偏向; DeepSeek先进是低推理成本,Chatgpt先进是语言能力。 从研究两者的训练数据等方面,我们可以知道: DeepSeek更熟悉中式表达、政策术语或文化习惯,在中文语境下进行了针对性优化; ChatGPT的训练数据更全球化,它的表现更突出西方
- 现在这些大模型,哪个在代码编写上表现的最好呀? - 知乎
数据都不太一样,当然清华大学的是2024年11月的榜deepseek还是2 5的版本,但整体的数据还是相差不少。 不过也能说明一个问题就是现阶段全球比较顶尖的AI模型中在编程能力方面比较优秀的就是DeepSeek、Claude、Gemini及Qwen这些了。
- Deepseek是被降智了吗? - 知乎
刚刚跟DeepSeek (官网API)打了一架,不知道是不是被降智的体现。 【背景】我,自由职业的翻译校对一枚。这两天正在做短剧翻译质检的工作。 【使用工具】cheery box,深度求索官方提供的DeepSeek API 【起因】发现有一句话翻译的不自然。 原文是:我是XXX,社畜一枚 翻译:私はXXX、社畜のひとり 不
|
|
|