DeepSeek是一家位于中国杭州的人工智能初创公司,于2023年5月由梁文锋创立,他也是公司的首席执行官。该公司得到了对冲基金High-Flyer的支持,专注于开发开源的大型语言模型(LLMs),其性能和成本效益可与行业领先者媲美或超越。
以下是关于DeepSeek的一些关键点:
- **AI模型**:DeepSeek开发了几个AI模型,包括DeepSeek-R1和DeepSeek-V3。R1模型侧重于逻辑推理、数学推理和实时问题解决,而V3模型拥有6710亿个参数,并使用14.8万亿个标记的数据集进行训练。
- **成本效益**:DeepSeek的模型以其高性价比而闻名。例如,V3模型使用大约2000个Nvidia H800芯片,历时55天进行训练,成本约为558万美元,显著低于其他公司的同类模型。
- **开源**:DeepSeek将其生成性AI算法、模型和训练细节开源,使其代码可以自由使用、修改和查看。
- **市场影响**:DeepSeek的成功对股票市场产生了重大影响,尤其是对Nvidia公司,其股价在一天内下跌了17%。
DeepSeek的使命是通过开源研究和开发推动通用人工智能(AGI)的发展,旨在为商业和学术应用普及AI技术。