2月18日,DeepSeek在海内交际平台宣布了一篇纯技巧论文讲演,论文重要内容是对于NSA(Natively Sparse Attention,原生稀少留神力)。据先容,NSA专为长文本练习与推理计划,能应用静态分层稀少战略等方式,经由过程针对古代硬件的优化计划,明显优化传统AI模子在练习跟推理进程中的表示,特殊是晋升长高低文的推理才能,在保障机能的同时晋升了推理速率,并无效下降了预练习本钱。在这篇名为《原生稀少留神力:硬件对齐且可原生练习的稀少留神力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文签名中,DeepSeek开创人兼CEO梁文锋也作为共创在列。其余研讨职员来自DeepSeek、北年夜跟华盛顿年夜学,此中第一作者Jingyang Yuan(袁景阳)是在DeepSeek练习时期实现的这项研讨。值得一提的是,本日半夜12点(平静洋时光17日晚8点),马斯克旗下AI公司xAI宣布了Grok 3及其精简版Grok 3 mini。宣布会采取视频直播情势,不雅看人数超越100万人。图片起源:直播截图Grok 3是xAI对O penAI的o3-mini跟DeepSeek的R1等模子的回应,它能够剖析图像跟答复成绩,并为X上的很多功效供给支撑。此前马斯克在X上造势称,Grok 3是“地球上最聪慧的人工智能”。在此次直播中,马斯克流露,现实上,到练习停止到92地利,集群的范围曾经扩展到了20万块GPU。