🔥51CTO热榜：2025-02-19

本文确定了有效位置编码的四个关键标准：2D/3D结构、频率分配、空间对称性和时间索引缩放。通过V-NIAH-D任务，作者展示了先前RoPE变体因缺乏适当的时间分配而易受干扰。

技术让世界发展得更快。我们今天在人工智能上再次看到了这一点。使用 Cursor 等工具，开发人员可以比以前快 5-10 倍地构建项目。我最近在构建我的第一个 Web 应用程序时亲身体验了这一点。

高阶函数是在Python中一个非常有用的功能函数，所谓高阶函数就是一个函数可以用来接收另一个函数作为参数，这样的函数叫做高阶函数。

今天凌晨，一个创业消息引爆了整个 AI 社区：一家名为 Thinking Machines Lab 的新创业公司建立了，而其背后有一个堪称有史以来最豪华的大模型创业团队阵容。

MoBA将MoE（专家混合）应用于注意力机制，通过遵循一种“less structure” 原则，允许模型自主决定关注哪些区域或位置。

近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 83%。

本文揭示了企业云成本飙升的八大罪魁祸首：资源管理和优化不佳、意外的AI支出、数字化转型策略不佳、供应商锁定及缺乏定期重新评估、在没有明确定义的云策略的情况下采用云、对齐和管理不佳、过度配置以及选择错误的云提供商。

事实上所谓的神经网络本质上就是一个数学模型，里面涉及大量的数学运算；只不过其运算的主要数据类型是——向量，具体表现为多维矩阵。

那边马斯克疯狂烧了20万张卡训出Grok 3，这厢DeepSeek重点关注的依然是压缩计算和推理成本。

今天这篇文章，我将分享我使用收藏的 11 个 JavaScript 脚本，它们可以帮助您自动化日常工作的各个方面。

团队新研发的镍基材料超导起始转变温度达到了45K（-229℃），并且成功观测到了“零电阻”和“抗磁性”的双重特征。

一度狂跌的英伟达股价，又被Grok-3盘活了？20万块GPU训出的模型超越DeepSeek和OpenAI，证明Scaling Law还在继续增长！Ai2研究者大佬直言：Grok-3，就是DeepSeek给美国AI企业压力的又一力证。

OpenAI刚刚发布SWE-Lancer编码基准测试，直接让AI模型挑战真实外包任务！这些任务总价值高达100万美元。有趣的是，测试结果显示，Anthropic的Claude 3.5 Sonnet在「赚钱」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

历史热榜