🔥51CTO热榜:2025-01-06

2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型DeepSeek-V3。这款开源模型采用了高达6710亿参数的MoE架构,每秒能够处理60个token,比V2快了3倍。一经发布,就在AI领域引起了轩然大波。值得注意的是,DeepSeek-V3不仅支持GPU训练与推理,并且发布即支持昇腾平台,在昇腾硬件和MindIE推理引擎上实现高效推理,为用户提供了更多计算硬件的选择。
CORS 是一个 W3C 标准,全称是"跨域资源共享"(Cross-origin  resource  sharing), 它需要浏览器和服务器同时支持他,允许浏览器向跨源服务器发送XMLHttpRequest请求,从而克服 AJAX 只能同源使用的限制。
OpenAI o1和o3模型的秘密,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。
在本文中,我们将探讨如何使用任何预训练或自定义的YOLOv11目标检测模型,并将其转换为一种广泛使用的开放格式——ONNX(开放神经网络交换)。
本文提出了一种基于鸟瞰图(BEV)空间的激光雷达点云分割方法,该方法通过融合极坐标和笛卡尔分区策略,实现了快速且高效的特征融合。该方法利用固定网格对应关系,避免了传统点云交互中的计算瓶颈,并通过混合Transformer-CNN架构增强了场景理解能力。
就这两天,海外大V的一条发问,在国外科技圈引发广泛热议。这条信息两天内就吸引了超过50万次阅读、点赞量超5k。Hackernews上也掀起了相关讨论。
大牛写论文,也做不到百发百中?陶哲轩分享了自己论文被拒的经历,意在打破「大牛名字」等于论文被接受的误解,他强调,即使是知名学者,论文被拒也是常态,不应将拒稿个人化,而应客观看待并改进研究。
控制图是统计过程控制(SPC)的核心工具,用于监控质量过程的稳定性,快速识别异常和特殊原因变异。通过中心线、控制限和多种检验规则,控制图帮助判断过程是否超出正常波动范围。
斯坦福大学最新研究表明,在他们最新提出的Putnam-AXIOM测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。
在得出“X 方法无效”这样的结论之前,你应该谨慎,要确保用于测试的数据集确实能够检验该方法。
量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。应届生、在读生,特别是来自清北的应届生在其中非常活跃。他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
近日,新型 AI 研发实验室 Answer.AI、英伟达等发布了 ModernBERT。
AGI-Eval通过构建上百条评测数据和专家级人工评测团队,对Sora 、及国产头部视频生成模型进行了更深度的专业评测。
基于深度学习的动态图异常检测方法已取得一定进展,例如利用图神经网络提取结构信息或通过时序模型捕获时间依赖性。然而,这些方法在通用性方面仍存在显著不足。具体而言,它们通常难以适应不同的数据集和任务场景,难以高效捕获动态图中局部与全局的复杂特征。
本文将深入讲解hosts清单文件和ansible.cfg配置文件这两个核心文件的作用和配置方法,并详细阐述Ansible在执行任务时如何逐步加载这些设置。
tokenization 对语言模型中的算术性能有显著影响。通过仔细选择,我们可以根据问题类型优化 tokenization 策略,从而提高 LLM 在数学任务上的表现。
近日,Naik 教授在自己的 YouTube 频道放出了 Jason Wei 的演讲视频和幻灯片。机器之心整理了其中的主要内容。
最近,Meta 的一项新研究使记忆层超越了概念验证,证明了它们在大型语言模型(LLM)扩展中的实用性。
BenchmarkDotNet是一个基于.NET开源、功能全面、易于使用的性能基准测试框架,它为.NET开发者提供了强大的性能评估和优化能力。
最近在帮助团队中一位前端开发定位问题时,发现他是通过控制台的打印,也就是console.log去打印,然后通过打印的东西,去看是否达到预期的结果。