🔥51CTO热榜:2025-02-27

知识蒸馏是一种模型压缩技术,通过训练一个小而高效的学生模型来模仿一个预训练的大且复杂的教师模型(或一组模型)的行为。这种训练设置通常被称为“教师-学生”模式,其中大型模型作为教师,小型模型作为学生。教师模型的知识通过最小化损失函数传递给学生模型,目标是匹配教师模型预测的类概率分布。
今天给大家分享一套基于 Material Design 规范实现的、开源(MIT license)且免费的 Blazor 和 Razor 通用组件库:MatBlazor。
通用 Lambda 是 C++14 的语法糖,通过 auto 参数实现泛型编程,用 1 个 Lambda 替代 N 个重载版本,真正实现 DRY 原则的终极形态!​
在Unix Epoch Time确定下来30年后,一个准备转行Java程序员的年轻人打开了Java 的Date类。Date内部实际上存储的就是一个长整型的数(long),它表示的是自1970年1月1日 00:00:00 (即Unix Epoch时间)以来的毫秒数。
JourneyBench是一种全新的多模态理解和推理的基准,用于测试模型在各种任务中对不寻常或虚构图像的理解能力,包括多模态链式数学推理、多图像VQA视觉问答、非常见和虚幻图像的描述、侧重幻觉的视觉问答以及细粒度的跨模态检索。
某W和某C配置的VRRP双机热备都是VRID=1,导致生成的虚拟MAC相同造成核心交换机主VLAN地址表紊乱,从而出现转发异常整网瘫痪。
斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购!
Phi-4-Multimodal 模型的预训练阶段涉及丰富多样的数据集,视觉 - 语言训练数据包含 0.5T 图像 - 文本文档、OCR 数据、图表理解等;语音相关的训练数据涵盖真实和合成数据,使用内部 ASR 模型转录音频并计算原始文本与转录之间的词错率(WER)来衡量合成语音的质量。
首个商业级扩散大型语言模型(dLLM)来了!该模型名为 Mercury,其表现非常卓越,在英伟达 H100 上能以每秒超过 1000 token 的速度运行,同时性能也并不比现有的经过速度优化的 LLM 差。
随着大语言模型规模不断攀升,内存需求也在呈爆炸式增长。APOLLO 不仅在理论上打破了优化器内存瓶颈,更在实践中展现出预训练与微调的卓越性能。
DualPipe从时间上优化了计算与通信的调度,EPLB从空间上平衡利用计算资源,Profiling Data则提供了前两者在实际应用中效果的可视化证据。
来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL。
AI圈现在太卷了,阿里这次开源很有诚意,但是感觉阿里现在需要一个拳头产品来破圈了,DeepSeek的光环太耀眼了
Distillation Scaling Laws(蒸馏缩放定律)为知识蒸馏技术提供了理论基础,优化了教师与学生模型间的资源分配,使得基于计算预算更科学地预测模型性能成为可能,同时降低了大规模应用蒸馏技术的风险,并揭示了“能力差距”现象的本质,为解决蒸馏过程中的挑战提供了方向。
一年一度CVPR录用结果公布了!2878篇论文被接收,录用率22.1%。更惊爆的是,CVPR组委会对不负责任的审稿人进行惩罚,19篇论文直接桌拒。多名华人担任委员会主席。
Figure公司继推出自研VLA模型Helix后,再度发力!最新展示的机器人包裹分拣技术,仅用8小时训练数据,就实现了超越人类的效率和精度。通过一系列架构优化,包括立体视觉、多尺度特征、自我校准和运动模式,Figure机器人展现了惊人的学习和适应能力。
在数字化营销日益盛行的今天,智能体与营销自动化的结合已成为推动营销效率与客户体验升级的关键。本文将深入探讨两者如何协同工作,以及这一组合如何为企业带来诸多益处。
DeepSeek开源第四天,连更三个项目。DualPipe、EPLB、以及计算与通信重叠机制的优化并行策略,让大模型训练更快,成本更低,还能保持顶尖性能。
随着企业云使用量持续增加,谷歌的云网络安全预测显示,SIEM产品将成为企业SOC(安全运营中心)的核心,摄入“从云日志到端点遥测的一切数据”。
在当前大语言模型应用大规模落地的背景下,这些挑战正成为制约产品竞争力的关键瓶颈。传统 RAG 方案中的检索延迟、准确性波动以及系统复杂度,都在考验着开发者的耐心和智慧。