首页
热榜
诗歌
博客
美图
分享
好物
牛股
友站
互动
登录
注册
🔥51CTO热榜:2025-02-27
11:43
51CTO
被DeepSeek带火的知识蒸馏详解!
知识蒸馏是一种模型压缩技术,通过训练一个小而高效的学生模型来模仿一个预训练的大且复杂的教师模型(或一组模型)的行为。这种训练设置通常被称为“教师-学生”模式,其中大型模型作为教师,小型模型作为学生。教师模型的知识通过最小化损失函数传递给学生模型,目标是匹配教师模型预测的类概率分布。
11:43
51CTO
一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
今天给大家分享一套基于 Material Design 规范实现的、开源(MIT license)且免费的 Blazor 和 Razor 通用组件库:MatBlazor。
11:43
51CTO
一篇文章掌握 C++14 通用 Lambda:让你的代码既简洁又高效
通用 Lambda 是 C++14 的语法糖,通过 auto 参数实现泛型编程,用 1 个 Lambda 替代 N 个重载版本,真正实现 DRY 原则的终极形态!
11:43
51CTO
50多年前,大神在操作系统中埋的雷,快要爆了......
在Unix Epoch Time确定下来30年后,一个准备转行Java程序员的年轻人打开了Java 的Date类。Date内部实际上存储的就是一个长整型的数(long),它表示的是自1970年1月1日 00:00:00 (即Unix Epoch时间)以来的毫秒数。
11:43
51CTO
识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力
JourneyBench是一种全新的多模态理解和推理的基准,用于测试模型在各种任务中对不寻常或虚构图像的理解能力,包括多模态链式数学推理、多图像VQA视觉问答、非常见和虚幻图像的描述、侧重幻觉的视觉问答以及细粒度的跨模态检索。
11:43
51CTO
实战:你敢信?运营商中心机房同时上两套 VRRP 热备网关,竟互相打架导致整网爆炸!
某W和某C配置的VRRP双机热备都是VRID=1,导致生成的虚拟MAC相同造成核心交换机主VLAN地址表紊乱,从而出现转发异常整网瘫痪。
11:43
51CTO
姚班天才创办的大模型公司,卖了
斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购!
14:15
51CTO
微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B
Phi-4-Multimodal 模型的预训练阶段涉及丰富多样的数据集,视觉 - 语言训练数据包含 0.5T 图像 - 文本文档、OCR 数据、图表理解等;语音相关的训练数据涵盖真实和合成数据,使用内部 ASR 模型转录音频并计算原始文本与转录之间的词错率(WER)来衡量合成语音的质量。
14:15
51CTO
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果
首个商业级扩散大型语言模型(dLLM)来了!该模型名为 Mercury,其表现非常卓越,在英伟达 H100 上能以每秒超过 1000 token 的速度运行,同时性能也并不比现有的经过速度优化的 LLM 差。
14:15
51CTO
MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能
随着大语言模型规模不断攀升,内存需求也在呈爆炸式增长。APOLLO 不仅在理论上打破了优化器内存瓶颈,更在实践中展现出预训练与微调的卓越性能。
14:15
51CTO
DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
DualPipe从时间上优化了计算与通信的调度,EPLB从空间上平衡利用计算资源,Profiling Data则提供了前两者在实际应用中效果的可视化证据。
14:15
51CTO
摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作
来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL。
14:15
51CTO
超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1
AI圈现在太卷了,阿里这次开源很有诚意,但是感觉阿里现在需要一个拳头产品来破圈了,DeepSeek的光环太耀眼了
14:15
51CTO
榨干每一分算力:Distillation Scaling Laws带你走进高效模型新时代
Distillation Scaling Laws(蒸馏缩放定律)为知识蒸馏技术提供了理论基础,优化了教师与学生模型间的资源分配,使得基于计算预算更科学地预测模型性能成为可能,同时降低了大规模应用蒸馏技术的风险,并揭示了“能力差距”现象的本质,为解决蒸馏过程中的挑战提供了方向。
14:15
51CTO
CVPR 2025录用率22.1%,LeCun中奖!大模型参评,审稿人19篇论文被拒
一年一度CVPR录用结果公布了!2878篇论文被接收,录用率22.1%。更惊爆的是,CVPR组委会对不负责任的审稿人进行惩罚,19篇论文直接桌拒。多名华人担任委员会主席。
14:15
51CTO
Figure机器人进厂打工,8小时速成物流分拣大师!自研VLA模型全面升级
Figure公司继推出自研VLA模型Helix后,再度发力!最新展示的机器人包裹分拣技术,仅用8小时训练数据,就实现了超越人类的效率和精度。通过一系列架构优化,包括立体视觉、多尺度特征、自我校准和运动模式,Figure机器人展现了惊人的学习和适应能力。
14:15
51CTO
如何将智能体与营销自动化技术相结合
在数字化营销日益盛行的今天,智能体与营销自动化的结合已成为推动营销效率与客户体验升级的关键。本文将深入探讨两者如何协同工作,以及这一组合如何为企业带来诸多益处。
14:15
51CTO
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
DeepSeek开源第四天,连更三个项目。DualPipe、EPLB、以及计算与通信重叠机制的优化并行策略,让大模型训练更快,成本更低,还能保持顶尖性能。
14:15
51CTO
重塑安全信息和事件管理市场的四大关键趋势
随着企业云使用量持续增加,谷歌的云网络安全预测显示,SIEM产品将成为企业SOC(安全运营中心)的核心,摄入“从云日志到端点遥测的一切数据”。
14:15
51CTO
绕过 RAG 实时检索瓶颈,缓存增强生成(CAG)如何助力性能突破?
在当前大语言模型应用大规模落地的背景下,这些挑战正成为制约产品竞争力的关键瓶颈。传统 RAG 方案中的检索延迟、准确性波动以及系统复杂度,都在考验着开发者的耐心和智慧。
<
1
2
3
历史热榜
51CTO 2025-02-26
51CTO 2025-02-25
51CTO 2025-02-24
51CTO 2025-02-23
51CTO 2025-02-22
51CTO 2025-02-21
51CTO 2025-02-20
51CTO 2025-02-19
51CTO 2025-02-18
51CTO 2025-02-17
51CTO 2025-02-16
51CTO 2025-02-15
51CTO 2025-02-14
51CTO 2025-02-13
51CTO 2025-02-12
51CTO 2025-02-11
51CTO 2025-02-10
51CTO 2025-02-09
51CTO 2025-02-08
51CTO 2025-02-07
51CTO 2025-02-06
51CTO 2025-02-05
51CTO 2025-02-04
51CTO 2025-02-03
51CTO 2025-02-02
51CTO 2025-02-01
51CTO 2025-01-31
51CTO 2025-01-30
51CTO 2025-01-29
51CTO 2025-01-28
51CTO 2025-01-27
51CTO 2025-01-26
51CTO 2025-01-25
51CTO 2025-01-24
51CTO 2025-01-23
51CTO 2025-01-22
51CTO 2025-01-21
51CTO 2025-01-20
51CTO 2025-01-19
51CTO 2025-01-18
51CTO 2025-01-17
51CTO 2025-01-16
51CTO 2025-01-15
51CTO 2025-01-14
51CTO 2025-01-13
51CTO 2025-01-12
51CTO 2025-01-11
51CTO 2025-01-10
51CTO 2025-01-09