🔥51CTO热榜:2025-03-10

随着DeepSeek R1等开源大模型的火爆,越来越多的开发者、企业甚至开始尝试在本地部署大语言模型,享受AI带来的便利。
在面对复杂的推理任务时,SFT 往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。
今天,我就分享三个 Ansible 脚本,让你轻松驾驭千台服务器,不再被半夜的电话支配!
在部署好ollama之后,我们再来介绍ollama的一些其他用法。
生成式AI正重塑众多行业格局!传统搜索、网站与自由开发者、教育科技等行业受到冲击。AI对行业变革又有哪些推动作用?答案就在报告中。
世界第一台合成生物智能生物计算机诞生了!人类神经元直接集成到硅片上,能编程,甚至还能活体计算。这台计算机也为碳基正名:硅基计算并非天生优越!
CVPR 2025,混合新架构MambaVision来了!Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA,显著超越了基于Transformer和Mamba的模型。
Manus居然成功火到国外了,内销转出口了?今天开始,在X和Reddit上的外国网友中,Manus的讨论声量开始变大了!拿到邀请码的歪果网友实测后赞叹:Manus太好用了。而各种开源复现项目也如雨后春笋一般冒出,人气持续爆棚。
打造出AlphaGo的超级天才、谷歌DeepMind十二年老将Ioannis Antonoglou下场创业了,初创Reflection已融资1.3亿,种子轮由红杉资本等领投。他和Gemini 的核心贡献者携手,目标是用强化学习造出真·超级AI。
近日,由香港科技大学牵头,联合中科院软件所、西安电子科技大学、重庆大学等单位,开源了一系列形式化推理与验证大模型,仅用 7B,即可在相关任务上获得与 671B 满血版 DeepSeek-R1 相当的水平!
你是不是经常看到C++代码中那些奇怪的&、&&符号,还有到处乱飞的std::move,然后一脸懵逼?别担心,今天我用大白话带你彻底搞懂这些东西!
Few-shot 学习是一种有效的解决思路——通过极少量标注样本,让模型迅速掌握新类别,从而大幅改善了这一局限性。
一行未指定线程池的 CompletableFuture 代码,在高并发下触发默认线程池资源耗尽,导致任务队列无限堆积,最终内存溢出(OOM)。
据外媒 the Information 报道,目前微软正在测试 MAI(Microsoft Artificial Intelligence) 模型在各种任务中执行的效果,包括 Copilot AI 智能助手。
安全赋值运算符 (?=) 将通过使其更直观、更简洁来彻底改变 JavaScript 错误处理。
这项研究揭示了当前安全机制的深层矛盾 —— 推理透明化与防御鲁棒性正在形成难以调和的冲突。
集成商们现在面临一个艰难选择:到底是自己训练模型,还是用别人已经训练好的模型。
在人工智能领域,大语言模型(LLM)的发展日新月异。今天,阿里巴巴开源发布了 QwQ-32B 推理模型,这一仅拥有 320 亿参数的模型,却在性能上足以比肩 6710 亿参数的 DeepSeek-R1 满血版,引发业界广泛关注。本文将从技术特点、性能表现、应用场景等多个维度,深入解读 QwQ-32B 的独特魅力。
人们对GenAI趋之若鹜的心态不难理解。"当你开始在日常工作中使用GenAI时,会经历一系列复杂情绪——既充满期待与好奇,也夹杂着些许隐忧。
北京大学、上海人工智能实验室 、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。