跳转到主要内容

Claude Science:让实验笔记本成为产品

Anthropic 的 Claude Science 测试版,与其说是一个科学聊天机器人,不如说是一次关于溯源、计算资源、审稿检查和受控研究工作流的押注。

Claude5 分钟阅读
分享:
AI 驱动

AI 驱动 · 每小时限 20 次请求

漫画中的科学家与 AI 助手一起,沿着发光的溯源路径,从实验数据追踪到图表和论文手稿
当我把 Claude Science 看作一种新型实验笔记本时,它最有意思:分析、代码、计算资源和推理记录都应该连在一起。

2026 年 6 月 30 日,Anthropic 开放了 Claude Science 测试版。产品页面称,这款应用可以连接 60 多个科学数据库,同时运行分析、检索数据库,并追踪从数据整理到发表的完整工作链路。但真正引起我注意的,不是 Claude 能聊生物学这件事。通用助手已经能做到这一点了。这款产品真正的主张是:Claude 能嵌入那个混乱的研究流程——数据、工具、代码、计算资源、图表、引文和审稿意见,都得在其中彼此碰撞、彼此存活。

在我看来,Claude Science 卖的更像是一本实验笔记本,而不是聊天机器人。如果它做成了,价值不在于模型听起来有多科学。而在于研究人员可以提出工作需求、看到产物、检查背后的代码和环境,还能让审稿人标记出与执行记录不符的结论。这比"AI 发现科学"的口号要窄得多,也有用得多。

答案快照

问题我的看法
发生了什么?Claude Science 已作为公开测试版应用上线,支持 macOS 和 Linux,适用于 Claude Pro、Max、Team 和 Enterprise 套餐。
新在哪里?并不是新模型。Anthropic 表示,这款应用在现有 Claude 模型之上,封装了科学工具、数据库连接、计算资源集成、原生渲染器、溯源机制和审稿功能。
如果成功,谁受益?那些已经要在论文、Python、R、shell 脚本、HPC 任务、科学数据库、分子、蛋白质、图表和手稿之间来回切换的研究人员,可能会获得一个更连贯的工作空间。
我的保留意见审稿和溯源功能是对风险的坦诚承认,并不能证明输出在科学上正确。独立验证仍然是最终决定因素。

产品就是笔记本

Anthropic 的公告把 Claude Science 定位为面向科学家的 AI 工作台。公告称,这款应用集成了常用的研究工具和软件包,能生成可审计的产物,并提供灵活的计算资源访问。配套文档说得更清楚:Claude Science 是一款桌面应用,将 Claude 与用户电脑上的分析环境配对,在沙盒中编写和运行 Python、R 或 shell 代码,读取用户授权的文件夹,从科学数据库拉取数据,并将结果保存为带溯源信息的版本化产物。

这个形态很重要。科研工作不是一个提示词就能搞定的事。它是一条由假设、数据变换、包版本、中间文件、人工检查、解读和修改组成的链条。Anthropic 表示,Claude Science 的产物会包含生成它的完整代码、环境、自然语言说明和对话记录。与其再看一个模型"擅长科学"的空泛说法,我更愿意评估这样一种系统。

FAQ 也划清了边界:Claude Science 是一个测试版应用,不是模型。它使用的就是用户套餐内已有的 Claude 模型。变化的是外围系统:科学工具、数据库连接、计算资源集成,以及在实验室自有基础设施上运行分析的能力。

漫画中的研究工作流将数据库、笔记本、显微镜、分子和计算节点汇入一个受监督的工作台
这款产品最强的一面不是给出某个神奇答案,而是减少研究人员本来就要用的那些工具之间的摩擦。

痛点是真实的

Anthropic 最有力的论点是:科学工作流太碎片化了。产品页面列出了蛋白质、序列比对、基因组轨道、化学结构和 PDF 的原生渲染器,还表示 Claude Science 可以跨基因组学、单细胞分析、蛋白质组学、结构生物学、化学信息学等领域对接数据库和工具,包括连接 60 多个科学数据库。

这个问题不是表面功夫。2016 年 Nature 对 1,576 名研究人员的调查发现,超过 70% 的人曾尝试复现其他科学家的实验但失败了,超过一半连自己的实验都复现不了。另一篇 Nature 分析今年警告称,2025 年可能有数万篇出版物包含 AI 生成的无效引文。Claude Science 进入的是一个复现本来就很难、而 AI 还能让错误引文看起来更流畅的世界。

正因如此,我欣赏它对溯源的强调。一个能留下代码、环境和产物历史的工具,瞄准的是一个真实的失败模式。同样正因如此,我对任何把这件事包装成生产力奇迹的发布故事保持警惕。产出越有价值,证据链就越要经得起无聊的检验。

审稿机制是一种坦诚

Claude Science 内置了一个后台审稿机制。Anthropic 表示,它会检查最近的回答、已批准的方案、保存的产物和执行记录,看声称的内容是否与实际运行结果一致。文档列举了几类情况:没有实际运行却报告了结果、数值与源文件矛盾、引文无法支持所声称的内容、DOI 指向了另一篇论文,或者结论与所用方法不匹配。

我觉得这很有用,因为它承认了核心问题:一个 AI 科学工具需要在工作流里内置一个批评者。但文档也划了一条界限,读者应该记在心里:审稿机制对照记录检查声称,它不会重新运行分析,也不会判断所用方法是否适合研究问题。

这是合理的责任划分。应用可以帮助发现不匹配、缺失的溯源和无根据的声称。但它无法把薄弱的设计变成有力的实验。分析是否回答了问题、数据是否合适、假设是否站得住脚、结果是否值得走出探索性笔记本——这些仍然要由科学家来决定。

漫画中的审稿代理将产物卡片与科学家手稿进行比对,发光的证据线连接两者
审稿机制的价值在于把故事和工作记录对照检查。它替代不了科学判断。

本地优先仍有棱角

隐私和管理的故事比落地页标题更复杂。产品页面称,原始数据集和计算留在本地,而提示词中包含的内容和模型响应由 Anthropic 按标准保留策略处理。文档表示,对话历史和产物仅存储在成员设备上,应用会将提示词和 Claude 的响应发送到 Anthropic 的服务器,遵循标准的模型流量保留策略。

对很多工作流来说,这是一个合理的架构。但它不等于"什么都不出去"。实验室和公司仍然需要决定:什么可以放进提示词、哪些文件夹和网络主机应该被批准、端点数据如何管理、远程计算如何受管控。

这些并不意味 Claude Science 不可用。但它们意味着,上线决策需要研究人员和运维团队共同参与。一个本地优先的研究工作台,在数据、提示词、连接器、远程任务和本地产物跨越不同管控边界时,仍然会带来严肃的治理工作。

漫画中的科学家手持审批钥匙,AI 助手站在本地实验数据与远程计算之间的权限关卡前等待
本地数据、模型调用、远程计算和管理控制是不同的边界。产品需要让每一条边界都清晰可见。

这是一场堆栈竞赛

Claude Science 也是从通用聊天走向领域专用研究堆栈这一更大趋势的一部分。产品页面称,Claude Science 使用 NVIDIA BioNeMo Agent Toolkit 中的技能,连接生命科学模型和库,包括 Evo 2、Boltz-2 和 OpenFold3。NVIDIA 自己的公告将该工具包描述为面向生物学、化学、基因组学和药物发现的代理可调用生命科学工具。

OpenAI 则从另一个方向切入,推出了 GPT-Rosalind——一个专为生命科学打造的模型系列,随后又描述了将 Codex 工作流连接到科学工具和数据源的插件。这个背景改变了我看待 Claude Science 的方式。竞争不只是谁的模型能回答最好的生物学问题。而是谁的系统能把可信的数据、专业工具、计算资源、溯源、审稿和人类决策连成一个研究人员真正愿意用的东西。

在这里,公众的怀疑是健康的。在一条关于 Anthropic 早期 Claude 科学工作的 Hacker News 讨论中,评论者们追问的恰恰是关键的几点:生物学经常让看起来合理的计算建议翻车,实验验证仍然不可替代,厂商公告需要无利益关联的证据。我不把这当成科学调查来看。我把它当作一个有用的提醒:Claude Science 必须达到的标准。

我的结论

Claude Science 值得关注,因为它瞄准的是 AI 用于科学时通常被含糊带过的部分:工作记录。它在谈代码、环境、产物、引文、审稿发现、计算审批和连接器的时候最有说服力。这些地方,助手要么让研究更清晰,要么悄悄加上一层新的不确定性。

我还不会称这是一次科学突破。它是一次产品押注:下一个有用的科学助手,应该是一个带记忆、溯源、渲染器、计算接口和审计习惯的工作台。这是一个合理的押注。证明在于,独立实验室能否展示:溯源足够完整、审稿足够严格、工作流真正改善了研究,而不是把流畅的猜测洗成看起来可以发表的东西。

许可

新闻文本 © 2026 Mark Huang。 新闻文本可在非商业场景下分享或翻译,但需署名并链接到 https://markhuang.ai/zh/news/claude-science-lab-notebook.

建议署名: 基于「Claude Science:让实验笔记本成为产品」(作者:Mark Huang),原文发布于 https://markhuang.ai/zh/news/claude-science-lab-notebook。