Claude Science：让实验笔记本成为产品

漫画中的科学家与 AI 助手一起，沿着发光的溯源路径，从实验数据追踪到图表和论文手稿 — 当我把 Claude Science 看作一种新型实验笔记本时，它最有意思：分析、代码、计算资源和推理记录都应该连在一起。

2026 年 6 月 30 日，Anthropic 开放了 Claude Science 测试版。产品页面称，这款应用可以连接 60 多个科学数据库，同时运行分析、检索数据库，并追踪从数据整理到发表的完整工作链路。但真正引起我注意的，不是 Claude 能聊生物学这件事。通用助手已经能做到这一点了。这款产品真正的主张是：Claude 能嵌入那个混乱的研究流程——数据、工具、代码、计算资源、图表、引文和审稿意见，都得在其中彼此碰撞、彼此存活。

在我看来，Claude Science 卖的更像是一本实验笔记本，而不是聊天机器人。如果它做成了，价值不在于模型听起来有多科学。而在于研究人员可以提出工作需求、看到产物、检查背后的代码和环境，还能让审稿人标记出与执行记录不符的结论。这比"AI 发现科学"的口号要窄得多，也有用得多。

答案快照

问题	我的看法
发生了什么？	Claude Science 已作为公开测试版应用上线，支持 macOS 和 Linux，适用于 Claude Pro、Max、Team 和 Enterprise 套餐。
新在哪里？	并不是新模型。Anthropic 表示，这款应用在现有 Claude 模型之上，封装了科学工具、数据库连接、计算资源集成、原生渲染器、溯源机制和审稿功能。
如果成功，谁受益？	那些已经要在论文、Python、R、shell 脚本、HPC 任务、科学数据库、分子、蛋白质、图表和手稿之间来回切换的研究人员，可能会获得一个更连贯的工作空间。
我的保留意见	审稿和溯源功能是对风险的坦诚承认，并不能证明输出在科学上正确。独立验证仍然是最终决定因素。

产品就是笔记本

Anthropic 的公告把 Claude Science 定位为面向科学家的 AI 工作台。公告称，这款应用集成了常用的研究工具和软件包，能生成可审计的产物，并提供灵活的计算资源访问。配套文档说得更清楚：Claude Science 是一款桌面应用，将 Claude 与用户电脑上的分析环境配对，在沙盒中编写和运行 Python、R 或 shell 代码，读取用户授权的文件夹，从科学数据库拉取数据，并将结果保存为带溯源信息的版本化产物。

这个形态很重要。科研工作不是一个提示词就能搞定的事。它是一条由假设、数据变换、包版本、中间文件、人工检查、解读和修改组成的链条。Anthropic 表示，Claude Science 的产物会包含生成它的完整代码、环境、自然语言说明和对话记录。与其再看一个模型"擅长科学"的空泛说法，我更愿意评估这样一种系统。

FAQ 也划清了边界：Claude Science 是一个测试版应用，不是模型。它使用的就是用户套餐内已有的 Claude 模型。变化的是外围系统：科学工具、数据库连接、计算资源集成，以及在实验室自有基础设施上运行分析的能力。

漫画中的研究工作流将数据库、笔记本、显微镜、分子和计算节点汇入一个受监督的工作台 — 这款产品最强的一面不是给出某个神奇答案，而是减少研究人员本来就要用的那些工具之间的摩擦。

痛点是真实的

Anthropic 最有力的论点是：科学工作流太碎片化了。产品页面列出了蛋白质、序列比对、基因组轨道、化学结构和 PDF 的原生渲染器，还表示 Claude Science 可以跨基因组学、单细胞分析、蛋白质组学、结构生物学、化学信息学等领域对接数据库和工具，包括连接 60 多个科学数据库。

这个问题不是表面功夫。2016 年 Nature 对 1,576 名研究人员的调查发现，超过 70% 的人曾尝试复现其他科学家的实验但失败了，超过一半连自己的实验都复现不了。另一篇 Nature 分析今年警告称，2025 年可能有数万篇出版物包含 AI 生成的无效引文。Claude Science 进入的是一个复现本来就很难、而 AI 还能让错误引文看起来更流畅的世界。

正因如此，我欣赏它对溯源的强调。一个能留下代码、环境和产物历史的工具，瞄准的是一个真实的失败模式。同样正因如此，我对任何把这件事包装成生产力奇迹的发布故事保持警惕。产出越有价值，证据链就越要经得起无聊的检验。

审稿机制是一种坦诚

Claude Science 内置了一个后台审稿机制。Anthropic 表示，它会检查最近的回答、已批准的方案、保存的产物和执行记录，看声称的内容是否与实际运行结果一致。文档列举了几类情况：没有实际运行却报告了结果、数值与源文件矛盾、引文无法支持所声称的内容、DOI 指向了另一篇论文，或者结论与所用方法不匹配。

我觉得这很有用，因为它承认了核心问题：一个 AI 科学工具需要在工作流里内置一个批评者。但文档也划了一条界限，读者应该记在心里：审稿机制对照记录检查声称，它不会重新运行分析，也不会判断所用方法是否适合研究问题。

这是合理的责任划分。应用可以帮助发现不匹配、缺失的溯源和无根据的声称。但它无法把薄弱的设计变成有力的实验。分析是否回答了问题、数据是否合适、假设是否站得住脚、结果是否值得走出探索性笔记本——这些仍然要由科学家来决定。

漫画中的审稿代理将产物卡片与科学家手稿进行比对，发光的证据线连接两者 — 审稿机制的价值在于把故事和工作记录对照检查。它替代不了科学判断。

本地优先仍有棱角

隐私和管理的故事比落地页标题更复杂。产品页面称，原始数据集和计算留在本地，而提示词中包含的内容和模型响应由 Anthropic 按标准保留策略处理。文档表示，对话历史和产物仅存储在成员设备上，应用会将提示词和 Claude 的响应发送到 Anthropic 的服务器，遵循标准的模型流量保留策略。

对很多工作流来说，这是一个合理的架构。但它不等于"什么都不出去"。实验室和公司仍然需要决定：什么可以放进提示词、哪些文件夹和网络主机应该被批准、端点数据如何管理、远程计算如何受管控。

这些并不意味 Claude Science 不可用。但它们意味着，上线决策需要研究人员和运维团队共同参与。一个本地优先的研究工作台，在数据、提示词、连接器、远程任务和本地产物跨越不同管控边界时，仍然会带来严肃的治理工作。

漫画中的科学家手持审批钥匙，AI 助手站在本地实验数据与远程计算之间的权限关卡前等待 — 本地数据、模型调用、远程计算和管理控制是不同的边界。产品需要让每一条边界都清晰可见。

这是一场堆栈竞赛

Claude Science 也是从通用聊天走向领域专用研究堆栈这一更大趋势的一部分。产品页面称，Claude Science 使用 NVIDIA BioNeMo Agent Toolkit 中的技能，连接生命科学模型和库，包括 Evo 2、Boltz-2 和 OpenFold3。NVIDIA 自己的公告将该工具包描述为面向生物学、化学、基因组学和药物发现的代理可调用生命科学工具。

OpenAI 则从另一个方向切入，推出了 GPT-Rosalind——一个专为生命科学打造的模型系列，随后又描述了将 Codex 工作流连接到科学工具和数据源的插件。这个背景改变了我看待 Claude Science 的方式。竞争不只是谁的模型能回答最好的生物学问题。而是谁的系统能把可信的数据、专业工具、计算资源、溯源、审稿和人类决策连成一个研究人员真正愿意用的东西。

在这里，公众的怀疑是健康的。在一条关于 Anthropic 早期 Claude 科学工作的 Hacker News 讨论中，评论者们追问的恰恰是关键的几点：生物学经常让看起来合理的计算建议翻车，实验验证仍然不可替代，厂商公告需要无利益关联的证据。我不把这当成科学调查来看。我把它当作一个有用的提醒：Claude Science 必须达到的标准。

我的结论

Claude Science 值得关注，因为它瞄准的是 AI 用于科学时通常被含糊带过的部分：工作记录。它在谈代码、环境、产物、引文、审稿发现、计算审批和连接器的时候最有说服力。这些地方，助手要么让研究更清晰，要么悄悄加上一层新的不确定性。

我还不会称这是一次科学突破。它是一次产品押注：下一个有用的科学助手，应该是一个带记忆、溯源、渲染器、计算接口和审计习惯的工作台。这是一个合理的押注。证明在于，独立实验室能否展示：溯源足够完整、审稿足够严格、工作流真正改善了研究，而不是把流畅的猜测洗成看起来可以发表的东西。

Claude Science：让实验笔记本成为产品

答案快照

产品就是笔记本

痛点是真实的

审稿机制是一种坦诚

本地优先仍有棱角

这是一场堆栈竞赛

我的结论

许可

ZCode 把 Harness 做成了产品

Sonnet 5 让 Agent 成为默认选项

韩国万亿美元 AI 豪赌，靠的是水和电

答案快照

产品就是笔记本

痛点是真实的

审稿机制是一种坦诚

本地优先仍有棱角

这是一场堆栈竞赛

我的结论

许可

相关新闻

ZCode 把 Harness 做成了产品

Sonnet 5 让 Agent 成为默认选项

韩国万亿美元 AI 豪赌，靠的是水和电