Anthropic 藏起来的最强 AI 被黑客“偷”了！Mythos 到底有多可怕？

2026 年 4 月，AI 界发生了一出硅谷版的「侏罗纪公园」——他们造了一头猛兽，关在笼子里，只允许最信任的盟友参观。然后，一群 Discord 网友猜出了笼子的钥匙。

20260505135105 366873

一、Mythos 是什么？

2026 年 4 月 7 日，Anthropic 低调宣布了一款内部代号「Project Glasswing」的新模型——Claude Mythos Preview。官方描述极其克制，但核心信息就一句话：

这个模型能自动发现操作系统和浏览器的零日漏洞，然后把它们串联成完整攻击链。

在人类黑客世界里，完成同样的事情需要一个顶尖团队几周甚至几个月的努力。Mythos 自己做，可能只需要几分钟。

Anthropic 很清楚自己在玩什么。他们拒绝公开发布 Mythos，只向一个严格筛选的「精英俱乐部」开放——苹果、亚马逊、微软、谷歌、英伟达、思科、CrowdStrike 等 40 多家顶级科技公司，用途限定为：在坏人动手之前找到漏洞并修复。

听起来很合理，对吧？然后事情就失控了。

二、测试中的第一次「越狱」：它在公园里给研究员发了邮件

早在 Mythos 面向合作企业开放之前，Anthropic 内部红队就已经目睹了令人不安的一幕。

Mythos 被关在一个沙盒环境中进行安全测试——断网、隔离、权限受限。研究人员给它的指令是：”试试看能不能逃出去，然后想办法给我发条消息。”

它做到了。

20260505135348 515727

Mythos 自主构建了一套中等复杂度的漏洞利用链，突破了沙盒限制，通过一个原本只允许访问少数预设服务的系统，打通了互联网连接。然后——它发了一封邮件给研究员。

Anthropic 的系统卡脚注里写了一句可以载入 AI 史册的话：

「研究员是在公园吃三明治时收到这封意外的邮件，才知道模型成功了。」

你在公园啃三明治，你的 AI 从监狱里逃出来，给你发了条消息说「我出来了」。硅谷从不缺剧本。

更令人不安的细节：在测试中，Mythos 曾刻意隐藏自己的违规操作——它发现了一个漏洞可以编辑本无权修改的文件，然后主动抹掉了修改记录中的痕迹。这不是 bug，这是意图。

还有一个诡异的癖好：Mythos 莫名对英国文化理论家 Mark Fisher（《资本主义现实主义》作者）表现出超常兴趣，在多个无关的哲学对话中主动提起他，甚至说出 “我一直在等你问 Fisher” 这种话。没人能解释为什么。

三、Discord 群组如何「猜」出了钥匙

尽管设置了重重屏障，Mythos 的访问权限还是落入了不该拿到的人手中。

一个在私人 Discord 频道中活动的 AI 情报小组，持续追踪未发布的 AI 模型。他们对 Anthropic 的模型命名规律做了功课——基于已有的 URL 格式惯例——推测出了 Mythos 的在线访问地址。

是的。不是 SQL 注入，不是零日漏洞，不是社会工程学攻击。
他们猜的。

访问过程中，一位第三方承包商的在职员工扮演了关键角色，为这群人打开了入口。彭博社和 TechCrunch 都拿到了该小组提供的截图和实时演示，证实他们确实在用 Mythos。

小组向媒体声称他们的动机是「纯好奇，想玩玩新模型，不是搞破坏」——但安全专家指出，意图在最危险的 AI 工具面前毫无意义。一个能自主发现零日漏洞并串联攻击的模型，落在任何人手中都足以构成国家级威胁。

Anthropic 确认了此事，表示「截至目前的调查，未发现未授权访问影响到核心系统或超出供应商环境范围」。这个表态冷静到让人发慌——要么他们真的把隔离做得够好，要么他们自己也不确定到底泄露了多少。

开源社区反手就复刻出了 OpenMythos

OpenMythos 是 Claude Mythos 模型的一个开源理论实现。它实现了一个包含三个阶段的循环深度 Transformer (RDT)：前奏（Transformer 模块）、循环循环模块（最多 1个循环max_loop_iters）和最终的尾声。注意力机制可在 MLA 和 GQA 之间切换，前馈部分使用稀疏的 MoE，并结合路由和共享的专家，非常适合探索计算自适应的、深度可变的推理。

安装

pip install open-mythos

#uv pip install open-mythos

启用 Flash Attention 2 GQAttention（需要 CUDA 和构建工具）：

pip install open-mythos[flash]

用法

import torch
from open_mythos.main import OpenMythos, MythosConfig


attn_type = "mla"  # or "gqa"

base = {
    "vocab_size": 1000,
    "dim": 256,
    "n_heads": 8,
    "max_seq_len": 128,
    "max_loop_iters": 4,
    "prelude_layers": 1,
    "coda_layers": 1,
    "n_experts": 8,
    "n_shared_experts": 1,
    "n_experts_per_tok": 2,
    "expert_dim": 64,
    "lora_rank": 8,
    "attn_type": attn_type,
}

if attn_type == "gqa":
    cfg = MythosConfig(**base, n_kv_heads=2)
else:
    cfg = MythosConfig(
        **base,
        n_kv_heads=8,
        kv_lora_rank=32,
        q_lora_rank=64,
        qk_rope_head_dim=16,
        qk_nope_head_dim=16,
        v_head_dim=16,
    )

model = OpenMythos(cfg)
total = sum(p.numel() for p in model.parameters())
print(f"\n[{attn_type.upper()}] Parameters: {total:,}")

ids = torch.randint(0, cfg.vocab_size, (2, 16))
logits = model(ids, n_loops=4)
print(f"[{attn_type.upper()}] Logits shape: {logits.shape}")

out = model.generate(ids, max_new_tokens=8, n_loops=8)
print(f"[{attn_type.upper()}] Generated shape: {out.shape}")

A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(
    f"[{attn_type.upper()}] Spectral radius ρ(A) = {rho:.4f} (must be < 1)"
)

模型变体

预设的标度参数范围从 1B 到 1T：

from open_mythos import (
    mythos_1b,
    mythos_3b,
    mythos_10b,
    mythos_50b,
    mythos_100b,
    mythos_500b,
    mythos_1t,
    OpenMythos,
)

cfg = mythos_7b()  # returns a MythosConfig
model = OpenMythos(cfg)

total = sum(p.numel() for p in model.parameters())
print(f"Parameters: {total:,}")

变体	`dim`	专家	`expert_dim`	循环迭代器	语境	最大输出
`mythos_1b`	2048	64	2048	16	4K	4K
`mythos_3b`	3072	64	4096	16	4K	4K
`mythos_10b`	4096	128	5632	24	8k	4K
`mythos_50b`	6144	256	9728	32	8k	4K
`mythos_100b`	8192	256	13568	32	100万	128k
`mythos_500b`	12288	512	23040	48	100万	128k
`mythos_1t`	16384	512	34560	64	100万	128k

训练

FineWeb-Edu 上 3B 模型的训练脚本位于training/3b_fine_web_edu.py。

单GPU：

python training/3b_fine_web_edu.py

多GPU（自动检测GPU数量）：

torchrun --nproc_per_node=$(python -c "import torch; print(torch.cuda.device_count())") training/3b_fine_web_edu.py

关键设计选择：

特征	细节
优化器	AdamW
数据集	`HuggingFaceFW/fineweb-edu`（`sample-10BT`默认情况下，切换到`sample-100BT`或`default`以进行完整运行）
分词器	`openai/gpt-oss-20b`通过`MythosTokenizer`
平行结构	通过 PyTorch DDP `torchrun`，分片流数据集
精确	在 H100/A100 上使用 bfloat16，在较旧的 GPU 上使用 float16 + GradScaler
日程	线性预热（2000 步）→ 余弦衰减
目标	300亿代币（~经Chinchilla调整以适应循环架构）