动态可跳过神经网络结构研究

2025/09/04·StepFun can make mistakes, check important info.

https://arxiv.org/pdf/2509.00925 类似这篇的，data dependent的逐层可跳过的模型结构设计，还有哪些文章，请列举并分析

Requirement clarification

我需要分析用户的需求，理解他们想要了解的"data dependent的逐层可跳过的模型结构设计"相关文献。

首先，我需要了解用户提供的论文链接内容，以便更准确地理解用户的研究方向。这篇论文似乎是关于一种可以根据数据特性动态调整计算路径的神经网络架构。我需要搜索相关文献来回应用户的请求。

arxiv 2509.00925 data dependent layer skipping neural network architecture

arxiv.org

This survey provides a comprehensive summary and outlook on the development of skip connections in deep neural networks.

aclanthology.org

Skip connection is a widely-used technique to improve the performance and the convergence of deep neural networks, which is believed to relieve the ...

Stack Exchange

Skip connections in deep architectures, as the name suggests, skip some layer in the neural network and feeds the output of one layer as the ...

澎湃

论文链接：https://arxiv.org/abs/2401.14398 论文标题：Multimodal Pathway:Improve Transformers with Irrelevant Data from Other Modalities 论文链接：https://arxiv.org/abs/2401.14405 论文标题：EAGLE:Speculative Sampling Requires Rethinking Feature Uncer...

香港中文大学（深圳）理工学院

4467–4473.Guan,H.,Gao,Y.,Zhao,M.,Yang,Y.,Deng,F.,&Lam;,T.L.(2021).AB-Mapper:Attention and BicNet Based Multi-agent Path Finding for Dynamic Crowded Environment.ArXiv Preprint ArXiv:2110.00760.Peng,M.,Wang,C.,Gao,Y.,Shi,Y.,&Zhou;,X.-D.(2021)...

arXiv.org

WebAssembly,WASI,Edge,Embedded,IoT,Cyber-physical,Hardware Abstraction Layer I Introduction The Internet of Things(IoT)refers to the network of devices and electronics embedded with various sensors,software,and other technologies to gather and exc...

arXiv.org

Title:Bipartite Matching with Pair-Dependent Bounds Title:Linear-Time Demonstration Selection for In-Context Learning via Gradient Estimation Comments:19 pages.To appear in EMNLP'25 Title:Exploring Selective Retrieval-Augmentation for Long-Tail Le...

arXiv.org

Large Language Models(LLMs)exhibit In-Context Learning(ICL),which enables the model to perform new tasks conditioning only on the examples provided in the context without updating the model’s weights.While ICL offers fast adaptation across natural language...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0NDEyNDQ0LzgzLzdkLzI2LzgzN2QyNjBiZGI3ODg0NzQxYWNhMWMzZGQ5NWQwMTc2Lmljbw==&sign=yx:FgUrPkD016Rc89-ZBz7SYezxGYQ=&tv=400_400

View all 12 sources

基于用户提供的链接和搜索结果，我理解用户想了解类似于arxiv:2509.00925论文中"data dependent的逐层可跳过的模型结构设计"的相关研究工作。这类研究主要关注如何根据输入数据特性动态调整神经网络的计算路径，以提高推理效率。

从搜索结果中，我发现了一篇相关性很高的论文LayerSkip (arXiv:2404.16710)，它提出了一种端到端解决方案，通过层dropout训练和早期退出机制来加速大型语言模型的推理。这与用户提到的"data dependent的逐层可跳过"技术相似。

为了更全面地回应用户需求，我需要了解用户对这类技术的具体关注点，以便提供更有针对性的文献分析。

您是否特别关注某个特定领域(如NLP、CV、推荐系统等)中的动态计算路径技术？
您更关注这类技术的理论基础，还是实际应用和性能提升？
您是否需要包含最新(2025年)的研究进展，或者经典的奠基性工作也感兴趣？

都感兴趣，尽量不要遗漏

好的，这是一个为您制定的研究计划。

Research plan

明确“data-dependent”和“逐层可跳过”这两个核心技术概念，并提炼出如“dynamic networks”、“conditional computation”、“early exit”、“adaptive inference”等相关的同义词和关键词，以扩大检索范围。
在Google Scholar、arXiv、Semantic Scholar等学术搜索引擎中，使用上述关键词组合进行检索，初步筛选出一批与主题高度相关的研究论文。
分析已筛选论文的“Related Work”章节和参考文献，追溯该领域的奠基性、开创性工作，并利用引文网络向前追溯引用这些经典论文的最新研究进展。
针对每篇筛选出的核心论文，深入分析其提出的模型结构、决策机制（如何判断是否跳层）、适用的任务领域（如CV、NLP）以及实验验证的性能（如加速比、精度损失）。
对不同的技术路径进行归类和比较，例如区分是基于强化学习、门控机制还是其他方法实现的动态计算，并分析各自的优缺点和适用场景。
综合所有信息，整理并输出一份结构化的报告，将论文按照技术流派或发展时间线进行分类，并对每篇论文的核心思想、创新点和实验效果进行简要评述。

开始研究

Deep Research

首先，我需要了解您提供的论文链接中的内容，以便更好地理解您所指的"data dependent的逐层可跳过的模型结构设计"。

网页解析

https://arxiv.org/pdf/2509.00925

摘要

本论文介绍了DTRNet（Dynamic Token Routing Network），一种改进的Transformer架构，旨在减少Transformer中二次方复杂度的计算成本。DTRNet允许令牌动态跳过跨令牌混合的二次方成本，同时仍接收轻量级的线性更新。通过保留MLP模块并将大多数令牌的注意力成本降低为线性，DTRNet确保每个令牌都得到明确更新，同时显著降低整体计算量。经训练后，DTRNet在每层仅将10%的令牌路由通过注意力机制，同时保持与完整Transformer相当的性能。它在相同FLOP条件下，在准确性和内存方面始终优于基于路由的层跳过方法（如MoD和D-LLM），同时路由更少的令牌到完整注意力层。其效率随序列长度增加而提高，为长上下文输入提供显著的FLOP减少。通过将令牌更新与注意力混合解耦，DTRNet大幅减少了计算中的二次方部分，为Transformer提供了一种简单、高效且可扩展的替代方案。

与问题相关的信息提取

这篇论文题为"DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers"，由Aman Sharma、Saeed Najafi、Parsa Farinneya等多位来自华为诺亚方舟实验室、阿尔伯塔大学、滑铁卢大学和AMD的研究人员共同完成。

论文的主要贡献是提出了一种名为DTRNet的动态令牌路由网络，旨在解决Transformer模型中自注意力机制的二次方复杂度问题。具体贡献包括：

提出了一种动态路由架构，通过轻量级线性路径和二次方注意力路径实现显式令牌更新，同时保留共享MLP块，从而降低计算成本。
设计了一个简单的训练目标，通过惩罚将令牌路由到注意力机制的行为，使模型能够学习何时需要注意力，同时保持准确性。
实证分析表明，DTRNet在可比较的计算量下优于现有最先进的方法，并在不同模型规模(360M, 1.3B)上提高效率。评估显示DTRNet的效率和FLOP增益随序列长度增加而增加，超过密集Transformer和先前的路由方法。

DTRNet的核心创新在于其数据依赖的逐层可跳过模型结构：

双路径设计：在每一层，学习型路由器将每个令牌分配到两条路径之一：
- 二次方路径：标准的全注意力路径，进行跨令牌混合
- 线性路径：轻量级路径，通过共享的值和输出投影更新令牌，跳过昂贵的注意力计算
令牌路由器：使用两层前馈网络决定每个令牌应该走哪条路径，生成软路由分数，在推理时执行硬路由。
保留MLP更新：与之前的方法不同，DTRNet对所有令牌都保留MLP模块，确保即使跳过注意力计算的令牌也能得到有意义的更新。
稀疏注意力等效性：硬路由方案产生动态稀疏注意力机制，限制注意力只在被路由到注意力路径的令牌之间进行交互。
训练和正则化：使用复合损失函数，包括任务交叉熵损失和注意力使用惩罚项，鼓励稀疏、预算感知的注意力使用。

实验表明，DTRNet在每层平均只将约10%的令牌路由通过注意力机制，同时保持与完整Transformer相当的性能，在相同FLOP条件下，在准确性和内存方面始终优于基于路由的层跳过方法。

相关图片提取

图片标题: Layer-wise Hidden State Cosine Similarity
内容: 展示了1.3B SmolLM模型中令牌嵌入的平均层间余弦相似度热力图
来源: 论文作者
链接: 未知（论文中的Figure 1）
图片标题: DTRNet Layer
内容: 展示了DTRNet层的结构图，左侧是路由到自注意力路径的令牌流程，右侧是路由到仅投影(bypass)路径的令牌流程
来源: 论文作者
链接: 未知（论文中的Figure 2）

感谢您提供的信息。现在我对DTRNet这篇论文有了基本了解，它是一种数据依赖的逐层可跳过模型结构设计，主要通过动态令牌路由来减少Transformer中的二次方计算成本。接下来，我将搜索类似的研究工作。

data dependent skip layer dynamic network transformer "early exit" "conditional computation"

arxiv.org

Our approach differs by applying conditional computation to entire Transformer ... LayerSkip: Enabling Early Exit Inference and Self ...

arxiv.org

Our approach differs by applying conditional computation to entire Transformer blocks, and dynamically ... LayerSkip: Enabling Early Exit ...

dl.acm.org

ANT's growth depends on data complexity and availability, performing conditional computation ... A dynamic transformer network with early exit mechanism for fast ...

戴尔官方网站

networker|Dell NetWorker 19.12 错误消息指南|internal-server-error-the-server-encountered-an-internal-error-or-misconfiguration-and-was-unable-~

有道词典

The commutation algorithm toward value for data dependent on satisfactory conditions in relational database is discussed and the related definitions,rules and theorems are put forward. 讨论了关系数据库的空值与数据依赖满足性变换算法，并给出了有关的定义、规则、定理与变换算法。y...

CSDN技术社区

def data_link_layer_function():functions=["处理物理地址","错误检测与纠正","流量控制"]return",".join(functions)print(data_link_layer_function()) 5.2 CSMA/CD协议的工作过程如何描述？CSMA/CD(载波监听多址接入/冲突检测)协议用于局域网中的介质访问控制。当一个设备想要发送数据时，它会先监听信道是否空闲；如果发现信道忙...

百度学术

作者： G Marion，D Saad 摘要： We show that in supervised learning from a particular data set Bayesian model selection,based on the evidence,does not optimise generalization performance even for a learnable linear problem.This is achieved by examining th...

掌桥科研

This paper presents a power efficient dynamic chain adder based on a Data Dependent Precharging(DDP)algorithm.It suppresses spurious transitions due to the unconditional precharging of outputs during the 'precharge' mode.A 64-bit adder ha...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9jZG4uc20uY24vdGVtcC8yMDIxMDkxNDE3MTUxNC0wdmVxY2ZwYTk2Nmh2c3p5OHRmcW96a3l6cHp0a2VxYy5KUEc=&sign=yx:kROpGG3jrz4QX9N1U0SMnACwTWg=&tv=400_400

View all 16 sources

现在我对"data dependent的逐层可跳过的模型结构设计"相关研究有了初步了解。我需要进一步搜索更多相关论文，特别是与DTRNet类似的动态网络结构。

dynamic networks transformer "early exit" "conditional computation" "adaptive inference" "token routing"

文件

[PDF] A Survey on Efficient Inference for Large Language Models

有道词典

词典翻译有道精品课云笔记惠惠更多产品 ...当前分类下找不到"dynamic networks"的例句。查看原声例句下的全部例句或者看看其他分类：双语例句海量例句，可以按难度查看口语、书面语、论文例句。权威例句例句来自权威英文网站、英文论文等，提供最专业的例句。应用推荐 firstVoiceSent 来自原声例句关于有道 Investors 有道智选官方博客技术博客诚聘英才站点地图网络举报 © 2025 网易公司隐私政策京ICP证080...

CSDN技术社区

DyNetx库的标签包括'complex-networks'、'network-analysis'和'dynamic-networks'，这些标签准确地反映了库的核心功能和应用领域。标签'complex-networks'表明了库能够处理复杂网络结构，'network-analysis'强调了它在分析网络中的作用，而'dynamic-networks'则是该库最为显著的特点，即专注于动态网络的研究。这...

36氪

上述网站服务提供商 Dynamic Network Service公司（简称Dyn）称，这一现象是由于其域名系统（DNS）服务从当天上午 7 点开始，连续遭遇大规模分布式 Denial-of-service 的攻击。Dyn 是美国最大的 DNS 服务商，负责将域名解析为 IP 地址，将用户带到正确的网页。而黑客这次使用 Denial-of-service 则是一种在互联网地下很常见的攻击方式—通过堆砌大量垃圾数据的方式堵塞用户正常登陆的通道。而此次攻击是由全球上千万感染恶意代码的设备发起，...

百度学术

作者： J.，DOYNE，FARMER，STUART，A.，KAUFFMAN，NORMAN，H.，PACKARD，ALAN DOI： 10.1111/j.1749-6632.1987.tb48728.x 被引量： 120 年份： 1987

掌桥科研

2.Comparison between shortest path first routing and dynamic least load routing in WDM networks[J].Sugang Xu,Sezaki Kaoru 電子情報通信学会技術研究報告.フォトニックネットヮ-ク.Photonic Network.2001,第511期机译：WDM网络中最短路径优先路由和动态最小负载路由之间的比较 3.Comparison between shortes...

有道词典

These public-private partnerships are obviously built,in part,on tax incentives and government regulations,but they succeed in creating a new social compact by encouraging these dynamic and dense networks. FORBES:For the 21st Century,a Ne...

北京大学

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cDovL3MyLnppbWdzLmNuL2ltcz9hdD1zaXRlX2xvZ28ma3Q9dXJsJmtleT1hSFIwY0hNNkx5OW5hVzFuTXk1aVlXbGtkUzVqYjIwdmJHVm5ieTl6Y21NOWFIUjBjSE1sTTBFbE1rWWxNa1ppYWk1aVkyVmliM011WTI5dEpUSkdkakVsTWtad2N5MXpZMmh2YkdGeUxXRnRhWE1sTWtaaGNtTm9hWFpsWkNVeVJqSXdNakF0TlNVeVJqRTFPRGsxTWpVMU56VTJPVFlsTWtaMGFXMW5MbkJ1WnlaeVpXWmxjajFvZEhSd0pUTkJKVEpHSlRKR2QzZDNMbUpoYVdSMUxtTnZiU1poY0hBOU1qQXdPU1p6YVhwbFBYSXhMREVtYmowd0ptYzlNVzRtWlhJOU5EQTBKbkU5TVRBd0ptWnRkRDFoZFhSdkptMWhlRzl5YVd4bGJqSm9aV2xqUFRJd01EQXdNREFfYzJWalBURTNOVEEyT1Rnd01EQW1kRDB4TVRZMVpHSmlPREkwWmpVek9HVTBNalZrT0RNd1pqTTRZVGc0TVdNMFpBPT0mc2lnbj15eDpHS1NkMDRVYWNWOEduV0pOeFM0R3VmZ0NGZG89JnR2PTBfMCZwPQ==&sign=yx:fUSYtWYlSOhEBUn7RqcRgRYuFSk=&tv=400_400

View all 9 sources

我需要继续搜索更多关于动态网络和条件计算的相关研究，特别是与DTRNet类似的模型结构。

dynamic token routing skip layer transformer MoE early exit conditional computation

arxiv.org

In MoD, unlike in early-exit methods, a token can skip middle layers, then be updated via self-attention with tokens that that have gone through ...

arxiv.org

Our approach differs by applying conditional computation to entire Transformer blocks, and dynamically allocating a variable number of ...

GitHub Pages

This is a unique feature of MoD compared to conventional halting-based, or "early-exit" conditional computation, which instead engage blocks ...

有道词典

发音：美 [daɪˈnæmɪk ˈraʊtɪŋ] 解释：[计] 动态路径选择

百度百科

动态路由是指路由器能够自动地建立自己的路由表，并且能够根据实际情况的变化适时地进行调整。

CSDN技术社区

2.Harder Tasks Need Experts:Dynamic Routing in MoE Models 3.XMoE:Sparse Models with Fine-grained and Adaptive Expert Selection 4.HyperMoE:Towards Better Mixture of Experts via Transferring Among Experts 5.Not All Experts are Equal:Efficient Expert...

微博

Mixture-of-Recursions:Learning Dynamic Recursive Depths for Adaptive Token-Level Computation Mixture-of-Recursions：为每个 token 动态分配思考深度的新范式一、背景与动机近年来，大语言模型（LLMs）在语言理解、生成和推理等方面取得了显著进展，但这种进步往往依赖于巨量的参数规模与算力资源。传统方法中主要有两条提升模型效率的路径： 1....

IBM

例如，当在新控制器上启用了 Dynamic Routing 功能部件或添加了新的 Web 服务器时。genKeystore dynamicRouting 命令操作用于生成密钥库文件。每个 dynamicRouting 命令操作都支持联机帮助。Dynamic Routing 功能部件的命令: setup genPluginCfg genKeystore 注意:在 V 19.0.0.3之前，dynamicRouting 命...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0NDI2OTYxLzk0LzdjLzhiLzk0N2M4YjczYWNmMmE5YjE2YmU1MGFiOWMxN2U0MGZhLmljbw==&sign=yx:ICLmq9NGKGHIl1Fi__0wNRNyWJ8=&tv=400_400

View all 16 sources

已掌握的信息

核心论文理解：已深入分析了用户提供的论文DTRNet，明确了其核心思想是通过动态令牌路由（Dynamic Token Routing）机制，让每个令牌（token）在每一层动态选择执行完整的二次方复杂度注意力计算，还是执行一个轻量级的线性更新，从而在数据依赖（data-dependent）的层面节省计算资源。
关键技术流派识别：通过初步检索，已识别出与该主题相关的几个主要技术方向。这包括以DTRNet和Mixture-of-Depths (MoD)为代表的令牌级动态计算（token-level dynamic computation），它们在每层决定哪些令牌需要更多计算；以“Learning to Skip the Middle Layers of Transformers”为代表的层级跳过（layer skipping），它们决定跳过整个中间层；以及更广义的提前退出（early exit）机制，它们在样本层面决定何时终止整个推断过程。
重要相关论文发掘：已经发现了几篇高度相关的研究论文，如Mixture-of-Depths (MoD)、Mixture-of-Recursions (MoR)等，它们与DTRNet一样，都采用了某种形式的路由机制来动态分配计算资源。同时，也找到了相关的综述性文章，为构建该领域的技术图谱提供了宏观视角。
核心概念关联：明确了“条件计算”（Conditional Computation）和“混合专家模型”（Mixture-of-Experts, MoE）是该领域的重要理论基础。特别是MoE中的路由（routing）思想，被广泛借鉴用于实现动态的网络结构。

下一步行动计划

系统性论文分析：将对已识别的核心论文（如DTRNet, MoD, MoR, "Skip Middle Layers"等）进行逐一精读和深度解析。重点提炼每种方法的核心机制（决策模块如何设计、路由策略是什么）、性能权衡（在节省多少计算量的同时，模型性能如何变化）、以及各自的优缺点和适用场景。主要信息来源为arXiv、Google Scholar等学术数据库上的论文原文。
构建技术分类框架：基于已掌握的信息，建立一个清晰的分类体系来组织这些动态模型结构。可以从“动态调整的粒度”（例如：令牌级、层级、样本级）和“决策机制的类型”（例如：基于门控、基于强化学习、基于固定预算）等维度进行划分，并为每个类别填充代表性的研究工作。
进行横向对比与可视化：创建一个对比矩阵或思维导图，系统性地比较不同方法在模型结构、路由算法、训练目标、计算效率提升和性能损失等关键指标上的异同。利用可视化工具将这些对比结果以图表形式呈现，使不同技术路径的特点和权衡一目了然。
梳理技术演进脉络：通过分析关键论文的引文网络，追溯该领域的发展历史和关键的开创性工作。明确各项技术是如何在前人工作的基础上演进的，例如从MoE的专家选择，发展到DTRNet和MoD的计算路径选择。这将为最终报告构建一个有深度、有逻辑的叙事结构。
整合信息并撰写报告：最后，将所有分析和对比结果整合成一份结构完整、逻辑清晰、图文并茂的研究报告。报告将首先介绍背景问题，然后分章节阐述不同的技术流派，并附上详细的案例分析和横向对比，最后对该研究方向的现状进行总结，并展望未来的发展趋势。

首先，我需要更深入地了解一些关键论文，特别是MoD和"Skip Middle Layers"这两篇与DTRNet高度相关的工作。

网页解析

https://arxiv.org/pdf/2404.02258

看来访问这个URL遇到了问题。我将尝试搜索更多关于Mixture-of-Depths (MoD)的信息。

Mixture-of-Depths MoD transformer dynamic layer skipping paper

arxiv.org

In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence.

arxiv.org

In MoD, unlike in early-exit methods, a token can skip middle layers, then be updated via self-attention with tokens that that have gone ...

GitHub Pages

MoD sets a static compute budget which limits the number of tokens that can participate in a transformer layer's computations (self-attention ...

微博

最新发布的Mixture-of-Depths（MoD），改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。结果显示，在等效计算量和训练时间上，MoD每次向前传播所需的计算量更小，而且后训练采样过程中步进速度提高50%。这一方法刚刚发布，就马上引发关注。MoE风头正盛，MoD已经来后浪拍前浪了？的性能表现。首先，...

bilibili

Mixture-of-Depths,视频播放量 11、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 1、转发人数 0,视频作者 AiVoyager,作者简介，相关视频：DINOv2，Octo，编码器与解码器是什么？GPT靠"半截"Transformer统治AI世界的秘密，Collective Intelligence，MetaGPT，Hyperparameter Tuning，Orthogonal Finetuning，Humano...

bilibili

Mixture-of-Depths Dynamically allocating compute in transformer-based language models(Google 2024),视频播放量 555、弹幕量 0、点赞数 14、投硬币枚数 7、收藏人数 9、转发人数 4,视频作者 mardinff,作者简介，相关视频：Gecko-Versatile Text Embeddings Distilled from Large...

知乎

来自Google DeepMind的又一神作，趁着清明假期，快速读了一遍。真可谓是：大道至简。（真正顶级的工作，就是原理简单，实现简单，但却有效高效）核心思想就是：在大模型推理过程中，不管是

MC百科

我的世界(Minecraft)模组(Mod)检索页面，我的世界MOD百科，提供Minecraft(我的世界)MOD(模组)物品资料介绍教程攻略和MOD下载。

View all 16 sources

我需要继续搜索更多关于"Learning to Skip the Middle Layers of Transformers"这篇论文的信息，以及其他相关的动态网络结构设计。

Learning to Skip the Middle Layers of Transformers paper details

arxiv.org

We propose a novel architecture that dynamically skips a variable number of layers from the middle outward.

huggingface.co

We explore a novel gated Transformer architecture that dynamically skips layers from the middle outward, based on interpretability research.

researchgate.net

PDF | Conditional computation is a popular strategy to make Transformers more efficient. Existing methods often target individual modules ...

21世纪教育网

In primary school,I didn’t talk to any teachers or family about this.I was clever at hiding it.When I had to write anything down,I guessed,forming what I hoped was the right words.I became good at learning by heart. When...

Nature

Automated segmentation of liver tumors on CT scans is essential for aiding diagnosis and assessing treatment.Computer-aided diagnosis can reduce the costs and errors associated with manual processes and ensure the provision o...

arXiv.org

Methods:Using the Stavanger Dataset containing primarily 59 DCE-MRI scans and UNet+as deep learning models,four different process were conducted to compare effect of BRS on BLS.These four approaches included the...

智源社区

Learning to Skip the Middle Layers of Transformers Tim Lawson, Laurence Aitchison 2025年06月26日条件计算是一种提升Transformer效率的常用策略。现有方法通常针对个别模块（例如混合专家层），或彼此独立地跳过某些层。然而，可解释性研究表明，Transformer 的中间层表现出更高的冗余性...

homeschoolden.com

Students will learn a lot about the 3,000-year history of Egypt…from the early dynasties through the Old,Middle and New Kingdoms of ancient Egypt.Students will also have the opportunity to<...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0MzI5MTIyL2ZhLzdiL2QwL2ZhN2JkMGM2MTlhODM2NmIwNzNkNWM3ZWQ0ZWFhNWUwLmljbw==&sign=yx:C1HunXUgWw_Hnydsxo7hNSZ08AU=&tv=400_400

View all 16 sources

我需要进一步了解DTRNet论文的详细内容，以便更好地理解其技术方法和与其他动态网络结构的异同。

DTRNet Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers

arxiv.org

We introduce DTRNet (Dynamic Token Routing Network), an improved Transformer architecture that allows tokens to dynamically skip the quadratic ...

arxiv.org

DTRNet is a Transformer architecture designed to reduce the quadratic complexity of self-attention by dynamically routing tokens through either ...

huggingface.co

First, Dynamic Token Merging (DToMe) reduces the number of visual token embeddings by merging similar tokens based on image complexity ...

arXiv.org

Evaluation across multiple common benchmarks has revealed that our method substantially outperforms MoE models based on Top-K routing.Compared with Top-2 routing,our dynamic routing achieves an average improvement of 0.7%with les...

腾讯云

动态域名解析路由（Dynamic Domain Name Resolution Routing，简称DDNR）是一种网络技术，它允许网络管理员根据网络流量、设备状态或其他条件动态地分配和调整域名解析路径。这种技术可以提高网络的灵活性和效率，减少网络拥堵和延迟，提升用户体验。优势灵活性：可以根据网络状况实时调整域名解析路径，适应不同的网络需求。效率：通过优化域名解析路径，减少网络拥堵，提高数据传输速度。可靠性：在某些路径出现故障时，可以自动切换到备用路径，确保网络服务的连...

博客园

（3）动态和/或私有端口（Dynamic and/or Private Ports）：从49152到65535。理论上，不应为服务分配这些端口。实际上，机器通常从1024起分配动态端口。但也有例外：SUN的RPC端口从32768开始。0 通常用于分析操作系统。这一方法能够工作是因为在一些系统中“0”是无效端口，当你试图使用一种通常的闭合端口连接它时将产生不同的结果。一种典型的扫描：使用IP地址为0.0.0.0，设置ACK位并在以太网层广播。1　tcpmux　TCP Port Service...

腾讯云

路由器上可提供包括FDDI、ATM和Token Ring以及以太网在内的各种局域网接口，其中以太网接口应用最为广泛，因此在这里介绍几种以太网标准的接口配置方法。以太网接口配置的主要任务包括：配置接口的ip地址、接口传输速率、通信（双工）方式、MTU值，以及禁用ARP代理等安全选项配置。标准以太网接口配置实例：标准以太网接口的接口类型为Ethernet，简写为e。router-test(config)#interface e1（配置接口类型） router-test(config-if)#...

新华三数字化解决方案

RCQF核心思想是在传统以太网的基础上引入周期转发的思想，在转发节点上用时分方式划分成多个时间片T，某个确定性流的数据包只能在为其指定的时间片内发送，因此节点内的发送时延抖动被限制在1T以内。在转发路径上的每个节点上，确定性业务流量的发送时间因为都被限制在一个特定的时间片内，所以其在该点的时延抖动就是有界的。无论增加多少个节点，前一节点的抖动并不会增加后面一个节点的抖动时延。每个节点及时吸收相应抖动，抖动不会累加、扩散。这样，对于整个端到端转发路径，时延抖动只依赖于首节点和尾节点的抖动值，...

View all 16 sources

已掌握的信息

核心论文(DTRNet)分析: 已经深入理解了DTRNet的核心机制，即在Transformer的每一层，通过一个动态令牌路由器（Dynamic Token Router）决定每个令牌（token）是进入计算量大的自注意力路径，还是进入一个轻量级的线性更新路径，从而实现数据依赖的计算量节省。
关键技术流派识别: 已识别出与DTRNet思想类似但实现方式不同的几个主要技术方向。一类是令牌级动态计算，如Mixture-of-Depths (MoD)，它为每层设定一个固定的计算容量（token数量），通过路由机制选择最重要的令牌进行计算，其余的则直接跳过。另一类是层级动态计算，如“Learning to Skip the Middle Layers of Transformers”，它根据输入动态地决定是否跳过整个中间层块。
核心概念关联: 明确了这些动态结构都属于“条件计算”（Conditional Computation）的范畴，其核心思想是根据输入样本的特性自适应地调整计算路径和计算量。这种思想与“混合专家模型”（Mixture-of-Experts, MoE）中的路由机制一脉相承。
重要相关论文发掘: 已经定位了多篇与用户任务高度相关的关键论文，包括《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》和《Learning to Skip the Middle Layers of Transformers》，为接下来的深度分析和比较奠定了基础。

下一步行动计划

系统性论文精读与信息提取: 将对已识别的核心论文（DTRNet, MoD, "Skip Middle Layers"等）进行逐一的深度解析。重点关注并提取每种方法在以下几个方面的具体实现细节：
- 决策机制：用于判断“是否跳过”或“走哪条路”的模块是如何设计的（例如，是小型神经网络还是其他机制）？其决策依据是什么？
- 训练策略：模型是如何被训练以学会进行有效决策的？是否引入了特定的辅助损失函数来鼓励稀疏性或跳过行为？
- 模型结构：当一个计算单元（层或令牌）被“跳过”时，信息是如何流动的（例如，是通过简单的残差连接，还是有专门的轻量级处理路径）？
- 性能权衡：在节省了多少计算资源（如FLOPs）的同时，对模型最终性能（如准确率、困惑度）造成了多大影响？
  这些详细信息将主要通过查阅arXiv、Google Scholar等学术平台上的论文原文来获取。
构建技术分类与对比框架: 基于精读所获得的信息，建立一个清晰的分类体系来梳理这些动态网络结构。将从“动态调整的粒度”（令牌级 vs. 层级）和“实现机制”（路由 vs. 门控）等维度对不同方法进行归类，并设计一个多维度对比表格，系统性地比较它们在核心思想、优缺点、适用场景等方面的异同。
技术演进脉络梳理: 通过分析关键论文的引言和相关工作部分，追溯该领域的技术发展脉络。重点梳理这些动态跳层结构是如何从更早期的工作（如传统的Early Exit、Mixture-of-Experts）演化而来的，以理解其技术传承与创新。
整合信息并生成结构化报告: 将所有分析结果、分类框架和对比表格进行整合，最终形成一份逻辑清晰、图文并茂的综合性研究报告。报告将以问题背景为切入点，分章节详细阐述不同技术流派的代表性工作，并附上直观的对比分析图表，最后对该研究方向的整体趋势进行总结和展望。

现在，我需要更深入地了解DTRNet的具体实现细节，以便与其他方法进行比较。

网页解析

https://github.com/Aman26Sharma/DTRNet

1. 网页内容摘要

这个网页是DTRNet（Dynamic Token Routing Network）项目的GitHub仓库主页。DTRNet是一种改进的Transformer架构，旨在减少Transformer中的二次方计算成本。传统Transformer在每一层对每个token都应用二次方复杂度的自注意力机制，计算开销大。DTRNet通过动态令牌路由机制，允许tokens跳过跨token混合的二次方成本，同时仍接收轻量级的线性更新。

核心创新点在于：DTRNet分析发现内层token嵌入在相邻层之间变化很小，表明存在计算冗余。通过保留MLP模块并将大多数token的注意力成本降低为线性，DTRNet确保每个token都得到显式更新，同时显著降低整体计算量。训练后，DTRNet在每层仅将约10%的tokens路由通过注意力机制，同时保持与完整Transformer相当的性能。

该项目基于Hugging Face Transformers库实现，支持LLaMA和SmolLM模型系列，提供了DeepSpeed Zero-3/PyTorch DDP优化、基于YAML的配置系统、Weights & Biases集成等功能。仓库包含完整的代码结构、安装指南、训练和评估方法说明。

2. 与DTRNet网络结构、路由机制和训练方法相关的信息

DTRNet（Dynamic Token Routing Network）是一种改进的Transformer架构，专门设计用于减少Transformer中的二次方计算成本。以下是关于其网络结构、路由机制和训练方法的详细信息：

网络结构：

DTRNet保留了传统Transformer的基本结构，但引入了双路径设计：注意力路径和投影路径（绕行路径）
注意力路径：tokens经过完整的跨token混合（传统的自注意力机制）
投影路径（绕行路径）：tokens跳过混合，通过值投影(W_V)和输出投影(W_O)接收token本地更新，然后通过共享的前馈网络(FFN)
两条路径共享参数，确保模型一致性
关键创新点是保留了MLP模块，确保即使跳过注意力机制，每个token仍然接收有意义的更新
与标准Transformer不同，DTRNet不是完全跳过某些层，而是在每层内部实现动态路由

路由机制：

DTRNet实现了动态token路由，决定哪些tokens需要完整的注意力计算，哪些可以走轻量级的线性路径
路由决策基于token嵌入在相邻层之间的变化程度，发现许多tokens在层间变化很小，表明存在计算冗余
训练完成后，DTRNet在每一层仅将约10%的tokens路由通过注意力机制，其余90%走线性路径
这种路由机制使计算效率随序列长度增加而提高，对长上下文输入特别有效
路由决策是动态的，基于输入内容，而不是预定义的静态路径

训练方法：

DTRNet使用Hugging Face Transformers库实现，支持LLaMA和SmolLM模型系列
训练实验主要在SmolLM-360M上进行
使用DeepSpeed Zero-3或PyTorch DDP进行分布式训练优化
通过YAML配置文件设置实验参数，包括基础模型配置、DTRNet层放置位置和训练超参数
集成了Weights & Biases进行实验跟踪
使用lm-evaluation-harness评估下游任务性能
训练过程中，模型学习如何有效地路由tokens，在保持性能的同时减少计算

DTRNet的核心优势在于将token更新与注意力混合解耦，大幅减少了计算中的二次方部分，提供了一种简单、高效且可扩展的Transformer替代方案。通过这种方式，DTRNet在维持模型性能的同时，显著降低了计算复杂度，特别适合处理长序列输入。

3. 相关网页链接

论文链接 - 上下文：DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers 论文
代码仓库 - 上下文：DTRNet项目的GitHub代码仓库
DTRNet架构图 - 上下文：展示DTRNet层结构的图片，左侧是自注意力路径，右侧是投影路径
Hugging Face Transformers库 - 上下文：DTRNet实现所基于的核心模型和训练框架
DeepSpeed - 上下文：用于高效分布式训练和内存优化(ZeRO-3)
FlashAttention - 上下文：DTRNet实现中使用的优化注意力计算方法
FlashAttention论文 - 上下文：优化注意力计算的相关研究
TRL Experiments - 上下文：提供DTRNet基于的训练流水线结构
lm-evaluation-harness - 上下文：用于下游任务的标准化评估
LICENSE - 上下文：项目的Apache License 2.0许可证文件

4. 相关图片

DTRNet架构图
- Title: DTRNet Architecture
- Content: 展示了DTRNet层的结构。左侧是自注意力路径，tokens经过完整的跨token混合；右侧是投影路径(bypass)，tokens跳过混合，通过值投影(W_V)和输出投影(W_O)接收更新，然后经过共享的前馈网络(FFN)。两条路径共享参数。
- Source: Aman26Sharma/DTRNet
- Link: https://github.com/Aman26Sharma/DTRNet/raw/main/assets/DTRNet_arch.jpg

我需要进一步了解Mixture-of-Depths (MoD)的具体实现细节，以便与DTRNet进行比较。

Mixture-of-Depths MoD transformer paper implementation details

文件

[PDF] (19)国家知识产权局

github.com

Implementation of the paper: "Mixture-of-Depths: Dynamically allocating compute in transformer-based language models". From the paper: "These models match ...

github.com

This is an unofficial implementation for the paper Mixture-of-Depths: Dynamically allocating compute in transformer-based language models.

arxiv.org

In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence.

阿里云开发者社区

为此，DeepMind的研究团队提出了一种新的Transformer升级方案—Mixture-of-Depths（MoD），旨在通过动态分配计算资源，显著降低模型的前向计算复杂度，同时保持或提升模型性能。MoD模型的核心思想是在Transformer的基础上引入动态计算分配机制。传统的Transformer模型在前向传播过程中，对输入序列中的每个token均匀地分配...

今日头条

最新发布的 Mixture-of-Depths（MoD），改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。结果显示，在等效计算量和训练时间上，MoD每次向前传播所需的计算量更小，而且后训练采样过程中步进速度提高50%。这一方法刚刚发布，就马上引发关注。MoE风头正盛，MoD已经来后浪拍前浪了？还有人开始...

腾讯网

最新发布的 Mixture-of-Depths（MoD），改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。结果显示，在等效计算量和训练时间上，MoD每次向前传播所需的计算量更小，而且后训练采样过程中步进速度提高50%。这一方法刚刚发布，就马上引发关注。MoE风头正盛，MoD已经来后浪拍前浪了？还有人开始...

澎湃

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9jZG4uc20uY24vdGVtcC8yMDIzMTIwNzE3NDkxNS11YTJ3amVzZTR1Mjlnb3RqcDd5d2p3OHFvNDZram44bi5qcGc=&sign=yx:_3QcKYmqU6jKy3Gt32men_x-1eE=&tv=400_400

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0MzMwMjI4LzNkL2RhLzYwLzNkZGE2MDFlY2VlMmI2NGU3ZjAwNzdlMjYzZTA2YTI2Lmljbw==&sign=yx:ODPA0xcJzTX_28mEs3rV87Z1pvw=&tv=400_400

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTU5MDk2OTU3LzNjL2M0LzJhLzNjYzQyYTVlZjVlYzNkMzRiOWYwYmUwZjFjNDVhYzZiLmljbw==&sign=yx:4ux0Ov3IaZW0IBYarBCuQnARQ74=&tv=400_400

View all 17 sources

现在我需要了解"Learning to Skip the Middle Layers of Transformers"这篇论文的详细内容，以便与DTRNet和MoD进行比较。

网页解析

https://arxiv.org/pdf/2506.21103

网页内容摘要

这篇论文《Learning to Skip the Middle Layers of Transformers》提出了一种新型Transformer架构，能够动态跳过中间层以提高计算效率。研究受到可解释性研究的启发，这些研究表明Transformer的中间层冗余度更高，而早期层则负责将信息聚合到token位置。作者设计了一种学习型门控机制，可以基于输入决定是否绕过中心区块，并使用门控注意力机制防止后续token关注被跳过的token位置。

该架构的核心思想是从中间向外跳过变量数量的层，对于"简单"的输入分配更少的计算资源。门控机制为每个token位置和模型前半部分的每个块计算一个标量门值，当门值为零时，该token会跳过从该层到对称层之间的所有Transformer块。作者还引入了"sandwich"或"peri-layernorm"方案来控制残差范数，并使用自适应正则化损失控制门值稀疏性。

然而，在作者研究的规模下，与具有更少层的密集基线相比，该方法在验证交叉熵和估计FLOP之间的权衡方面没有实现改进。作者已在GitHub上发布了代码。

与问题相关的信息提取

这篇论文提出了一种新型Transformer架构，其核心思想是动态跳过中间层以提高计算效率。以下是详细分析：

核心思想：

基于可解释性研究的发现，Transformer的中间层表现出更大的冗余性，而早期层负责将信息聚合到token位置。
提出从"中间向外"动态跳过变量数量的层，而不是像现有方法那样独立跳过各层或针对单个模块。
对于"简单"的输入分配更少的计算资源，通过跳过更可能冗余的中间层。
尝试形成一个多层次的表示层次结构，中心层处理的token越少，允许表示层次的自然涌现。

网络结构：

门控机制：为模型前半部分的每个块引入一个线性层，输出一个标量软掩码值，当累积的软掩码值≥1时，跳过处理该token位置的Transformer块。
门控注意力：当token的门值为零时，防止后续token在注意力模块中关注该被门控的token。
层归一化：使用"sandwich"或"peri-layernorm"方案，在注意力和FFN模块的残差输入和输出上都应用层归一化操作。
稀疏性控制：引入基于门值的均值和方差的正则化损失，使用自适应系数根据与层级目标的偏差按比例更新。

实验结果：

在没有控制门值稀疏性的情况下，平均稀疏性趋向于零，门控模型表现与密集基线相似。
随着最终目标μ*L/2从1降至0，稀疏性增加，估计的FLOP减少。
然而，在作者研究的规模下，与具有更少层的密集基线相比，所提出的架构并没有改善交叉熵。
作者在FineWeb数据集上进行了预训练评估，使用了基于Llama 3的Transformer模型，维度类似于GPT-2 small。
实验使用AdamW优化器，线性预热和余弦衰减，在4个NVIDIA A100或GH200 GPU上进行训练。

尽管理论上有潜力，但在当前研究规模下，该方法在计算效率和性能之间的权衡方面未能超越传统密集模型。

摘要

"Learning to Skip the Middle Layers of Transformers"是一个开源项目，旨在实现一种能够动态跳过Transformer模型中间层的技术。该项目基于Meta的Llama 3模型实现，但采用了Sandwich-LN（又称Peri-LN）架构而非Pre-LN。项目代码库基于"nanoGPT speedrun"，提供了完整的训练流程，包括数据下载、模型训练等功能。项目使用FineWeb数据集进行训练，支持单机和分布式训练方式。代码实现采用Python语言，并提供了详细的安装指南，包括使用uv工具创建虚拟环境和安装依赖包。该项目已在GitHub上开源，使用MIT许可证，并在arXiv上发布了相关论文（arxiv.org/abs/2506.21103）。预训练模型可在HuggingFace上获取。

与问题相关的信息提取

该项目"Learning to Skip the Middle Layers of Transformers"专注于实现一种能够动态跳过Transformer模型中间层的技术。从网页内容中，我们可以提取到以下关键信息：

项目基础架构：该项目基于Meta的Llama 3模型实现，但做了关键修改 - 使用了Sandwich-LN（也称为Peri-LN）架构替代了原始的Pre-LN架构。这是实现跳层机制的基础架构选择。
代码实现基础：项目的训练代码基于"nanoGPT speedrun"仓库（https://github.com/KellerJordan/modded-nanogpt），在此基础上实现了跳层机制。
训练流程：网页提供了完整的训练流程指南，包括：
- 数据准备：uv run data/download_fineweb_10B_gpt2.py
- 模型训练：
  - 单机训练：python -m projects.skip_middle.train_fineweb ...
  - 分布式训练：python -m torch.distributed.run --standalone --nproc_per_node 4 projects/skip_middle/train_fineweb.py ...
配置文件：项目中的跳层机制配置可能在以下文件中定义：
- help.txt：包含命令行参数说明
- projects/skip_middle/train/config.py：包含配置类定义
代码组织结构：从仓库文件结构可以看出，核心实现可能位于：
- projects/skip_middle/：主要实现目录
- lab/：可能包含实验代码
- data/：数据处理相关代码
理论基础：项目对应的论文发布在arXiv上（https://arxiv.org/abs/2506.21103），论文中可能详细描述了跳层机制的理论基础和实现细节。
预训练模型：已训练好的模型可在HuggingFace上获取（https://huggingface.co/collections/tim-lawson/learning-to-skip-the-middle-layers-of-transformers-68355e4a9f7a7fa7f01c415f）。

虽然网页内容没有直接展示具体的代码实现细节，但从项目描述可以推断，该项目实现了一种能够在推理过程中动态决定是否跳过Transformer中间层的机制，这可能涉及到对Transformer架构的修改，特别是采用Sandwich-LN架构可能是实现这一机制的关键。要了解更详细的实现方式，需要查看项目的源代码，特别是projects/skip_middle目录下的实现文件。

特性	DTRNet	MoD (Mixture-of-Depths)	Skip-Middle
动态调整粒度	令牌级(Token-level)	令牌级(Token-level)	层级(Layer-level)
决策机制	双路径路由：每个令牌动态选择注意力路径或投影路径	容量路由：每层设置固定计算容量，选择最重要的令牌	门控机制：基于输入决定是否绕过对称的中心区块
被跳过单元的处理方式	线性更新：跳过注意力但保留值投影和输出投影	残差连接：完全绕过层计算	整体旁路：完全跳过中间层块
训练目标/损失函数	复合损失：任务交叉熵损失+注意力使用惩罚	基于专家选择的路由方案，使用辅助损失解决因果性问题	自适应正则化损失控制门值稀疏性
计算效率提升	显著：每层仅约10%的令牌通过注意力机制	显著：前向传播FLOPs减少约50%	理论上可减少，但实验中未显示明显优势
性能保持	与完整Transformer相当	与基线模型相当	在研究规模下未能超越密集基线
适用场景	长序列输入，效率随序列长度增加而提高	推理场景，后训练采样过程中步进速度提高50%	简单输入的处理，多层次表示层次结构
主要优势	保留MLP更新确保每个令牌得到有意义的更新	静态计算图，硬件友好，易于部署	模型结构简单，实现相对容易
主要劣势	实现复杂度较高，需要修改Transformer核心结构	在自回归采样中存在因果性问题	在实验规模下未能改善计算效率与性能的权衡
发表时间	2025年9月	2024年4月	2025年6月

数据依赖的逐层可跳过模型结构设计综述

引言

随着Transformer模型在自然语言处理和计算机视觉等领域的广泛应用，其计算成本问题日益突出。特别是自注意力机制的二次方复杂度，使得处理长序列输入时计算资源消耗巨大。为解决这一问题，研究人员提出了各种数据依赖的动态计算结构，允许模型根据输入内容自适应地分配计算资源，跳过不必要的计算arxiv.org。本文将系统性地分析与DTRNet类似的数据依赖逐层可跳过模型结构设计，重点关注三种主要技术路径：令牌级双路径路由、令牌级容量路由和层级动态跳过。

主要技术路径对比

在分析具体模型前，先对三种主要技术路径进行对比，以便更清晰地理解它们的异同：

特性	DTRNet (Dynamic Token Routing Network)	MoD (Mixture-of-Depths)	Skip-Middle
结构设计	双路径结构： - 完整注意力路径 - 线性投影路径	容量限制的路由机制	对称的中间层跳过机制
令牌处理方式	令牌路由器将不同token 分配到不同路径	每层只有部分token (前k个最高分数)参与计算	基于输入决定是否跳过中间层块
跳过机制	选择性跳过注意力计算，但保留MLP更新	非重要token通过残差连接直接跳过	跳过中间层块，门控注意力防止后续token 关注被跳过的位置
关键特点	• 动态决定每个token的计算路径 • 保留MLP更新确保信息流动 • 双路径设计提供计算灵活性	• 基于重要性评分路由token • 容量限制机制减少计算 • 残差连接保持信息传递	• 对称结构设计 • 输入驱动的跳过决策 • 门控注意力机制避免信息丢失

这三种技术路径各有特点，但核心思想都是通过数据依赖的动态机制减少计算量。下面将详细分析各代表性模型。

令牌级双路径路由：DTRNet

DTRNet (Dynamic Token Routing Network) 是一种改进的Transformer架构，通过动态令牌路由机制显著减少二次方计算成本arxiv.org。

核心思想与结构设计

DTRNet的核心创新在于引入双路径设计：注意力路径和投影路径。路由器根据令牌特征决定每个令牌应走哪条路径arxiv.org。通过这种机制，DTRNet在每层仅将约10%的令牌路由通过计算密集的注意力机制，其余90%走轻量级的线性路径，同时保持与完整Transformer相当的性能arxiv.org。

DTRNet的关键特点是即使令牌跳过注意力计算，也会通过值投影(W_V)和输出投影(W_O)接收轻量级更新，并且所有令牌都会经过MLP模块处理。这确保了即使跳过注意力计算的令牌也能得到有意义的更新arxiv.org。

模型	输入	路由/决策机制	处理路径	输出	主要优势和适用场景
DTRNet (Dynamic Token Routing Network)	一系列tokens	路由器根据token特征决定路径	路径A（约10%的tokens）：完整的自注意力计算 → MLP 路径B（约90%的tokens）：轻量级线性投影(W_V和W_O) → MLP	更新后的tokens	• 动态分配计算资源 • 减少不重要token的计算量 • 适用于长序列处理和资源受限场景
MoD (Mixture-of-Depths)	一系列tokens	容量路由（每层有固定计算容量，如20%）	高重要性tokens：完整的Transformer层计算低重要性tokens：通过残差连接直接跳过	更新后的tokens	• 固定计算预算 • 自适应深度处理 • 适用于需要平衡效率和性能的场景
Skip-Middle	一系列tokens	门控决策：为前半部分的每个块计算门值	门值≥1：正常处理所有中间层门值<1：跳过从该层到对称层之间的所有块 • 门控注意力：防止后续token关注被跳过的位置	更新后的tokens	• 自适应跳层机制 • 保持模型结构对称性 • 适用于需要动态调整计算深度的场景

性能与适用场景

DTRNet的效率随序列长度增加而提高，为长上下文输入提供显著的FLOP减少arxiv.org。通过将令牌更新与注意力混合解耦，DTRNet大幅减少了计算中的二次方部分，为Transformer提供了一种简单、高效且可扩展的替代方案arxiv.org。

令牌级容量路由：Mixture-of-Depths (MoD)

Mixture-of-Depths (MoD) 是由Google DeepMind在2024年4月提出的一种新型Transformer架构，通过动态分配计算资源显著提高训练效率和推理速度arxiv.org 今日头条。

核心思想与结构设计

MoD的核心思想是在输入序列中的特定位置动态分配计算资源（FLOPs），通过限制给定层的自注意力和MLP计算的token数量，迫使神经网络学会主要关注真正重要的信息今日头条。与传统Transformer不同，MoD设置了静态计算预算，限制每层可以参与计算的令牌数量GitHub Pages。

MoD采用类似混合专家模型(MoE)的路由机制，但不同的是，MoD的路由选择是在标准块计算和残差连接之间进行，而非在不同专家之间GitHub Pages。这种设计使得一些令牌可以完全跳过某些层的计算，从而减少总体计算量GitHub Pages。

性能与适用场景

MoD在等效计算量和训练时间上与基线模型性能相当，但每次前向传播所需的FLOP更少，在后训练采样过程中步进速度提高约50%今日头条今日头条。这使得MoD特别适合推理场景，能够显著提高模型的推理效率今日头条。

MoD还具有一个独特特点：与传统的"提前退出"(early-exit)条件计算不同，MoD允许令牌跳过中间层，然后在后续层中与经过更多处理的令牌进行交互arxiv.org GitHub Pages。这种灵活性使得MoD能够更有效地分配计算资源。

层级动态跳过：Skip-Middle

"Learning to Skip the Middle Layers of Transformers"（简称Skip-Middle）是一种新型架构，受可解释性研究启发，能够动态跳过中间层以提高计算效率arxiv.org arxiv.org。

核心思想与结构设计

Skip-Middle的核心思想是从中间向外动态跳过变量数量的层，而不是像现有方法那样独立跳过各层或针对单个模块arxiv.org。该架构引入了学习型门控机制，基于输入决定是否绕过对称的中心区块arxiv.org。

具体来说，Skip-Middle为模型前半部分的每个块引入一个线性层，输出一个标量软掩码值。当累积的软掩码值达到阈值时，该令牌会跳过从当前层到对称层之间的所有Transformer块。同时，门控注意力机制防止后续令牌在注意力模块中关注被跳过的令牌位置arxiv.org。

性能与适用场景

Skip-Middle旨在为"简单"的输入分配更少的计算资源，通过跳过更可能冗余的中间层来提高计算效率。然而，在作者研究的规模下，与具有更少层的密集基线相比，该方法在验证交叉熵和估计FLOP之间的权衡方面未能实现明显改进arxiv.org。

尽管如此，Skip-Middle的设计思路仍具有重要价值，特别是其对中间层冗余性的洞察以及从中间向外跳过的对称设计，为未来研究提供了新的思路。

技术演进与关系

数据依赖的逐层可跳过模型结构设计并非凭空出现，而是在多种技术思路融合发展的结果。下图展示了这一领域的技术演进脉络：

从图中可以看出，这些技术主要源自三个主要思路：

条件计算：早期的条件计算思想为动态分配计算资源提供了理论基础aclanthology.org。
混合专家模型(MoE)：MoE的路由机制启发了后来的动态计算结构设计，特别是MoD和DTRNetCSDN技术社区。
提前退出网络：早期的提前退出思想影响了后来的层级动态跳过设计清华大学。

其他相关工作

除了上述三种主要技术路径外，还有一些值得关注的相关工作：

Harder Tasks Need More Experts：该工作提出了一种动态专家选择框架，根据输入难度调整激活专家的数量，与MoD和DTRNet的思路相似，但应用于MoE模型arXiv.org。
Attention Is All You Need For Mixture-of-Depths Routing：该工作提出了一种基于注意力的路由机制(A-MoD)，利用前一层的注意力图进行当前层的路由决策，无需额外的可训练参数openreview.net。
CNN Mixture-of-Depths：将MoD思想应用于CNN架构，证明了这类动态计算思路在不同模型架构中的通用性openaccess.thecvf.com。
Efficient Transformers with Dynamic Token Pooling：通过动态令牌池化减少序列长度，从而降低计算复杂度aclanthology.org。
Accelerating Transformers via Dynamic Token Routing：提出了Leap-of-Thought方法，通过动态令牌路由减少处理的令牌数量openreview.net。

总结与展望

数据依赖的逐层可跳过模型结构设计代表了提高Transformer效率的重要研究方向。本文分析了三种主要技术路径：

令牌级双路径路由(DTRNet)：通过双路径设计，为每个令牌动态选择计算路径，保留MLP更新确保信息流动。
令牌级容量路由(MoD)：设置固定计算容量，选择最重要的令牌进行完整计算，其余通过残差连接跳过。
层级动态跳过(Skip-Middle)：基于输入决定是否跳过中间对称层块，操作粒度更粗。

这些方法各有优缺点，适用于不同场景。DTRNet和MoD在实验中展现了显著的计算效率提升，而Skip-Middle则提供了新的设计思路。

未来研究可能会朝以下方向发展：

混合方法：结合不同技术路径的优势，如MoD与MoE的结合(MoDE)已显示出良好效果今日头条。
硬件协同优化：设计更适合现代硬件加速器的动态计算结构。
自适应路由策略：开发更智能的路由决策机制，进一步提高计算效率。
大规模验证：在更大规模模型上验证这些技术的有效性和可扩展性。

随着大模型规模不断增长，数据依赖的动态计算结构将在提高模型效率方面发挥越来越重要的作用。

Requirement clarification

Deep Research

摘要

与问题相关的信息提取

相关网页链接

相关图片提取

1. 网页内容摘要

2. 与DTRNet网络结构、路由机制和训练方法相关的信息

3. 相关网页链接

4. 相关图片

网页内容摘要

与问题相关的信息提取

相关网页链接

相关图片提取

摘要

与问题相关的信息提取

相关网页链接

相关图片

数据依赖的逐层可跳过模型结构设计综述

引言

主要技术路径对比

令牌级双路径路由：DTRNet

核心思想与结构设计

性能与适用场景

令牌级容量路由：Mixture-of-Depths (MoD)

核心思想与结构设计

性能与适用场景

层级动态跳过：Skip-Middle

核心思想与结构设计

性能与适用场景

技术演进与关系

其他相关工作

总结与展望

Key references