|
- 神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎
我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目前很多Transformer架构的大语言模型使用了RoPE这种位置编码,而如何将大语言模型的上下文扩展到更长以充分利用
- RoPE外推优化——支持192K上下文长度
Baichuan2-Turbo-192k 今天,我们要介绍的就是其背后的技术, 通过 dynamic ntk 等方法提升大模型的长文本理解、外推能力。 在上一篇文章中,我们详细介绍了旋转位置编码 RoPE,以及提升外推性的方法(线性插值、NTK等)。本文主要介绍下目前主流大模型如何优化长文本理解。
- 再论大模型位置编码及其外推性(万字长文)
图4-6 不同插值方法的效果(这里的scale是指位置插值中扩大的倍数k,alpha是指NTK中的lambda参数或者是公式(15)中的alpha参数) 从图中可以看出在 时,NTK可以在比较小的PPL情况下,外推8k左右的长文本。
- 位置编码positional-encoding有哪些? - 知乎
这个进制转换的思想,实际上就对应着文章开头提到的NTK-aware scaled RoPE! (5)总结 直接外推的效果不大行; 内插如果不微调,效果也很差; NTK-RoPE不微调就取得了非平凡(但有所下降)的外推结果; 加入 logn 来集中注意力确实有帮助。 参考资料:
- 目前世界上的传统汽车传感器巨头有哪些? - 知乎
目前汽车传感器主要可以分为两大类:1、传统MEMS传感器,按检测内容可以分为压力传感器、位置传感器、温度传感器、加速度传感器、角速度传感器、流量传感器、气体浓度传感器、液位传感器等;2、为自动驾驶提供支持的智能传感器,包括摄像头、超声波雷达、毫米波雷达、激光雷达、红外热
- 深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结
基本介绍在神经网络中,neural tangent kernel (NTK) 是描述无限宽深度神经网络在梯度下降训练过程中演化的核。它最开始由Arthur Jacot, Franck Gabriel, 和Clément Hongler在2018年发表的一篇论文中引入 [1]。在…
- 基于Transformer的LLM的context length是由什么决定的? - 知乎
Dynamic NTK Scaling: 一种更复杂但效果显著的 RoPE 缩放变体。 不仅仅是线性缩放频率,而是对 RoPE 中的旋转角频率 θ 作分层或非线性放大 压缩。 源于神经正切核 (Neural Tangent Kernel, NTK) 理论,认为当网络层数趋于无穷大时,网络行为可以用一个核函数来描述。
- 深度学习理论方向的综述性论文有哪些? - 知乎
深度学习理论方向的综述性论文有哪些? 指以数理方法来研究深度学习原理,或者对相关现象进行动力学解释,子研究方向暂时只能想到NTK、Mean Field、Feature Learning相关… 显示全部 关注者 27 被浏览
|
|
|