发布时间:2025-07-12      文章分类:凯发k8旗舰平台      浏览量:      文章来源:网络
相比于已有方法◆■,该方法最大的好处是对硬件非常友好、可以通过简单的tensor reshaping实现,因此也几乎没有额外开销,同时还把scan后原相邻token的平均距离降到了和已有特殊scan方式相同的水平■★◆■◆★。
06月13日,瑙鲁与台“断交”是中国对国际秩序的直接挑战? 外交部驳斥■■■◆,
一些特殊的scan方法尝试解决这一问题◆◆■,如Zigzag scan★◆,Hilbert scan◆★◆■,但它们都要求对序列做复杂的顺序变换,而这个操作对硬件极其不友好。在处理高分辨率■■■、长视频时,会带来显著的额外延迟。
Mamba2作为State Space Model(SSM)的变体,善于处理超长的token序列◆■■,同时又对硬件非常友好,可以使用attention的各种硬件加速核,如xformers,FlashAttention等。但是Mamba系列模型在语言任务上的优秀表现难以直接迁移到大型视觉任务上,生成的高分辨率视频往往一致性很差■◆■、质量不高。
实验结果表明,LinGen在视频质量上优于DiT(胜率达75◆★★■◆.6%)■★◆◆■,并且最高可减少15×(11.5×)FLOPs(延迟)。此外,自动指标和人工评估均显示★★■◆,LinGen-4B在视频质量上与最先进模型相当(分别以50.5%■■◆★、52★■◆.1%、49.1%的胜率优于Gen-3、Luma Labs和Kling)。
在整个预训练过程中◆■★★★◆,模型从低分辨率图像生成开始,学习低分辨率视频生成,再不断增加所生成视频的分辨率和长度,所处理的token数增长了上千倍★◆◆◆■。
另外■★★◆,LinGen和相同大小、在相同数据集上以相同training recipe训练的DiT baseline相比,在视频质量和文字-视频一致性上取得全面领先。相比起DiT,LinGen可以更快地适应更长的token序列。
通常认为自注意力模块的线性替代是对完整自注意力的近似,虽然在速度上有显著优势,但在模型性能上往往略逊一筹■★◆★,而LinGen打破了这个惯有的看法。
然而,所有这些特殊的scan方式仍然不足以完全解决Mamba的临近信息丢失问题,因为在模型的任意一层中,只会有一种scan方式被应用■◆■◆◆,如果不考虑跨层交流,大量临近信息在单层中依旧有损失。
般的铁箭止住,四面八方,足有上百人出现,远远地将他围住,盯着狻猊与赤红的宝角◆■★◆◆■,呼吸急促。
,永乐国际永往直前乐在其中手机版◆◆◆■,金沙噢门电子游戏游戏,ag变成了九游会。
普林斯顿大学和Meta联合推出的新框架LinGen★◆★◆◆★,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度★■■★,使单张GPU就能在分钟级长度下生成高质量视频■■★◆■,大幅提高了模型的可扩展性和生成效率。
LinGen维持Diffusion Transformer(DiT)中的其他结构不变◆◆■★,而将其计算瓶颈——平方复杂度的自注意力模块替换为线性复杂度的MATE模块,它由MA分支和TE分支组成。
群雄齐叫,对方这是在利用他们所有人的力量相助,而破开那层强大的光幕,攫取到至尊宝骨。
而在从少token数的任务迁移到多token数的任务时,LinGen的适应性远强于DiT(a图中是从256x256分辨率视频生成迁移到512x512分辨率视频生成任务时的loss curve),这可能是受益于Mamba对于长序列的高适应性,这一特征已经在语言任务上被观察到。
雷鸣声传来■★,宝殿中有一道道黑色的闪电交织,环绕着一个模糊而又威严的人影,那里成为了雷霆的海洋。
以上图的方式为例,W,H和T分别在展开时有第一、第二和第三优先级◆■◆■,通过交换展开的优先级,就可以实现不同的scan方式。
可以看到,在FLOPs方面★★■■■,当生成17秒◆◆◆■★、34秒和68秒长度的512p视频时,LinGen-4B相对于DiT-4B分别实现了5×★★◆★★◆、8×和15×的加速;
作为额外的补充,LinGen还在MA分支中引入了review tokens★■★★★。它被用以增强视频中极长程的一致性,例如在60秒视频的结尾复现视频前几秒消失的人。它把待处理video tensor的概览提前写入Mamba的hidden state memory中★■■■,为后续的视频处理提供帮助★★★■★■。
这是因为TESA仅用来处理最临近的信息★■■,这一固定的窗口大小也使得TESA实现了相对3D tensor中token数的线性复杂度。
无论是人类评测的结果,还是在VBench上的自动评测的结果,都显示LinGen与先进的商业模型Kling、Runway Gen-3生成的视频质量接近,并且远胜于OpenSora v1.2。
今天是20xx年9月10日,*15岁的生日。时光如梭■■◆◆★★,风雨同舟◆★★■;一份耕耘,一份收获!走过了风雨兼程的十五年,走过了跨越发展的十五年。今天,我们在这里欢聚一堂,隆重庆祝成立十五年◆★■■■,在此我谨代表公司管理层向全体员工和支持伙伴们表示热烈的祝贺和衷心的感谢!
回望发展历程,特别是近3年★◆,我们感慨万千。在座的们都亲自见证了区域创造的历史奇迹。这几年辖区工业发展向现代服务的发展,主要得益于我们始终按照科学发展观的要求,在市委市政府的坚强领导下◆■★,紧扣城乡统筹实际,不断加强党组织建设和教育,党组织战斗堡垒和先锋模范作用更加突出■■★■■◆。发展转变雄辩地证明,各级党组织和广大干部经受了抗震救灾和灾后重建的极端考验◆■,真正成为广大群众的主心骨和贴心人,我们这支队伍是对党负责、为民执政的优秀队伍,实现了■◆“对历史负责,向世界交代■★◆,让组织放心,让群众满意”的庄严承诺◆★。
这说明LinGen具有线性复杂度,可以在单卡上实现分钟级视频生成■■★■◆,速度远快于DiT。与相同大小的DiT相比,LinGen可实现推理速度11倍以上的提升★■★◆■。
06月13日,(乡村行·看振兴)南昌扬子洲:推动农文旅融合 点亮乡村发展新赛道★★◆,
为了进一步验证这里推理,选取这一预训练阶段的早期checkpoint进行比较■■,发现LinGen比DiT的win rate优势变得更加显著。这暗示了虽然LinGen在任务迁移的早期能大幅领先DiT◆■,但是这种优势随着预训练的进行,在不断减小。
尽管如此,在训练资源有限的情况下,LinGen在预训练的极长一段时间内仍旧能对DiT保持优势。
它很虚弱,刚复苏没多久◆★★■★◆,都没有能将那被封住的一条腿拔出来◆◆★■,而且不时露出迷茫的表情,抓耳挠腮,想努力记起什么。
从人类评测和模型自动评测两个角度将LinGen与已有的先进视频生成模型、以及DiT baseline进行比较◆◆★■。
针对于此,LinGen在TE分支中应用了TEmporal Swin Attention(TESA):它是一种特殊的3D window attention◆★★■◆◆,窗口范围在不同层中会滑动■★■,每一个窗口都很小,并且窗口大小不随视频分辨率和长度(即3D tensor的大小)的变化而变化★★◆■◆■。
06月13日,湖南高职学子自研工程机械耐磨件生产线、用科学发展观引领档案事业的发展
赣ICP备2021004608号 技术支持    筑网科技