本期速读将是兔年的最后一期,小编在这里先给所有读者拜个早年,祝大家在龙年:

阖家身心健康

模型评测屠榜

论文登录顶会

事业蒸蒸日上

  本周论文总量继续超过400篇,先来看几篇比较有价值的综述研究:

· Advances in 3D Generation: A Survey

  腾讯AI实验室、ARC实验室、香港城市大学、华南理工团队对3D图像生成的方法论进行了综合性的研究,团队建立了一个结构化的路线图,涵盖了3D表示、生成方法、数据集以及相应的应用,全面的提供了关于生成方法的文献概述,将算法范式类型分为:前馈生成、基于优化的生成、过程生成和生成式的新视图合成,并且研究了可用的数据集、应用程序和未解决的挑战。

原文链接:

https://arxiv.org/pdf/2401.17807.pdf

· A Survey on 3D Skeleton Based Person Re-Identification: Approaches, Designs, Challenges, and Future Directions

 同样是3D图像领域,南洋理工的团队对近年来提出的多种基于3D骨架的个体重新识别(SRID)方法进行了全面的系统性研究。综述首先概述了SRID所需解决的问题,并提出了SRID研究的分类体系,包括基准数据集的简介、常用模型架构,并对不同的算法特点进行了分析和评价。研究从多个视角详细介绍了SRID模型的设计原则,并探索了改进模型的关键见解,明确了SRID面临的关键挑战,探讨了未来SRID研究的前景和有价值的方向。

原文链接:

https://arxiv.org/pdf/2401.15296.pdf

· A Comprehensive Survey of Compression Algorithms for Language Models

   韩国首尔国立大学对语言模型所采用的各种压缩算法进行了综合的研究,包括模型剪枝、模型量化、知识蒸馏、低秩逼近、参数共享和高效架构设计等,深入分析了三种量化、压缩和表征算法的典型方案:SparseGPT、OPTQ和LoRA。研究总结了各种压缩算法的发展趋势和价值,尤其是那些对LLM至关重要的与任务场景相适应、同时能在降低运营成本的同时平衡压缩错误的压缩算法及其特性。


原文链接:

https://arxiv.org/pdf/2401.15347.pdf

· Large Language Models Based Fuzzing Techniques: A Survey

  悉尼大学、东京大学和阿尔伯塔大学团队对将LLM和模糊测试融合用于软件测试的新趋势进行了综合性的研究。研究首先对基于LLM的模糊测试进行了系统性的概述,总结了截止到2024年业界和学界发布的各种SOTA方法,对LLM和模糊测试结合等相关领域的文献进行了统计、分析和讨论,并探讨了未来基于LLM的模糊测试技术的广泛部署和应用的潜力。

原文链接:

https://arxiv.org/pdf/2402.00350.pdf

· A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect

 杭州科大、密歇根大学、腾讯优图、新加坡管理大学团队对视觉异常检测(VAD)领域进行了综合性的研究,提出了目前VAD领域所面临的三个主要挑战:训练数据的稀缺、视觉模态的多样、异常分层的复杂。从VAD的背景、概念定义概述开始,研究从样本数量、数据模态和异常层次的角度对VAD技术的进展进行了分类研究和讨论么,总结了VAD领域的关键发现、文献和未来发展方向。

原文链接:

https://arxiv.org/pdf/2401.16402.pdf

· Routers in Vision Mixture of Experts: An Empirical Study

  巴塞尔大学、Google DeepMind和StabilityAI 对计算机视觉任务中的混合专家架构MoE中的路由器进行了全面研究,引入了统一的MoE公式,包含两个路由参数张量,涵盖不同的MoE架构,包括在专家间使用二进制或硬策略对标记进行分配的稀疏MoE,以及使用加权组合软分配的软MoE;稀疏MoE还可以分为标记选择和专家选择两种策略。团队对6种不同路由器进行了实验对比,发现:许多为LLM构建的路由器也能很好的适用于视觉任务、在稀疏MoE中专家选择策略通常优于标记选择、在固定算力预算下软MoE通常优于稀疏MoE。

原文链接:

https://arxiv.org/pdf/2401.15969.pdf

·From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities

 上海AI实验室对最新的闭源和开源的多模态大语言模型(MLLM)在四种模态(文本、代码、图像和视频)场景的通用性、可信度和因果推理能力做了综合的定性研究,尝试提升MLLM的透明度,评估的模型包括:闭源的GPT-4和Gemini以及6个开源的LLM或MLLM,评估采用了322个专门设计的任务并将结果定性为4个模态x3个属性的12个得分。通过实验研究发现了14个洞察,有助于理解闭源和开源MLLM的能力和局限,也有助于实现更可靠的多模态应用。

原文链接:

https://arxiv.org/pdf/2401.15071.pdf

新的基础模型和垂直领域模型

· MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

北大、中山大学、FarReel AI实验室、腾讯数平和鹏城实验室提出了全新的大型视觉语言模型(LVLM)训练策略MoE-Tuning,通过构建一个具有大量参数但计算成本恒定的稀疏专家模型,有效解决多模态模型的性能下降问题,并基于此提出了基于稀疏专家LVLM架构的MoE-LlaVA。

原文链接:

https://arxiv.org/pdf/2401.15947.pdf

· CroissantLLM: A Truly Bilingual French-English Language Model

法英葡美多国的机构和科研团队通力协作,使用了3T的1:1英法双语标记数据预训练,引入了自定义分词器,并经双语微调,发布了1.3B规模、全开源的英法双语语言模型CroissantLLM,性能卓越,而且能在消费级本地设备上快速运行。

原文链接:

https://arxiv.org/pdf/2402.00786.pdf

 

· OLMo: Accelerating the Science of Language Models

Allen AI、华盛顿大学、耶鲁、纽约大学和CMU发布了全新的开源语言模型OLMo的技术报告,并开源了整个模型框架、训练数据、训练过程和评估代码,本次发布包括1B和7B两个参数规模,都基于超过2T数据进行预训练,65B参数规模的版本也将在后续发布。

原文链接:

https://arxiv.org/pdf/2402.00838.pdf

· Weaver: Foundation Models for Creative Writing

波形智能发布了专门针对内容创作训练和微调的大语言模型Weaver(编织者),包含Mini(1.8B)、Base(6B)、Pro(14B)和Ultra(34B)四种模型,并且支持通过动态的路由代理进行调度,在不同的任务场景中平衡响应质量和计算成本。模型还原生的支持RAG和函数调用,因此可以支持外部知识库、工具API的集成。

原文链接:

https://arxiv.org/pdf/2401.17268.pdf

· H2O-Danube-1.8B Technical Report

H2O.ai团队发布了基于1T词元语料进行训练的1.8B语言模型H2O-Danube-1.8B(多瑙河水),并随附了一个经过监督微调和直接偏好优化(DPO)训练的聊天模型。模型遵循LLama 2和Mistral的核心原则、按照Apache 2.0许可开源。

原文链接:

https://arxiv.org/pdf/2401.16818.pdf

· MouSi: Poly-Visual-Expert Vision-Language Models

复旦NLP、视觉与学习实验室联合发布了采用集成专家技术的视觉语言模型MouSi眸思,能够整合多个视觉编码器在图像文本匹配、OCR、图像分割等不同领域的能力,同时采用不同的位置编码方案,有效解决了位置溢出和长度限制的问题。

原文链接:

https://arxiv.org/pdf/2401.17221.pdf

· InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

上海AI实验室、香港中文大学、商汤集团发布了全新的视觉语言模型InternLM-XComposer2,能够熟练地基于轮廓、规格描述和参考图像等多模态输入定制化的构建输出内容,并引入了部分LoRA方法,平衡了视觉理解和文本创作能力。

原文链接:

https://arxiv.org/pdf/2401.16420.pdf

· OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

CMU和本田研究院发布了基于E-Branchformer的OWSM v3.1模型,包括两个规模100M和1B。模型放弃了v3前的变换器架构,提升了25%的推理速度,并在基准测试中的表现优于v3。团队也开源了数据准备脚本、预训练模型和训练日志。

 

原文链接:

https://arxiv.org/pdf/2401.16658.pdf

模型训练、压缩、微调新策略

· SliceGPT: Compress Large Language Models by Deleting Rows and Columns

苏黎世理工和微软研究院发布了全新的训练后稀疏化方案SliceGPT(切片GPT),采用一个更小的稠密矩阵替换每一个权重矩阵,实现了神经网络嵌入的降维,实验中,在保持任务性能的前提下,可以删除LLAMA-2 70B等LLM高达25%的参数。

原文链接:

https://arxiv.org/pdf/2401.15024.pdf

· Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

南洋理工和苹果公司剔除了OGEN算法来解决分布外(OOD)数据泛化时的过拟合问题。算法采用基于分类条件的特征合成器,用未知类别的类别名合成OOD数据特征,规范ID和OOD的决策边界,并通过自适应的蒸馏机制规范特征生成。

原文链接:

https://arxiv.org/pdf/2401.15914.pdf

· LongAlign: A Recipe for Long Context Alignment of Large Language Models

清华和智谱AI剔除了用于用于长上下文对齐的指导数据、训练和评估方法LongAlign,采用Self-Instruct构建了长指令遵循的数据集,涵盖了多样的长上下文任务,并且用打包和排序批处理策略加速监督微调。此外,团队还开发了损失打包加权方法、引入了LongBench-Chat评测基准。

原文链接:

https://arxiv.org/pdf/2401.18058.pdf

· EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

阿里集团推出了基于早期退出机制的轻量级的高效训练微调解决方案EE-Tuning。与常见的全参预训练不同,EE-Tuning在参数高效的方式下增加额外早期退出层,增强标准LLM预训练和微调过程,并且消耗较少的计算资源和训练数据。

原文链接:

https://arxiv.org/pdf/2402.00518.pdf

· DrBERT: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining

Google研究院和斯坦福的团队提出了多种增强解码器的设计方案,并且引入了Dr-BERT(Decoder-refined BERT)训练建模方法。DrBERT将原始的BERT作为编码器,并仅需对解码器进行修改,可以无缝集成到现有微调流程作为增强策略。

 

原文链接:

https://arxiv.org/pdf/2401.15861.pdf

· Divide and Conquer: Rethinking the Training Paradigm of Neural Radiance Fields

NVIDIA、亚马逊、澳州Data61和昆士兰科技大学团队针对神经辐射场(NeRF)的渲染质量的提升设计了全新的训练范式,将输入视图根据视觉相似性分为多组,并在每个组上单独训练一个模型高效的处理特定区域,然后通过师生蒸馏范式将专用模型的知识聚合,实现了高效的在线渲染。

原文链接:

https://arxiv.org/pdf/2401.16144.pdf

· Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

华盛顿大学和Allen AI 分析了n-gram语言模型在LLM时代的关联性,采用和LLM同等规模的1.4T个词元的数据集进行n-gram训练,并将n扩展至无穷大∞,团队构建了支持回退的∞-gram LM和infini-gram概率计算引擎,并发现∞-gram LM在预测下一个词元时有很高的准确度,可以作为补充降低LLM的困惑度。

原文链接:

https://arxiv.org/pdf/2401.17377.pdf

新架构、新组件和新算法

· Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

港中大、NVIDIA、商汤研究院、清华等机构联合发布了Motion-I2V图像到视频生成框架,将I2V分解为两个动作建模阶段:首先基于扩散进行运动场预测,推导参考轨迹,然后用运动增强时间注意力,根据参考轨迹将图像特征传播到合成帧。

原文链接:

https://arxiv.org/pdf/2401.15977.pdf

· YOLO-World: Real-Time Open-Vocabulary Object Detection

腾讯AI实验室和ARC实验室发布了YOLO-World新方法,基于大规模数据集对视觉语言模型进行预训练,并通过可重参数化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,引导视觉和语言信息进行交互,提高了开放词汇下的物体视觉检测能力。

原文链接:

https://arxiv.org/pdf/2401.17270.pdf

· CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting

哈佛大学、哥大、伯克利、Avataar AI和丰田研究院发布了基于历史观测数据预测未来3D场景的新框架CARFF,采用概率编码器将图像映射到潜在的3D场景配置分布,并自回归的预测场景随时间的演化,可以用于涉及遮挡的复杂情景。

原文链接:

https://arxiv.org/pdf/2401.18075.pdf

· Machine Unlearning for Image-to-Image Generative Models

德州奥斯汀、JP摩根团队提供了解决图像生成模型中机器遗忘问题的统一框架,包含一个计算高效、并由严格的理论分析支持的新算法,几乎不会降低留存样本的性能,同时有效地从遗忘的样本中删除信息。

原文链接:

https://arxiv.org/pdf/2402.00351.pdf

· Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment

之江实验室、安徽大学、中科院自动化所、大连理工团队提出结合知识图谱(KG)结构化知识和LLM语义能力的LLM增强的实体对齐框架(LLMEA),通过评估跨KG实体间的嵌入相似性和虚拟等价实体的距离来识别来对齐给定实体。

原文链接:

https://arxiv.org/pdf/2401.16960.pdf

· Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State Spaces

多伦多大学、向量研究所联合发布了Graph-Mamba,首次尝试将Mamba块与输入有关的节点选择机制相结合,定制了以图为中心的节点优先级和排列策略,用于用于增强图网络中的上下文长程感知和推理能力,从而显著提高了预测性能。

原文链接:

https://arxiv.org/pdf/2402.00789.pdf

· EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

北大、微软研究院、滑铁卢大学和向量研究所发布了简单的LLM无损加速框架EAGLE,在更规则的(第二层)特征级别上进行自回归的草拟过程,并通过整合前一步的标记来解决采样不确定的问题,不需要对目标LLM进行微调,就可保持与普通自回归解码相同的分布,实现了最快的猜测采样速度。

原文链接:

https://arxiv.org/pdf/2401.15077.pdf

· T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

UW麦迪逊和AMD公司基于软硬件共同设计理念,提出了用于最小化资源争用、实现透明复用串行通信的T3框架,通过微调软件的输出地址配置将生产者的操作与随后的通信融合,并在硬件层面引入轻量级的跟踪和触发机制,协调生产者的计算和通信。对于变换器模型,提高了通信密集子层的速度,减少了数据的移动。

原文链接:

https://arxiv.org/pdf/2401.16677.pdf

· AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

香港城市大学、Avolution AI、上海AI实验室和商汤研究院发布了基于潜空间一致性模型(LCM)、能在最少的步骤内生成高保真视频的框架AnimateLCM。并且解耦了一致性学习的策略,将图像和运动生成先验解耦,提高了训练效率生成质量。

原文链接:

https://arxiv.org/pdf/2402.00769.pdf

 新基准、评估方法和新数据集

· Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Allen AI 、伯克利、CMU、Spiffy AI、MIT和华盛顿大学发布了Dolma英文语料集,由多元的网络内容、科学论文、代码、公开书籍、社交媒体和百科资料混合而成,包含三万亿个标记,同时团队也开源了数据筛选工具包、共享了设计策略和原则。Dolma也作为OLMo开源基础模型用于训练语料数据集。

原文链接:

https://arxiv.org/pdf/2402.00159.pdf

· Large Language Model Evaluation via Matrix Entropy

上海交大、清华、微软亚洲研究院基于信息论和几何原理引入了矩阵熵,用于量化LLM的数据压缩能力,反映模型提取信息和消除不必要元素的能力,适用于单模态(语言)和多模态。研究表明,对于LM,矩阵熵在模型扩展按照缩放规律减小,而对于多模态模型,团队提出基于矩阵熵的对齐质量评估方法。

原文链接:

https://arxiv.org/pdf/2401.17139.pdf

· Evaluating Large Language Models for Generalization and Robustness via Data Compression

同样是基于数据压缩,英国萨里大学、哈尔滨工程大学、曼大团队基于无损数据压缩,提出了评估LLM泛化能力和健壮性的新方法。团队全面收集了83个月的测试数据,并按照待评估LLM的训练截止将测试数据切分,并评估测试期间的压缩性能作为未见数据泛化的度量、训练和测试期间的性能差距作为对比健壮性的度量。

原文链接:

https://arxiv.org/pdf/2402.00861.pdf

以上为正文,来自Valuez原创团队。

如需转载欢迎后台私信我们,感谢您的关注。

谢谢阅读 

THANKS FOR READING

ABOUT VALUEZ

关于我们

合伙人涵盖了连续创业者、增长黑客、企业战略和团队教练、人才和组织发展、财务风控和合规等多个领域专家。我们持续关注人工智能、集成电路、智能制造、新能源等科技领域的技术演进和产业链发展,坚持以第一性原理剖析评估新趋势、新技术和新方案。我们为投资机构、创业团队、技术管理者,提供以下服务:

• 技术尽调评估和选型建议

• 董事会战略教练

• 高效团队教练

• 组织发展建议

• 财税合规建议

Zoom up The Value of Intelligence

点击扫码分享至微信