【AI视野·今日CV 计算机视觉论文速览第261期】Thu, 5 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 5 Oct 2023
Totally 75 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models
Authors Jianglong Ye, Peng Wang, Kejie Li, Yichun Shi, Heng Wang
来自单个图像的零样本新颖视图合成 NVS 是 3D 对象理解中的一个基本问题。虽然最近利用预先训练的生成模型的方法可以从野外输入中合成高质量的新颖视图，但它们仍然难以保持不同视图之间的 3D 一致性。在本文中，我们提出了 Confluence 1 到 3，这是一个可以显着缓解此问题的生成框架。具体来说，我们将 NVS 任务分解为两个阶段：i 将观察到的区域转换为新的视图；ii 产生幻觉未见的区域。我们设计了场景表示变换器和视图条件扩散模型来分别执行这两个阶段。在模型内部，为了增强 3D 一致性，我们建议采用 Epipolor 引导注意力来合并几何约束，并采用多视图注意力来更好地聚合多视图信息。最后，我们设计了一个层次结构生成范例来生成一致视图的长序列，从而允许对所提供的对象图像进行完整的 360 度观察。对多个数据集的定性和定量评估证明了所提出的机制相对于最先进方法的有效性。

Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day
Authors Yifan Jiang, Hao Tang, Jen Hao Rick Chang, Liangchen Song, Zhangyang Wang, Liangliang Cao
新颖视图合成的任务旨在从一组有限的输入图像中生成对象或场景的看不见的视角。尽管如此，从单个图像合成新颖的视图仍然是计算机视觉领域的重大挑战。以前的方法通过采用网格预测、多平面图像构建或更先进的技术（例如神经辐射场）来解决这个问题。最近，专门为 2D 图像合成设计的预训练扩散模型已经证明，如果在 3D 微调任务上进行充分优化，它能够生成逼真的新颖视图。尽管保真度和泛化性得到了极大的提高，但训练如此强大的扩散模型需要大量的训练数据和模型参数，导致时间长、计算成本高。为了解决这个问题，我们提出了 Efficient 3DiM，一个简单但有效的框架来学习单个图像新颖的视图合成器。在对扩散模型推理过程的深入分析的推动下，我们提出了几种实用策略，将训练开销减少到可管理的规模，包括精心设计的时间步采样策略、卓越的 3D 特征提取器和增强的训练方案。结合起来，我们的框架能够将总训练时间从 10 天减少到不到 1 天，在具有 8 个 Nvidia A100 GPU 的同一计算平台上显着加速训练过程。

Towards Domain-Specific Features Disentanglement for Domain Generalization
Authors Hao Chen, Qi Zhang, Zenan Huang, Haobo Wang, Junbo Zhao
领域之间的分布转移对现代机器学习算法提出了巨大的挑战。领域泛化 DG 代表了针对此问题的流行路线，其中这些方法旨在揭示不同分布中的通用模式。值得注意的是，DG 背后的关键挑战是不相关领域特征的存在，而大多数先前的工作都忽略了这一信息。受此启发，我们提出了一种新颖的基于对比的解缠方法CDDG，以有效地利用解缠特征来利用被忽略的域特定特征，从而促进DG任务提取所需的跨域类别特征。具体来说，CDDG 通过在潜在空间中利用固有的互斥特征来学习解耦这些特征，从而使学习具有区分性。在各种基准数据集上进行的广泛实验证明了我们的方法相对于其他最先进的方法的优越性。

COOLer: Class-Incremental Learning for Appearance-Based Multiple Object Tracking
Authors Zhizheng Liu, Mattia Segu, Fisher Yu
持续学习允许模型顺序学习多个任务，同时保留旧知识，而无需先前任务的训练数据。本文将持续学习的研究范围扩展到交流电机的增量学习，这对于适应自主系统不断发展的需求是可取的。先前用于持续学习目标检测器的解决方案没有解决基于外观的跟踪器的数据关联阶段，导致灾难性地忘记先前类别的重新识别特征。我们引入了 COOLer，一种基于对比和持续学习的跟踪器，它通过对当前可用的地面实况标签和过去跟踪器生成的伪标签的组合进行训练，逐步学习跟踪新类别，同时保留过去的知识。为了进一步加剧实例表示的解开，我们引入了一种新颖的对比类增量实例表示学习技术。最后，我们提出了一种用于 MOT 持续学习的实用评估协议，并在 bdd 和 shift 数据集上进行了实验。实验结果表明，COOLer 不断学习，同时有效解决跟踪和检测的灾难性遗忘问题。

Reversing Deep Face Embeddings with Probable Privacy Protection
Authors Daile Osorio Roig, Paul A. Gerlitz, Christian Rathgeb, Christoph Busch
一般来说，隐私增强人脸识别系统旨在为人脸嵌入提供永久保护。最近，已经引入了所谓的软生物特征隐私增强方法，其目的是取消软生物特征属性。这些方法限制了可以从面部嵌入推断出的软生物识别信息的数量、性别或肤色。先前的工作强调在评估隐私保护能力时需要研究严格的评估和标准化的评估协议。受此事实的启发，本文探讨了声称提供软生物特征隐私保护的方法可以在多大程度上满足不可逆性要求。此外，还根据用于隐私保护的转换复杂性对最先进的人脸嵌入提取器进行了详细的漏洞评估。在这种情况下，已经在受保护的面部嵌入上评估了一种众所周知的最先进的面部图像重建方法，以打破软生物特征隐私保护。

ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models
Authors Yi Lin Sung, Jaehong Yoon, Mohit Bansal
大视觉语言模型 LVLM 可以通过整合来自不同模态的丰富信息来全面理解世界，在各种多模态下游任务上实现显着的性能提升。然而，由于计算能源成本和碳消耗巨大，部署 LVLM 通常会出现问题。这些问题使得采用传统的迭代全局剪枝变得不可行，由于计算整个大型模型的Hessian矩阵进行稀疏化，成本高昂。另外，一些研究最近提出了逐层剪枝方法，以避免全局剪枝的昂贵计算，并根据模型权重在层内的重要性有效地压缩模型权重。然而，由于缺乏全局视角，这些方法经常遭受次优模型压缩的困扰。为了解决大型模型的最新高效剪枝方法中的这一限制，我们提出了高效粗略到精细逐层剪枝 ECoFLaP，这是一种用于 LVLM 的两阶段粗到精细权重剪枝方法。我们首先利用全局重要性得分来确定不同层或块的稀疏率，该得分是根据全局模型梯度的零阶近似有效计算的。然后，多模态模型根据全局稀疏率执行局部分层非结构化权重修剪。

Optimizing Key-Selection for Face-based One-Time Biometrics via Morphing
Authors Daile Osorio Roig, Mahdi Ghafourian, Christian Rathgeb, Ruben Vera Rodriguez, Christoph Busch, Julian Fierrez
如今，面部识别系统仍然容易受到对抗性攻击。这些攻击的范围从对输入图像的简单扰动到修改识别模型的参数以冒充授权主体。所谓的隐私增强面部识别系统主要是为了提供对存储的生物特征参考数据（即模板）的保护而开发的。在文献中，增强隐私的面部识别方法仅关注模板级别的传统安全威胁，而忽略了与对抗性攻击相关的日益增长的担忧。到目前为止，很少有工作提供保护人脸识别免受对抗性攻击，同时在模板级别保持高安全性的机制。在本文中，我们提出了不同的密钥选择策略，以提高在信号级别运行的竞争性可取消方案的安全性。

Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Authors Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei
最近在文本到图像 T2I 和视觉语言到图像 VL2I 生成方面取得了重大进展。然而，广义视觉语言输入的生成，尤其是涉及多个图像的生成，仍有待探索。本文提出了 Kosmos G，这是一种利用多模态大型语言模型 MLLM 的高级感知功能来应对上述挑战的模型。我们的方法使用文本模态作为锚点将 MLLM 的输出空间与 CLIP 对齐，并对策划的数据执行组合指令调整。 Kosmos G 展示了零镜头多实体主题驱动生成的独特功能。值得注意的是，分数蒸馏指令调整不需要对图像解码器进行修改。这允许无缝替换 CLIP，并轻松地与无数 U Net 技术（从细粒度控制到个性化图像解码器变体）集成。

Probing Intersectional Biases in Vision-Language Models with Counterfactual Examples
Authors Phillip Howard, Avinash Madasu, Tiep Le, Gustavo Lujan Moreno, Vasudev Lal
虽然视觉语言模型 VLM 最近取得了显着的性能改进，但越来越多的证据表明，这些模型在性别和种族等社会属性方面也存在有害的偏见。先前的研究主要集中于单独探讨此类偏见属性，而忽略了与社会属性之间的交叉相关的偏见。这可能是由于从现有数据集中收集针对社交属性的各种组合的详尽图像文本对集很困难。为了应对这一挑战，我们采用文本到图像扩散模型来生成反事实示例，以大规模探究跨部门社会偏见。我们的方法利用稳定扩散和交叉注意控制来生成反事实图像文本对集，这些文本对在对主题（例如给定职业）的描述上高度相似，而仅在对交叉社会属性（例如种族性别）的描述上有所不同。

T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation
Authors Yuze He, Yushi Bai, Matthieu Lin, Wang Zhao, Yubin Hu, Jenny Sheng, Ran Yi, Juanzi Li, Yong Jin Liu
最近的文本转 3D 方法利用强大的预训练扩散模型来优化 NeRF。值得注意的是，这些方法无需 3D 数据训练即可生成高质量的 3D 场景。由于该任务的开放性性质，大多数研究通过主观案例研究和用户实验来评估其结果，从而在定量解决文本到 3D 目前进展如何的问题上提出了挑战。在本文中，我们介绍了 T 3 Bench，第一个全面的文本到 3D 基准测试，包含专为 3D 生成而设计的三个复杂程度不断增加的不同文本提示。为了评估主观质量和文本对齐，我们提出了两个基于 3D 内容生成的多视图图像的自动指标。质量指标结合了多视图文本图像分数和区域卷积来检测质量和视图不一致。对齐指标使用多视图字幕和大语言模型 LLM 评估来衡量文本 3D 一致性。这两个指标都与人类判断的不同维度密切相关，为有效评估文本到 3D 模型提供了范例。如图 1 所示的基准测试结果揭示了六种流行的文本转 3D 方法之间的性能差异。我们的分析进一步强调了当前方法在生成环境和多对象场景方面的共同难题，以及利用 2D 指导进行 3D 生成的瓶颈。

CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection
Authors Yang Cao, Yihan Zeng, Hang Xu, Dan Xu
开放词汇表 3D 对象检测 OV 3DDet 旨在从 3D 场景中的任意类别列表中检测对象，这在文献中很少探讨。 OV 3DDet 中主要有两个基本问题，即新对象的定位和分类。本文旨在在基类有限的情况下，通过统一的框架同时解决这两个问题。为了定位新颖的 3D 对象，我们提出了一种有效的 3D 新颖对象发现策略，该策略利用 3D 框几何先验和 2D 语义开放词汇先验来生成新颖对象的伪框标签。为了对新颖的对象框进行分类，我们进一步开发了一个基于发现的新颖框的跨模态对齐模块，以对齐 3D 点云和图像文本模态之间的特征空间。具体来说，对齐过程包含类不可知对齐和类判别性对齐，不仅将带有注释的基本对象合并起来，而且还合并了越来越多地发现的新对象，从而导致迭代增强的对齐。共同学习新颖的盒子发现和跨模式对齐，以相互协作受益。新物体发现可以直接影响跨模态对齐，而更好的特征对齐反过来可以提高定位能力，从而形成一个统一的 OV 3DDet 框架，名为 CoDA，用于同时新物体定位和分类。对两个具有挑战性的数据集（即 SUN RGBD 和 ScanNet）进行的大量实验证明了我们方法的有效性，并且还表明 mAP 比性能最佳的替代方法显着提高了 80 。

Graph data modelling for outcome prediction in oropharyngeal cancer patients
Authors Nithya Bhasker, Stefan Leger, Alexander Zwanenburg, Chethan Babu Reddy, Sebastian Bodenstedt, Steffen L ck, Stefanie Speidel
图神经网络 GNN 在医学领域的疾病分类和结果预测任务中变得越来越流行。由于患者数据不容易以图表形式获得，因此大多数现有方法要么手动定义患者图表，要么根据患者之间的成对相似性学习潜在图表。最近还引入了基于超图神经网络 HGNN 的方法，通过将患者表示为超图来利用患者之间潜在的高阶关联。在这项工作中，我们提出了一种患者超图网络 PHGN ，该网络首次使用基于计算机断层扫描 CT 的放射组学特征在归纳学习设置中进行了研究，用于口咽癌 OPC 患者的二元结果预测。

Boosting Dermatoscopic Lesion Segmentation via Diffusion Models with Visual and Textual Prompts
Authors Shiyi Du, Xiaosong Wang, Yongyi Lu, Yuyin Zhou, Shaoting Zhang, Alan Yuille, Kang Li, Zongwei Zhou
图像合成方法，例如生成对抗网络，作为医学图像分析任务中数据增强的一种形式已经很流行。它主要有利于克服可公开访问的数据和相关质量注释的短缺。然而，当前的技术通常缺乏对生成图像中的详细内容的控制，例如疾病模式的类型、病变的位置和诊断的属性。在这项工作中，我们采用了生成模型（即扩散模型）的最新进展，并使用特定于病变的视觉和文本提示来添加控制流来生成皮肤镜图像。我们进一步证明了基于扩散模型的框架相对于经典生成模型在图像质量和提高皮肤病变分割性能方面的优势。

Human-centric Behavior Description in Videos: New Benchmark and Model
Authors Lingru Zhou, Yiqi Gao, Manqing Zhang, Peng Wu, Peng Wang, Yanning Zhang
在视频监控领域，描述视频中每个人的行为变得越来越重要，特别是在多人存在的复杂场景中。这是因为，描述每个人的行为可以提供更详细的态势分析，从而能够准确评估和应对潜在风险，确保公共场所的安全与和谐。目前，视频级字幕数据集无法为每个人的具体行为提供细粒度的描述。然而，单纯的视频层面的描述并不能提供对个体行为的深入解读，使得准确确定每个个体的具体身份具有挑战性。为了应对这一挑战，我们构建了一个以人为中心的视频监控字幕数据集，该数据集提供了 7,820 个人动态行为的详细描述。具体来说，我们标记了每个人的几个方面，例如位置、服装以及与场景中其他元素的交互，这些人分布在 1,012 个视频中。基于这个数据集，我们可以将个人与其各自的行为联系起来，从而可以进一步分析监控视频中每个人的行为。除了数据集之外，我们还提出了一种新颖的视频字幕方法，可以在个人层面上详细描述个人行为，从而实现最先进的结果。

A Grammatical Compositional Model for Video Action Detection
Authors Zhijun Zhang, Xu Zou, Jiahuan Zhou, Sheng Zhong, Ying Wu
分析视频中的人类行为需要了解复杂的人类动态，以及演员与环境之间的交互。然而，这些交互关系通常表现出来自不同人类姿势或物体操作的巨大类内差异，以及相似动作之间的细粒度类间差异。因此，现有方法的性能受到严重限制。受到交互动作可以分解为参与者动态和参与对象或人类的观察的启发，我们建议研究它们的复合属性。在本文中，我们提出了一种新的语法组合模型 GCM，用于基于典型的与或图的动作检测。我们的模型以分层方式利用动作的内在结构和潜在关系，以利用语法模型的组合性和表达 DNN 丰富特征的能力。所提出的模型可以很容易地体现为神经网络模块，以便以端到端的方式进行有效的优化。

Magicremover: Tuning-free Text-guided Image inpainting with Diffusion Models
Authors Siyuan Yang, Lu Zhang, Liqian Ma, Yu Liu, JingJing Fu, You He
图像修复的目的是用视觉上连贯且语义上合理的内容来填充缺失的像素。尽管深度生成模型带来了巨大进步，但这项任务仍然受到 i 的困扰。大规模现实数据收集的困难和昂贵的模型训练和ii。传统上用户定义的二进制掩模对于边界不清晰或透明纹理的对象的内在限制。在本文中，我们提出了 MagicRemover，这是一种免调整方法，利用强大的扩散模型进行文本引导图像修复。我们引入了一种注意力引导策略来限制扩散模型的采样过程，从而能够擦除指示区域并恢复被遮挡的内容。我们进一步提出了一种分类器优化算法，以促进较少采样步骤内的去噪稳定性。我们对 MagicRemover 和最先进的方法进行了广泛的比较，包括定量评估和用户研究，证明了 MagicRemover 在高质量图像修复方面的显着改进。

Delving into CLIP latent space for Video Anomaly Recognition
Authors Luca Zanella, Benedetta Liberatori, Willi Menapace, Fabio Poiesi, Yiming Wang, Elisa Ricci
我们仅利用视频级监督来解决在帧级检测和识别监控视频中的异常的复杂问题。我们介绍了新颖的方法 AnomalyCLIP，它是第一个将大型语言和视觉 LLV 模型（例如 CLIP）与多实例学习相结合的方法，用于联合视频异常检测和分类。我们的方法具体涉及操纵潜在 CLIP 特征空间来识别正常事件子空间，这反过来又使我们能够有效地学习异常事件的文本驱动方向。当异常帧投影到这些方向时，如果它们属于特定类别，则它们会表现出较大的特征量级。我们还引入了一种计算高效的 Transformer 架构来对帧之间的短期和长期时间依赖性进行建模，最终产生最终的异常分数和类别预测概率。

Improving Vision Anomaly Detection with the Guidance of Language Modality
Authors Dong Chen, Kaihang Pan, Guoming Wang, Yueting Zhuang, Siliang Tang
近年来，人们对用于解决工业缺陷检测、事件检测等问题的异常检测的兴趣激增。然而，现有的无监督异常检测器，特别是用于视觉模态的异常检测器，由于冗余信息和稀疏潜在空间而面临重大挑战。相反，语言模态由于其相对单一的数据而表现良好。本文从多模态的角度解决了视觉模态的上述挑战。具体来说，我们提出了跨模态指导 CMG ，它由跨模态熵减少 CMER 和跨模态线性嵌入 CMLE 组成，分别解决冗余信息问题和稀疏空间问题。 CMER 屏蔽部分原始图像并计算与文本的匹配分数。然后，CMER 丢弃不相关的像素，使检测器聚焦于关键内容。为了让视觉异常检测器学习更紧凑的潜在空间，CMLE 从语言模态学习相关结构矩阵，然后在矩阵的指导下学习视觉模态的潜在空间。此后，视觉潜在空间将使语义相似的图像更接近。大量的实验证明了所提出方法的有效性。特别是，CMG 的性能比仅使用图像的基线高出 16.81。

CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity
Authors Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang
路边摄像头驱动的 3D 物体检测是智能交通系统中的一项关键任务，它可以扩展感知范围，超越以视觉为中心的车辆的限制，并增强道路安全。虽然以前的研究在仅使用深度或高度信息方面存在局限性，但我们发现深度和高度都很重要，而且它们实际上是互补的。深度特征包含精确的几何线索，而高度特征主要侧重于区分各种类别的高度间隔，本质上提供语义上下文。这一见解推动了 Complementary BEV CoBEV 的开发，这是一种新颖的端到端单目 3D 物体检测框架，它集成了深度和高度来构建强大的 BEV 表示。本质上，CoBEV 估计每个像素的深度和高度分布，并使用新提出的两级互补特征选择 CFS 模块将相机特征提升到 3D 空间中进行横向融合。还无缝集成了 BEV 特征蒸馏框架，以进一步提高融合模态 CoBEV 教师的先验知识的检测精度。我们对基于 DAIR V2X I 和 Rope3D 的路边摄像头的公共 3D 检测基准以及私有 Supremind Road 数据集进行了广泛的实验，证明 CoBEV 不仅达到了最新技术水平的准确性，而且还显着提高了以前的方法在具有挑战性的长距离场景和嘈杂的相机干扰中具有鲁棒性，并且在场景和相机参数发生剧烈变化的异源设置中大幅增强泛化能力。相机型号的车载 AP 分数在 DAIR V2X I 的简易模式上首次达到 80 分。

Dynamic Shuffle: An Efficient Channel Mixture Method
Authors Kaijun Gong, Zhuowen Yin, Yushu Li, Kailing Guo, Xiangmin Xu
卷积神经网络的冗余不仅取决于权重，还取决于输入。混洗是混合通道信息的有效操作，但混洗顺序通常是预先定义的。为了减少数据相关的冗余，我们设计了一个动态洗牌模块来生成用于洗牌的数据相关的置换矩阵。由于置换矩阵的维数与输入通道数的平方成正比，为了使生成过程高效，我们将通道分组并为每个组生成两个共享的小置换矩阵，并利用克罗内克积和跨组洗牌得到最终的置换矩阵。为了使生成过程可学习，在理论分析的基础上，采用softmax、正交正则化和二值化来渐近逼近置换矩阵。动态混洗自适应地混合通道信息，而额外的计算和内存占用可以忽略不计。在图像分类基准数据集 CIFAR 10、CIFAR 100、Tiny ImageNet 和 ImageNet 上的实验结果表明，我们的方法显着提高了 ShuffleNets 的性能。

MUNCH: Modelling Unique 'N Controllable Heads
Authors Debayan Deb, Suvidha Tripathi, Pranit Puri
对于计算机视觉研究人员来说，自动生成 3D 人体头部一直是一项有趣且具有挑战性的任务。流行的方法合成真实的化身，但对渲染输出的多样性和质量的控制有限，并且角色的形状和纹理之间的相关性有限。我们提出了一种方法，可以提供质量、多样性、控制力和真实性以及可解释的网络设计，这些都是该领域游戏设计艺术家所期望的功能。首先，我们提出的几何生成器识别解开的潜在方向并生成新颖且多样化的样本。然后，渲染贴图生成器学习合成多重高保真基于物理的渲染贴图，包括反照率、光泽度、镜面反射和法线。对于喜欢对输出进行细粒度控制的艺术家，我们引入了一种新颖的颜色转换器模型，该模型允许对生成的地图进行语义颜色控制。我们还引入了称为独特性和新颖性的可量化指标以及用于测试模型整体性能的组合指标。形状和纹理的演示可以在 https munch Seven.vercel.app 找到。

Condition numbers in multiview geometry, instability in relative pose estimation, and RANSAC
Authors Hongyi Fan, Joe Kileel, Benjamin Kimia
在本文中，我们介绍了一个通用框架，用于使用计算代数和黎曼几何的工具来分析多视图几何中最小问题的数值条件。特殊的动机来自这样一个事实：即使不存在异常值并且有足够的数据来支持假设，基于标准 5 点或 7 点随机样本一致性 RANSAC 算法的相对姿态估计也可能会失败。我们认为这些情况的出现是由于 5 点和 7 点最小问题的内在不稳定性。我们应用我们的框架来表征不稳定性，无论是在导致无限条件数的世界场景方面，还是直接在病态图像数据方面。该方法产生计算测试，用于在解决最小问题之前评估条件数。

GETAvatar: Generative Textured Meshes for Animatable Human Avatars
Authors Xuanmeng Zhang, Jianfeng Zhang, Rohan Chacko, Hongyi Xu, Guoxian Song, Yi Yang, Jiashi Feng
我们研究 3D 感知全身人体生成问题，旨在创建具有高质量纹理和几何形状的可动画人体化身。一般来说，该领域仍然存在两个挑战：一是现有方法难以生成具有丰富逼真细节的几何图形，例如衣服的皱纹；二是它们通常在合成过程中利用体积辐射场和神经渲染器，使得高分辨率渲染变得非常重要。为了克服这些问题，我们提出了 GETAvatar，这是一种生成模型，可以直接为可动画的人类头像生成显式纹理 3D 网格，具有照片般逼真的外观和精细的几何细节。具体来说，我们首先通过显式表面建模设计铰接式 3D 人体表示，并通过学习 3D 扫描数据的 2D 法线图来丰富生成的人体，具有真实的表面细节。其次，通过显式网格表示，我们可以使用基于光栅化的渲染器来执行表面渲染，从而使我们能够有效地实现高分辨率图像生成。大量实验表明，GETAvatar 在外观和几何质量方面都在 3D 感知人类生成方面实现了最先进的性能。值得注意的是，GETAvatar 可以以 17FPS 生成 512x512 分辨率的图像，以 14FPS 生成 1024x1024 分辨率的图像，比之前的方法提高了 2 倍。

ED-NeRF: Efficient Text-Guided Editing of 3D Scene using Latent Space NeRF
Authors Jangho Park, Gihyun Kwon, Jong Chul Ye
最近，文本到图像扩散模型取得了重大进展，在 2D 图像生成方面取得了突破性的性能。这些进步已扩展到 3D 模型，从而能够根据文本描述生成新颖的 3D 对象。这已演变为 NeRF 编辑方法，允许通过文本调节来操纵现有的 3D 对象。然而，由于训练速度慢以及使用未充分考虑编辑的损失函数，现有的 NeRF 编辑技术在性能上面临限制。为了解决这个问题，我们在这里提出了一种新颖的 3D NeRF 编辑方法，称为 ED NeRF，通过独特的细化层成功地将现实世界场景嵌入到潜在扩散模型 LDM 的潜在空间中。这种方法使我们能够获得 NeRF 主干，与传统的图像空间 NeRF 编辑相比，它不仅速度更快，而且更适合编辑。此外，我们提出了一种改进的损失函数，通过将最初用于 2D 图像编辑的 delta 去噪分数 DDS 蒸馏损失迁移到 3 维域来定制编辑。这种新颖的损失函数在编辑目的的适用性方面超越了众所周知的分数蒸馏采样 SDS 损失。

Bridging the Domain Gap by Clustering-based Image-Text Graph Matching
Authors Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun Sol Kim, Jinkyu Kim
学习领域不变表示对于训练能够很好地推广到未见过的目标任务领域的模型非常重要。文本描述本质上包含概念的语义结构，这种辅助语义线索可以用作领域泛化问题的有效枢轴嵌入。在这里，我们使用多模态图表示，融合图像和文本，通过考虑局部图像和文本描述符之间的固有语义结构来获得域不变的枢轴嵌入。具体来说，我们的目标是通过用图表示图像和文本描述，并同时将基于图的图像节点特征聚类和匹配到文本图来学习域不变特征。我们对大规模公共数据集（例如 CUB DG 和 DomainBed）进行了实验，我们的模型在这些数据集上实现了匹配或更好的最先进性能。

USB-NeRF: Unrolling Shutter Bundle Adjusted Neural Radiance Fields
Authors Moyang Li, Peng Wang, Lingzhe Zhao, Bangyan Liao, Peidong Liu
神经辐射场 NeRF 最近因其表现 3D 场景和合成新颖视图图像的令人印象深刻的能力而受到广泛关注。现有的工作通常假设输入图像是由全局快门相机捕获的。因此，卷帘快门 RS 图像不能简单地应用于现成的 NeRF 算法以进行新颖的视图合成。滚动快门效应也会影响相机姿态估计的准确性，例如通过 COLMAP ，这进一步阻止了 NeRF 算法在 RS 图像上的成功。在本文中，我们提出了展开快门束调整神经辐射场 USB NeRF 。 USB NeRF能够在NeRF框架下，通过对RS相机的物理成像过程进行建模，同时校正卷帘快门畸变并恢复准确的相机运动轨迹。实验结果表明，与之前的作品相比，USB NeRF 在 RS 效应消除、新视图图像合成以及相机运动估计方面取得了更好的性能。

Land-cover change detection using paired OpenStreetMap data and optical high-resolution imagery via object-guided Transformer
Authors Hongruixuan Chen, Cuiling Lan, Jian Song, Clifford Broni Bediako, Junshi Xia, Naoto Yokoya
光学高分辨率图像和 OpenStreetMap OSM 数据是土地覆盖变化检测的两个重要数据源。先前对这两个数据源的研究重点是利用 OSM 数据中的信息来辅助多时态光学高分辨率图像的变化检测。本文开创了利用配对 OSM 数据和光学图像直接检测土地覆盖变化的先河，从而拓宽了变化检测任务的视野，涵盖更多动态地球观测。为此，我们通过将流行的基于对象的图像分析 OBIA 技术与先进的视觉 Transformer 架构自然地结合起来，提出了一种对象引导的 Transformer ObjFormer 架构。 OBIA的引入可以显着减少自注意力模块中的计算开销和内存负担。具体来说，所提出的 ObjFormer 具有分层伪暹罗编码器，由对象引导的自注意模块组成，从 OSM 数据和光学图像中提取不同级别的代表性特征，由对象引导的交叉注意模块组成的解码器可以逐步从提取的数据中恢复土地覆盖变化异质特征。除了基本的监督二元变化检测任务之外，本文提出了一种新的半监督语义变化检测任务，该任务不需要任何手动注释的光学图像土地覆盖标签来训练语义变化检测器。 ObjFormer 中添加了两个轻量级语义解码器来有效地完成此任务。逆交叉熵损失旨在充分利用负样本，从而有助于该任务性能的巨大提高。

MedPrompt: Cross-Modal Prompting for Multi-Task Medical Image Translation
Authors Xuhang Chen, Chi Man Pun, Shuqiang Wang
跨模态医学图像翻译是合成缺失模态数据以进行临床诊断的一项重要任务。然而，当前基于学习的技术在捕获跨模态和全局特征方面存在局限性，限制了它们对特定模态对的适用性。这种多功能性的缺乏削弱了它们的实际用途，特别是考虑到缺失的模式可能因不同情况而异。在这项研究中，我们提出了 MedPrompt，这是一个多任务框架，可以有效地转换不同的模式。具体来说，我们提出了自适应提示块，它动态地引导翻译网络走向不同的模式。在此框架内，我们引入了提示提取块和提示融合块来有效地编码跨模式提示。为了增强跨不同模态的全局特征的提取，我们结合了 Transformer 模型。

GET: Group Event Transformer for Event-Based Vision
Authors Yansong Peng, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun, Feng Wu
事件相机是一种新型神经形态传感器，越来越受到人们的关注。现有的基于事件的主干主要依靠基于图像的设计来提取从事件转换的图像中的空间信息，而忽略了重要的事件属性，例如时间和极性。为了解决这个问题，我们提出了一种新颖的基于组的视觉 Transformer 主干，用于基于事件的视觉，称为 Group Event Transformer GET ，它在整个特征提取过程中将时间极性信息与空间信息解耦。具体来说，我们首先提出了一种新的 GET 事件表示形式，名为 Group Token，它根据异步事件的时间戳和极性对异步事件进行分组。然后，GET 应用事件双重自注意力模块和组令牌聚合模块来促进空间和时间极性域中的有效特征通信和集成。之后，GET可以通过与各种头连接来与不同的下游任务集成。我们在四个基于事件的分类数据集 Cifar10 DVS、N MNIST、N CARS 和 DVS128Gesture 以及两个基于事件的对象检测数据集 1Mpx 和 Gen1 上评估我们的方法，结果表明 GET 优于其他最先进的方法。

Deformation-Invariant Neural Network and Its Applications in Distorted Image Restoration and Analysis
Authors Han Zhang, Qiguang Chen, Lok Ming Lui
几何扭曲导致的图像质量下降对成像和计算机视觉任务（例如物体识别）构成了重大挑战。基于深度学习的成像模型通常无法为几何扭曲的图像提供准确的性能。在本文中，我们提出了变形不变神经网络 DINN，这是一个解决几何扭曲图像成像任务问题的框架。 DINN 为几何扭曲但代表相同底层对象或场景的图像输出一致的潜在特征。 DINN 的想法是将一个称为准共形变压器网络 QCTN 的简单组件合并到其他现有的用于成像任务的深度网络中。 QCTN 是一种输出拟共形图的深度神经网络，可用于将几何扭曲的图像转换为更接近自然或良好图像分布的改进版本。它首先输出 Beltrami 系数，用于测量输出变形图的拟共形性。通过控制Beltrami系数，可以控制拟共形映射下的局部几何畸变。 QCTN 轻量且简单，可以轻松集成到其他现有的深度神经网络中以增强其性能。利用我们的框架，我们开发了一个图像分类网络，可以实现对扭曲图像的准确分类。我们提出的框架已应用于恢复大气湍流和水湍流造成的几何扭曲图像。在这些场景下，DINN 优于现有的基于 GAN 的恢复方法，证明了所提出框架的有效性。

P2CADNet: An End-to-End Reconstruction Network for Parametric 3D CAD Model from Point Clouds
Authors Zhihao Zong, Fazhi He, Rubin Fan, Yuxin Liu
计算机辅助设计CAD，特别是基于特征的参数化CAD，在现代工业和社会中发挥着重要作用。然而，特色CAD模型的重建比其他CAD模型的重建更具挑战性。为此，本文提出了一种端到端网络，用于从点云 P2CADNet 重建特色 CAD 模型。最初，所提出的 P2CADNet 架构结合了点云特征提取器、CAD 序列重建器和参数优化器。随后，为了以自回归方式重建特征 CAD 模型，CAD 序列重建器应用两个转换器解码器，一个带有目标掩模，另一个没有掩模。最后，为了更精确地预测参数，我们设计了具有交叉注意机制的参数优化器，以进一步细化CAD特征参数。我们在公共数据集上评估P2CADNet，实验结果表明P2CADNet具有出色的重建质量和准确性。据我们所知，P2CADNet 是第一个从点云重建特色 CAD 模型的端到端网络，可以被视为未来工作的基线。

MagicDrive: Street View Generation with Diverse 3D Geometry Control
Authors Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit Yan Yeung, Qiang Xu
扩散模型的最新进展显着增强了二维控制的数据合成。然而，对于 3D 感知任务至关重要的街景生成中的精确 3D 控制仍然难以实现。具体来说，利用鸟瞰 BEV 作为主要条件通常会带来几何控制方面的挑战，例如高度，影响物体形状、遮挡模式和路面高程的表示，所有这些对于感知数据合成都是至关重要的，特别是对于3D 物体检测任务。在本文中，我们介绍了 MagicDrive，这是一种新颖的街景生成框架，提供多种 3D 几何控制，包括相机姿势、道路地图和 3D 边界框，以及通过定制编码策略实现的文本描述。此外，我们的设计结合了交叉视图注意模块，确保多个摄像机视图的一致性。

SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D
Authors Weiyu Li, Rui Chen, Xuelin Chen, Ping Tan
将 2D 结果从预先训练的扩散模型提升到 3D 世界以生成文本到 3D 本质上是不明确的。 2D 扩散模型仅学习与视图无关的先验，因此在提升过程中缺乏 3D 知识，从而导致多视图不一致问题。我们发现这个问题主要源于几何不一致，避免错位的几何结构可以大大缓解最终输出中的问题。因此，我们通过在提升过程中将扩散模型中的 2D 几何先验与明确定义的 3D 形状对齐来提高一致性，从而解决绝大多数问题。这是通过微调 2D 扩散模型以感知视点并生成规范定向 3D 对象的视图特定坐标图来实现的。在我们的过程中，仅使用粗略的 3D 信息进行对齐。这种粗对齐不仅解决了几何图形中的多视图不一致问题，而且保留了 2D 扩散模型生成 3D 数据集中看不见的详细且多样化的高质量对象的能力。此外，我们的对齐几何先验 AGP 是通用的，可以无缝集成到各种最先进的管道中，在看不见的形状和视觉外观方面获得高度通用性，同时大大缓解多视图不一致问题。我们的方法代表了一种新的最先进的性能，经过人工评估，一致性率为 85，而以前的许多方法约为 30。

ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for Vision Transformer
Authors Seok Yong Byun, Wonju Lee
本文提出了一种新颖的方法来解决 Vision Transformers ViT 中理解预测过程和调试预测错误的挑战，该方法在图像分类和目标检测等各种计算机视觉任务中表现出了卓越的性能。虽然 CAM、Grad CAM、Score CAM 和 Recipro CAM 等几种视觉可解释性技术已针对卷积神经网络 CNN 进行了广泛研究，但对 ViT 的研究却很有限。当前最先进的 ViT 解决方案依赖于类别无关的注意力部署和相关性技术。在这项工作中，我们提出了一种新的 ViT 无梯度视觉解释方法，称为 ViT ReciproCAM，它不需要注意矩阵和梯度信息。 ViT ReciproCAM 利用令牌屏蔽并从目标层的输入生成新的层输出，以利用激活令牌和目标类别的网络预测之间的相关性。我们提出的方法在平均下降相干复杂度 ADCC 指标上优于最先进的相关性方法 4.58 至 5.80，并生成更多局部显着性图。我们的实验证明了 ViT ReciproCAM 的有效性，并展示了其理解和调试 ViT 模型的潜力。

A Prototype-Based Neural Network for Image Anomaly Detection and Localization
Authors Chao Huang, Zhao Kang, Hong Wu
图像异常检测和定位不仅可以执行图像级异常分类，还可以定位像素级异常区域。近年来由于其在各个领域的广泛应用而受到广泛的研究关注。本文提出了 ProtoAD，一种用于图像异常检测和定位的基于原型的神经网络。首先，通过在自然图像上预先训练的深度网络提取正常图像的补丁特征。然后，通过非参数聚类学习正常补丁特征的原型。最后，我们通过在特征提取网络上附加 L2 特征归一化、1 倍 1 卷积层、通道最大池化和减法运算来构建图像异常定位网络 ProtoAD。我们使用原型作为 1×1 卷积层的内核，因此，我们的神经网络不需要训练阶段，并且可以以端到端的方式进行异常检测和定位。对两个具有挑战性的工业异常检测数据集 MVTec AD 和 BTAD 进行的大量实验表明，与最先进的方法相比，ProtoAD 具有更高的推理速度，具有竞争性的性能。

ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented Benchmarks
Authors Zejun Li, Ye Wang, Mengfei Du, Qingwen Liu, Binhao Wu, Jiwen Zhang, Chengxing Zhou, Zhihao Fan, Jie Fu, Jingjing Chen, Xuanjing Huang, Zhongyu Wei
近年来，大型视觉语言模型 LVLM 的开发取得了显着进展。受益于强大的语言骨干和高效的跨模态对齐策略，LVLM 展现出令人惊讶的感知视觉信号和执行基于视觉的推理的能力。然而，LVLM 的能力尚未得到全面、定量的评估。大多数现有的多模态基准测试都需要面向任务的输入输出格式，这对自动评估 LVLM 的自由格式文本输出提出了巨大的挑战。为了有效利用现有基准中可用的注释并减少构建新基准所需的手动工作，我们建议将现有基准重新制定为统一的 LVLM 兼容格式。通过系统的数据收集和重新制定，我们提出了 ReForm Eval 基准，为评估 LVLM 的各种功能提供了大量数据。基于ReForm Eval，我们进行了广泛的实验，彻底分析了现有LVLM的优缺点，并找出了潜在因素。

Improving Automatic VQA Evaluation Using Large Language Models
Authors Oscar Ma as, Benno Krojer, Aishwarya Agrawal
视觉问答 VQA 任务提出 8 年后，准确性仍然是自动评估的主要指标。迄今为止，VQA Accuracy 在 IID 评估设置中一直有效。然而，我们的社区正在向开放式生成模型和 OOD 评估转变。在这个新范式中，现有的 VQA 准确度指标过于严格，并且低估了 VQA 系统的性能。因此，需要开发更强大的自动 VQA 指标来作为人类判断的代理。在这项工作中，我们建议利用指令调整的大型语言模型 LLM 的上下文学习功能来构建更好的 VQA 指标。我们将 VQA 评估制定为答案评分任务，其中指示法学硕士在给定一组参考答案的情况下对候选答案的准确性进行评分。我们证明，与多个 VQA 模型和基准的现有指标相比，所提出的指标与人类判断更好地相关。

Generalization in diffusion models arises from geometry-adaptive harmonic representation
Authors Zahra Kadkhodaie, Florentin Guth, Eero P. Simoncelli, St phane Mallat
使用基于分数的反向扩散算法生成的高质量样本提供了证据，表明经过去噪训练的深度神经网络 DNN 可以学习高维密度，尽管存在维数灾难。然而，最近关于训练集记忆的报告提出了这些网络是否正在学习数据的真正连续密度的问题。在这里，我们表明，在数据集的非重叠子集上训练的两个去噪 DNN 学习几乎相同的得分函数，因此具有相同的密度，并且训练图像数量惊人地少。这种强大的泛化能力证明了 DNN 架构和/或训练算法中强大的归纳偏差与数据分布属性的一致性。我们分析这些，证明降噪器在适应底层图像的基础上执行收缩操作。对这些基底的检查揭示了沿轮廓和均匀图像区域的振荡谐波结构。我们证明，经过训练的降噪器会归纳偏向这些几何自适应调和表示，即使当网络在低维流形等图像类上进行训练时，这些几何自适应调和表示也会出现，而低维流形的调和基础不是最优的。

SlowFormer: Universal Adversarial Patch for Attack on Compute and Energy Efficiency of Inference Efficient Vision Transformers
Authors KL Navaneet, Soroush Abbasi Koohpayegani, Essam Sleiman, Hamed Pirsiavash
最近，在减少深度模型推理时的计算量方面取得了很大进展。这些方法可以减少深度模型的计算需求和功耗。其中一些方法根据输入实例自适应地扩展计算。我们表明，此类模型可能容易受到通用对抗性补丁攻击，攻击者针对补丁进行优化，将补丁粘贴到任何图像上时，会增加模型的计算和功耗。我们使用三种不同的高效视觉变换器方法进行实验，表明在某些情况下，攻击者可以通过简单地粘贴仅占据 8 个图像区域的补丁来将计算量增加到最大可能水平。我们还表明，标准的对抗性训练防御方法可以减少某些攻击的成功率。

ShaSTA-Fuse: Camera-LiDAR Sensor Fusion to Model Shape and Spatio-Temporal Affinities for 3D Multi-Object Tracking
Authors Tara Sadjadpour, Rares Ambrus, Jeannette Bohg
3D 多对象跟踪 MOT 对于自主移动代理安全导航场景至关重要。为了最大限度地发挥自主代理的感知能力，我们的目标是开发一个融合摄像头和 LiDAR 传感器信息的 3D MOT 框架。基于我们之前仅针对 LiDAR 的工作 ShaSTA（为 3D MOT 建模形状和时空亲和力），我们提出了一种新颖的相机 LiDAR 融合方法来学习亲和力。这项工作的核心是提出一种融合技术，该技术可生成丰富的感知信号，结合有关深度和远处物体的信息，以增强亲和力估计，从而改进数据关联、跟踪生命周期管理、误报消除、误报传播和跟踪置信度分数细化。我们的主要贡献包括一种新颖的融合方法，用于结合相机和 LiDAR 传感信号来学习相似性，以及首个融合 2D 和 3D 检测的多模态顺序跟踪置信度细化技术。此外，我们对每个融合步骤进行了烧蚀分析，以证明合并相机传感器的额外好处，特别是对于容易受到激光雷达传感器深度传感限制和稀疏性影响的小型、遥远物体。

On the Cognition of Visual Question Answering Models and Human Intelligence: A Comparative Study
Authors Liben Chen, Long Chen, Tian Ellison Chen, Zhuoyuan Xu
视觉问答 VQA 是一项具有挑战性的任务，需要对视觉图像和自然语言问题进行跨模态理解和推理。为了检查 VQA 模型与人类认知的关联，我们设计了一项调查来记录人类思维过程，并通过将输出和注意力图与人类的输出和注意力图进行比较来分析 VQA 模型。我们发现，尽管 VQA 模型在建筑方面类似于人类认知，并且在识别层面上与人类表现相似，但它们仍然难以进行认知推理。

A Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors
Authors Fan Yang
从课堂视频中准确检测学生行为，有利于分析学生的课堂状态，提高教学效率。然而，学生课堂行为检测准确率低是一个普遍存在的问题。为了解决这个问题，我们提出了一种基于时空注意力的学生课堂行为检测方法 BDSTA 。首先，SlowFast网络用于从视频生成运动和环境信息特征图。然后，将时空注意力模块应用于特征图，包括信息聚合、压缩和刺激过程。随后，获得时间、通道和空间维度的注意力图，并基于这些注意力图进行多标签行为分类。为了解决学生课堂行为数据集中存在的长尾数据问题，我们使用改进的焦点损失函数在训练期间为尾类数据分配更多权重。实验结果是在自制的学生课堂行为数据集STSCB上进行的。

SCB-Dataset3: A Benchmark for Detecting Student Classroom Behavior
Authors Fan Yang, Tao Wang
使用深度学习方法自动检测学生的课堂行为是分析学生课堂表现和提高教学效果的一种有前途的方法。然而，缺乏关于学生行为的公开数据集给该领域的研究人员带来了挑战。为了解决这个问题，我们提出了学生课堂行为数据集 SCB dataset3 ，它代表了现实生活场景。我们的数据集包含 5686 张图像和 45578 个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和靠在桌子上。我们使用 YOLOv5、YOLOv7 和 YOLOv8 算法评估数据集，获得高达 80.3 的平均精度图。我们相信，我们的数据集可以为学生行为检测的未来研究奠定坚实的基础，并为该领域的进步做出贡献。

Eye Fairness: A Large-Scale 3D Imaging Dataset for Equitable Eye Diseases Screening and Fair Identity Scaling
Authors Yan Luo, Yu Tian, Min Shi, Tobias Elze, Mengyu Wang
机器学习的公平或公正对于社会福祉至关重要，但有限的公共数据集阻碍了其进步，尤其是在医学领域。不可否认，医学公平是公平学习应用的最重要领域之一。目前，还没有包含用于公平学习的3D成像数据的大规模公共医疗数据集，而现代诊所的3D成像数据是疾病诊断的标准测试。此外，现有的医疗公平数据集实际上是重新利用的数据集，因此它们通常具有有限的人口统计身份属性，最多有年龄、性别和种族三个身份属性，以进行公平建模。为了解决这一差距，我们引入了包含 30,000 名哈佛 EF 受试者的 Eye Fairness 数据集，涵盖三种主要眼部疾病，包括年龄相关性黄斑变性、糖尿病性视网膜病变和青光眼，影响全球 3.8 亿患者。我们的哈佛 EF 数据集包括 2D 眼底照片和 3D 光学相干断层扫描，具有六种人口统计身份属性，包括年龄、性别、种族、民族、首选语言和婚姻状况。我们还提出了一种公平的身份缩放 FIS 方法，将群体缩放和个人缩放结合在一起，以提高模型的公平性。我们的 FIS 方法与各种最先进的公平学习方法进行了比较，这些方法在使用 2D 和 3D 成像数据的种族、性别和民族公平任务中表现出色，这证明了我们的哈佛 EF 数据集在公平学习方面的实用性。为了促进不同模型之间的公平性比较，我们提出了性能尺度差异度量，可用于比较模型公平性考虑整体性能水平。

EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields
Authors Anish Bhattacharya, Ratnesh Madaan, Fernando Cladera, Sai Vemprala, Rogerio Bonatti, Kostas Daniilidis, Ashish Kapoor, Vijay Kumar, Nikolai Matni, Jayesh K. Gupta
我们提出了 EvDNeRF，一个用于生成事件数据和训练基于事件的动态 NeRF 的管道，目的是在具有刚性和非刚性变形的场景上忠实地重建事件流，这些变形可能太快而无法用标准相机捕获。事件摄像机以 MHz 速率记录异步每像素亮度变化，具有高动态范围，使其成为观察几乎没有运动模糊的快速运动的理想选择。神经辐射场 NeRF 提供视觉质量的基于几何的可学习渲染，但之前的事件工作仅考虑静态场景的重建。我们的 EvDNeRF 可以从任何所需时间戳之间的静态或移动视点预测动态场景的事件流，从而允许其用作给定场景的基于事件的模拟器。我们表明，通过对不同批量大小的事件进行训练，我们可以在精细的时间分辨率下改进事件的测试时间预测，优于将标准动态 NeRF 与事件模拟器配对的基线。

EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods
Authors Samyadeep Basu, Mehrdad Saberi, Shweta Bhardwaj, Atoosa Malemir Chegini, Daniela Massiceti, Maziar Sanjabi, Shell Xu Hu, Soheil Feizi
最近，通过利用基于大规模扩散的生成模型（例如 Imagen 和稳定扩散）的令人印象深刻的功能，开发了大量文本引导图像编辑方法。然而，不存在标准化的评估协议来比较不同类型的细粒度编辑的方法。为了解决这一差距，我们引入了 EditVal，这是一个用于定量评估文本引导图像编辑方法的标准化基准。 EditVal 包含一个精选的图像数据集、从 13 种可能的编辑类型中提取的每个图像的一组可编辑属性，以及一个自动评估管道，该管道使用预先训练的视觉语言模型来评估每种编辑类型生成的图像的保真度。我们使用 EditVal 对 8 种基于扩散的尖端编辑方法进行基准测试，包括 SINE、Imagic 和 Instruct Pix2Pix。我们通过大规模人类研究来补充这一点，我们表明 EditVall 的自动评估管道与人类对我们考虑的编辑类型的偏好密切相关。从人类研究和自动评估中，我们发现 i Instruct Pix2Pix、Null Text 和 SINE 是不同编辑类型中平均表现最好的方法，但只有 Instruct Pix2Pix 和 Null Text 能够保留原始图像属性 ii 大多数编辑方法在涉及空间操作的编辑中失败，例如更改对象的位置。 iii 不存在能够在一系列不同编辑类型中单独排名最佳的获胜者方法。我们希望我们的基准测试能够为将来开发更可靠的文本引导图像编辑工具铺平道路。

FT-Shield: A Watermark Against Unauthorized Fine-tuning in Text-to-Image Diffusion Models
Authors Yingqian Cui, Jie Ren, Yuping Lin, Han Xu, Pengfei He, Yue Xing, Wenqi Fan, Hui Liu, Jiliang Tang
基于潜在扩散模型LDM的文本到图像生成模型展示了其根据语言提示生成高质量、高分辨率图像的出色能力。基于这些强大的潜在扩散模型，人们提出了各种微调方法来实现文本到图像扩散模型的个性化，例如艺术风格适应和人脸迁移。然而，未经授权使用数据进行模型个性化已成为侵犯版权的普遍问题。例如，恶意用户可能在未经其许可的情况下使用微调技术来生成模仿画家风格的图像。鉴于这一问题，我们提出了 FT Shield，这是一种专门为文本到图像扩散模型的微调而设计的水印方法，以帮助检测侵权实例。我们开发了一种新的水印生成算法，以确保训练图像上的水印可以快速准确地转移到文本到图像扩散模型的生成图像中。如果图像是由使用受保护的水印图像进行微调的模型生成的，则二进制水印检测器将在图像上检测到水印。

ScaleNet: An Unsupervised Representation Learning Method for Limited Information
Authors Huili Huang, M. Mahdi Roozbahani
尽管大规模标记数据对于深度卷积神经网络 ConvNet 学习高级语义视觉表示至关重要，但收集和注释大规模数据集既耗时又不切实际。本研究提出了一种基于多尺度图像的简单高效的无监督表示学习方法，称为 ScaleNet，以在可用信息有限时增强 ConvNet 的性能。输入图像首先被调整为较小的尺寸，然后输入到 ConvNet 来识别旋转程度。接下来，ConvNet 根据从先前模型传输的参数来学习原始尺寸图像的旋转预测任务。在本研究中，CIFAR 10 和 ImageNet 数据集在不同的架构（例如 AlexNet 和 ResNet50）上进行了检查。当前的研究表明，特定的图像特征（例如 Harris 角点信息）对于旋转预测任务的效率起着至关重要的作用。在有限的 CIFAR 10 数据集中，ScaleNet 取代了 RotNet 7 倍。与 RotNet 模型相比，从数据有限的 ScaleNet 模型传输的参数将 ImageNet 分类任务提高了约 6 倍。

CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation
Authors Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Xu Zheng, Hiroshi Murase
现有的广义零样本语义分割 GZLSS 方法应用微调 CLIP 范式或将其制定为掩模分类任务，受益于视觉语言模型 VLM。然而，微调方法受到固定骨干模型的限制，这些模型对于分割不灵活，并且掩模分类方法严重依赖于额外的显式掩模提议器。同时，流行的方法仅利用可见的类别，这是一种极大的浪费，即忽略了存在但未注释的区域。为此，我们提出了 CLIPTeacher，这是一种新的学习框架，可以应用于各种每像素分类分割模型，无需引入任何显式掩模提议器或改变 CLIP 的结构，并利用可见区域和忽略区域。具体来说，CLIPTeacher由两个关键模块组成：全局学习模块GLM和像素学习模块PLM。具体来说，GLM 将图像编码器的密集特征与 CLS 令牌（即在 CLIP 中训练的唯一令牌）对齐，这是从 CLIP 模型中探测全局信息的简单但有效的方法。相比之下，PLM 仅利用 CLIP 的密集标记来生成用于忽略区域的高级伪注释，而无需引入任何额外的掩码提议器。同时，PLM基于伪标注可以充分利用整个图像。

LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving
Authors Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding
现有的基于学习的自动驾驶 AD 系统在理解高级信息、概括罕见事件和提供可解释性方面面临挑战。为了解决这些问题，这项工作采用大型语言模型法学硕士作为需要人类常识理解的复杂 AD 场景的决策组件。我们设计认知途径以实现法学硕士的全面推理，并开发算法将法学硕士的决策转化为可操作的驾驶命令。通过这种方法，LLM 决策通过引导参数矩阵自适应与低级控制器无缝集成。大量实验表明，由于法学硕士的常识推理能力，我们提出的方法不仅在单车辆任务中始终超越基准方法，而且有助于处理复杂的驾驶行为甚至多车辆协调。本文提出了利用法学硕士作为复杂 AD 场景的有效决策者在安全性、效率、通用性和互操作性方面迈出的第一步。我们希望它能够为该领域的未来研究提供灵感。

Human-oriented Representation Learning for Robotic Manipulation
Authors Mingxiao Huo, Mingyu Ding, Chenfeng Xu, Thomas Tian, Xinghao Zhu, Yao Mu, Lingfeng Sun, Masayoshi Tomizuka, Wei Zhan
人类天生就拥有通用的视觉表征，使他们能够在操作任务中有效地探索环境并与环境交互。我们主张，这种表示会自动产生于同时学习多种简单的感知技能，这些技能对于日常场景至关重要，例如手部检测、状态估计等，并且与当前最先进的视觉表示相比，更适合学习机器人操作策略纯粹基于自我监督的目标。我们通过在预先训练的视觉编码器之上进行面向人的多任务微调来形式化这个想法，其中每个任务都是与人类环境交互相关的感知技能。我们引入任务融合解码器作为即插即用的嵌入翻译器，它利用这些感知技能之间的潜在关系来指导表示学习编码对所有感知技能都很重要的有意义的结构，最终增强下游机器人操作任务的学习。在模拟和现实环境中对一系列机器人任务和实施例进行的广泛实验表明，我们的任务融合解码器持续改进了三种最先进的视觉编码器（包括 R3M、MVP 和 EgoVLP）的表示，用于下游操纵策略学习。

Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization
Authors Tanmay Gautam, Reid Pryzant, Ziyi Yang, Chenguang Zhu, Somayeh Sojoudi
矢量量化 VQ 是深度学习中一种众所周知的技术，用于提取信息丰富的离散潜在表示。 VQ 嵌入式模型在图像和语音生成等一系列应用中显示出令人印象深刻的结果。 VQ 作为参数 K 均值算法运行，在前向传递中使用单个码本向量来量化输入。虽然功能强大，但该技术面临着实际挑战，包括码本崩溃、不可微分性和有损压缩。为了缓解上述问题，我们提出软凸量化 SCQ 作为 VQ 的直接替代品。 SCQ 的工作原理类似于前向传递中的可微凸优化 DCO 层，我们求解量化输入的码本向量的最佳凸组合。在后向传递中，我们通过前向解决方案的最优性条件来利用可微性。然后，我们引入 SCQ 优化的可扩展松弛，并在 CIFAR 10、GTSRB 和 LSUN 数据集上展示其功效。

Fully Automatic Segmentation of Gross Target Volume and Organs-at-Risk for Radiotherapy Planning of Nasopharyngeal Carcinoma
Authors Mehdi Astaraki, Simone Bendazzoli, Iuliana Toma Dasu
由于相邻软组织之间的对比度较低，头颈 H N 区域 CT 图像中的目标分割具有挑战性。 SegRap 2023 挑战赛的重点是对鼻咽癌 NPC 的分割算法进行基准测试，该算法将用作放射治疗规划目的的自动轮廓工具。我们提出了一个全自动框架，并开发了两个模型来分割 45 个处于危险中的器官 OAR 和两个总肿瘤体积 GTV。为此，我们通过协调强度分布来预处理图像体积，然后自动裁剪目标区域周围的体积。预处理后的体积用于分别为每个任务训练标准 3D U Net 模型。我们的方法在挑战赛验证阶段的每项任务中都获得了第二名。

Adaptive Landmark Color for AUV Docking in Visually Dynamic Environments
Authors Corey Knutson, Zhipeng Cao, Junaed Sattar
自主水下航行器 AUV 在水下执行任务，无需人工干预。对接站 DS 可以通过为 AUV 提供充电和接收更新任务信息的位置来延长 AUV 的任务时间。存在多种定位和跟踪 DS 的方法，但大多数依赖于昂贵的声学传感器，或者基于视觉，这很大程度上受水质影响。在此文档类型中，我们提出了一种基于视觉的方法，该方法利用自适应彩色 LED 标记和动态颜色过滤来最大限度地提高不同水况下地标的可见度。 AUV 和 DS 都利用摄像机来确定水背景颜色，以便计算所需的标记颜色。 AUV 和 DS 之间无需进行通信即可确定标记颜色。在水池和湖泊中进行的实验表明，随着背景颜色的变化，我们的方法的性能比静态颜色阈值方法好 10 倍。

Computationally Efficient Quadratic Neural Networks
Authors Mathew Mithra Noel, Venkataraman Muthiah Nakarajan
过去已经考虑过通过将激活函数应用于输入的高阶多项式函数来计算输出的高阶人工神经元，但由于额外的参数和计算成本而没有获得接受。然而，高阶神经元具有明显更强的学习能力，因为高阶神经元的决策边界可以是复杂的表面而不仅仅是超平面。单个二次神经元的边界可以是一般的超二次曲面，使其能够学习许多非线性可分离的数据集。由于二次形式可以用对称矩阵表示，因此只需要 frac n n 1 2 附加参数而不是 n 2 。首先提出了二次 Logistic 回归模型。考虑使用单个二次神经元解决 XOR 问题。推导了由二次神经元组成的前馈网络中前向和后向传播的完整矢量化方程。提出了一种减少参数的二次神经网络模型，每个神经元仅包含 n 个附加参数，该模型在学习能力和计算成本之间提供了折衷方案。基准分类数据集的比较用于证明最后一层二次神经元使网络能够以明显更少的隐藏层神经元实现更高的精度。

Multi-Resolution Fusion for Fully Automatic Cephalometric Landmark Detection
Authors Dongqian Guo, Wencheng Han
侧颅骨 X 射线图像上的头影测量标志检测在某些牙科疾病的诊断中起着至关重要的作用。准确有效地识别这些地标提出了重大挑战。基于大量的数据观察和定量分析，我们发现不同感受野的视觉特征对各种地标的检测精度有不同的影响。因此，我们采用图像金字塔结构，集成多个分辨率作为输入来训练一系列具有不同感受野的模型，旨在实现每个地标的最佳特征组合。此外，我们在训练期间应用了多种数据增强技术，以增强模型在各种设备和测量替代方案中的稳健性。

All Sizes Matter: Improving Volumetric Brain Segmentation on Small Lesions
Authors Ayhan Can Erdur, Daniel Scholz, Josef A. Buchner, Stephanie E. Combs, Daniel Rueckert, Jan C. Peeken
脑转移脑转移瘤是最常发生的脑肿瘤。通过立体定向放射外科治疗有多发脑转移的患者需要准确定位转移灶。神经网络可以协助完成这项通常由人类专家执行的耗时且成本高昂的任务。特别具有挑战性的是小病变的检测，因为它们在现有方法中通常代表性不足。然而，病变检测对于所有尺寸都同样重要。在这项工作中，我们开发了一个神经网络集合，明确专注于检测和分割小型 BM。为了完成这项任务，我们训练了几个专注于 BM 分割问题各个方面的神经网络。我们使用斑点损失来专门解决病变实例在大小和纹理方面的不平衡问题，因此不偏向于较大的病变。此外，使用 T1 和 T1 对比度增强序列之间的减法序列的模型侧重于低对比度病变。此外，我们仅在小病变上训练额外的模型。我们的实验证明了附加斑点损失和减法序列的实用性。然而，在集成中包含专门的小病变模型会恶化分割结果。我们还发现受领域知识启发的后处理步骤可以极大地提高我们在大多数实验中的性能。

DOMINO: A Dual-System for Multi-step Visual Language Reasoning
Authors Peifang Wang, Olga Golovneva, Armen Aghajanyan, Xiang Ren, Muhao Chen, Asli Celikyilmaz, Maryam Fazel Zarandi
视觉语言推理需要一个系统从图表或绘图等信息密集的图像中提取文本或数字，并执行逻辑或算术推理以得出答案。为了解决此任务，现有工作依赖于 1 一个经过大量数据训练的端到端视觉语言模型，或者 2 一个两阶段管道，其中字幕模型将图像转换为文本，然后由另一个大型语言模型进一步读取来推断答案。然而，前一种方法迫使模型通过一个步骤回答复杂的问题，而后一种方法很容易在转换后的文本中出现不准确或分散注意力的信息，从而使语言模型感到困惑。在这项工作中，我们提出了一种用于多步骤多模态推理的双系统，其中包括用于视觉信息提取的系统1步骤和用于故意推理的系统2步骤。给定输入，系统 2 将问题分解为原子子步骤，每个子步骤指导系统 1 从图像中提取推理所需的信息。对图表和绘图数据集的实验表明，与之前针对分布数据内外的工作相比，我们使用预先训练的 System 2 模块的方法具有竞争力。通过仅在多步推理的少量数据上对系统 2 模块 LLaMA 2 70B 进行微调，我们的方法的准确性进一步提高，并超过最佳完全监督端到端方法 5.7 以及使用 FlanPaLM 540B 的管道方法 5.7

Tracking Anything in Heart All at Once
Authors Chengkang Shen, Hao Zhu, You Zhou, Yu Liu, Si Yi, Lili Dong, Weipeng Zhao, David J. Brady, Xun Cao, Zhan Ma, Yi Lin
心肌运动跟踪是预防和检测心血管疾病（全球最重要的死亡原因）的重要临床工具。然而，当前的技术在空间和时间维度上对心肌的运动估计不完整且不准确，阻碍了心肌功能障碍的早期识别。为了应对这些挑战，本文介绍了神经心脏运动场 NeuralCMF。 NeuralCMF 利用隐式神经表示 INR 对心脏的 3D 结构和全面的 6D 前后运动进行建模。这种方法提供了高效的内存存储和连续能力，可以在整个心动周期的任何特定点查询心肌的精确形状和运动。值得注意的是，NeuralCMF 的运行不需要配对数据集，其优化是通过空间和时间维度的物理知识先验进行自我监督，确保与 2D 和 3D 超声心动图视频输入兼容。

LROC-PANGU-GAN: Closing the Simulation Gap in Learning Crater Segmentation with Planetary Simulators
Authors Jaewon La, Jaime Phadke, Matt Hutton, Marius Schwinning, Gabriele De Canio, Florian Renk, Lars Kunze, Matthew Gadd
对于着陆在外行星体上的探测器来说，能够可靠地识别和避免危险至关重要，因为陡峭的悬崖或深坑可能会对探测器的着陆和操作成功构成重大风险。最近深度学习在这个问题上的应用显示出了有希望的结果。然而，这些模型通常是通过对带注释的数据集的明确监督来学习的。这些人类标记的陨石坑数据库，例如来自月球勘测轨道飞行器相机 LROC 的数据库，可能缺乏一致性和质量，从而损害模型性能，因为不完整和/或不准确的标签将噪声引入到监督信号中，从而鼓励模型学习不正确的关联并导致模型做出不可靠的预测。相比之下，基于物理的模拟器（例如行星和小行星自然场景生成实用程序）具有完美的地面实况，因为它们用于渲染场景的内部状态是准确已知的。然而，由于建模假设、未考虑物理交互、环境变化等而导致模拟环境与现实世界之间存在根本差异，它们对真实领域差距引入了严重的模拟。因此，在其输出上训练的模型在部署到实际环境中时会受到影响。他们在训练数据分布中从未遇到过现实主义。因此，在本文中，我们引入了一种系统来缩小这种现实差距，同时保持标签保真度。我们训练 CycleGAN 模型来从行星和小行星自然场景生成实用程序 PANGU 图像中合成 LROC。

Understanding Pan-Sharpening via Generalized Inverse
Authors Shiqi Liu, Yutong Bai, Xinyang Han, Alan Yuille
全色锐化算法利用全色图像和多光谱图像来获得高空间和高光谱图像。然而，算法的优化是按照不同的标准设计的。我们采用简单的矩阵方程来描述全色锐化问题。讨论了解的存在条件以及光谱和空间分辨率的获取。为了更好地获取空间和光谱下采样矩阵，引入了下采样增强方法。通过广义逆理论，我们推导了两种形式的广义逆矩阵公式，可以对应于两类主要的全色锐化方法，即分量替换和多分辨率分析方法。具体来说，Gram Schmidt 自适应 GSA 被证明遵循组件替换的一般逆矩阵公式。渲染了谱函数的一般逆矩阵之前的模型。分析了理论误差。进行了综合实验和真实数据实验。在合成实验和实际实验中，所提出的方法在质量上都比其他方法更好、更敏锐。在实际实验中，下采样增强效果在定量和定性上都显示出更好的效果。

Multi-Dimension-Embedding-Aware Modality Fusion Transformer for Psychiatric Disorder Clasification
Authors Guoxin Wang, Xuyang Cao, Shan An, Fengmei Fan, Chao Zhang, Jinsong Wang, Feng Yu, Zhiren Wang
深度学习方法与神经影像技术一起在精神疾病分类中发挥着重要作用。以往关于精神疾病诊断的研究主要集中于使用静息态功能磁共振成像rs fMRI的功能连接矩阵作为输入，仍需要充分利用rs fMRI数据时间序列的丰富时间信息。在这项工作中，我们提出了一种多维嵌入感知模态融合变压器 MFFormer，使用 rs fMRI 和 T1 加权结构 MRI T1w sMRI 对精神分裂症和双相情感障碍进行分类。具体来说，为了充分利用 rs fMRI 的时间信息和 sMRI 的空间信息，我们构建了一个深度学习架构，以 rs fMRI 的 2D 时间序列和 3D 体积 T1w 作为输入。此外，为了促进不同模态之间的模态内注意力和信息融合，通过多模态混合特征图的广泛自关注，设计了融合变压器模块 FTM。此外，建议采用向上维度和向下维度策略来正确对齐来自不同模态的多维特征图。

PostRainBench: A comprehensive benchmark and a new model for precipitation forecasting
Authors Yujin Tang, Jiaming Zhou, Xiang Pan, Zeying Gong, Junwei Liang
准确的降水预报是具有科学和社会重要性的重大挑战。数据驱动方法已成为应对这一挑战的广泛使用的解决方案。然而，仅仅依靠数据驱动的方法在底层物理建模方面存在局限性，使得准确的预测变得困难。将基于人工智能的后处理技术与传统数值天气预报数值天气预报方法相结合，为提高预报精度提供了更有效的解决方案。尽管前期进行了后处理工作，但由于各地降水数据不平衡以及多个气象变量之间的复杂关系，准确预测强降雨仍然具有挑战性。为了解决这些限制，我们引入了 PostRainBench，这是一个综合性多变量 NWP 后处理基准，由三个数据集组成，用于基于 NWP 后处理的降水预报。我们提出了 CAMT，一种简单而有效的通道注意力增强多任务学习框架，具有专门设计的加权损失函数。其灵活的设计可以轻松地与各种骨干网进行即插即用集成。所提出的基准的大量实验结果表明，我们的方法在三个数据集的雨 CSI 中分别比最先进的方法高出 6.3、4.7 和 26.8。最值得注意的是，我们的模型是第一个基于深度学习的方法，在极端降水条件下优于传统的数值天气预报 NWP 方法。与各自数据集上的暴雨 CSI 中的 NWP 预测相比，它显示出 15.6、17.4 和 31.8 的改进。

On Memorization in Diffusion Models
Authors Xiangming Gu, Chao Du, Tianyu Pang, Chongxuan Li, Min Lin, Ye Wang
由于扩散模型能够生成新颖且高质量的样本，近年来引起了人们的广泛研究兴趣。值得注意的是，扩散模型的典型训练目标，即去噪分数匹配，具有封闭形式的最优解，只能生成训练数据复制样本。这表明记忆行为在理论上是预期的，这与最先进的扩散模型的普遍泛化能力相矛盾，因此需要更深入的理解。考虑到这一点，我们首先观察到记忆行为往往发生在较小规模的数据集上，这激发了我们对有效模型记忆 EMM 的定义，这是一种衡量训练数据最大大小的指标，在该指标上学习的扩散模型接近其理论最佳值。然后，我们根据 EMM 量化影响因素对这些记忆行为的影响，主要关注数据分布、模型配置和训练过程。除了确定影响因素的综合经验结果之外，我们令人惊讶地发现，在无信息的随机标签上调节训练数据可以显着触发扩散模型中的记忆。我们的研究对于扩散模型用户具有实际意义，并为深度生成模型的理论研究提供了线索。

Analyzing and Improving OT-based Adversarial Networks
Authors Jaemoo Choi, Jaewoong Choi, Myungjoo Kang
最优运输 OT 问题旨在找到一个连接两个分布的运输计划，同时最小化给定的成本函数。 OT理论已广泛应用于生成建模中。一开始，OT 距离被用作评估数据和生成的分布之间距离的度量。最近，数据和先验分布之间的 OT 传输图已被用作生成模型。这些基于 OT 的生成模型具有相似的对抗性训练目标。在本文中，我们首先将这些基于 OT 的对抗方法统一在一个框架内。然后，我们通过对这个统一框架的综合分析，阐明每个组件在训练动态中的作用。此外，我们提出了一种简单但新颖的方法，可以改进之前性能最佳的基于 OT 的模型。直观上，我们的方法对生成的分布进行逐步细化，逐步使其与数据分布保持一致。

AdaMerging: Adaptive Model Merging for Multi-Task Learning
Authors Enneng Yang, Zhenyi Wang, Li Shen, Shiwei Liu, Guibing Guo, Xingwei Wang, Dacheng Tao
多任务学习 MTL 旨在使模型能够同时处理多个任务。最近一项称为任务算术的发展表明，多个模型（每个模型都针对不同的任务进行了微调）可以直接合并到单个模型中以执行 MTL，而无需使用初始训练数据进行重新训练过程。然而，这种直接添加模型通常会导致合并模型的整体性能显着恶化。这种下降是由于多个任务之间潜在的冲突和复杂的相关性造成的。因此，出现了如何在不使用原始训练数据的情况下更有效地合并预训练模型的挑战。本文介绍了一种称为自适应模型合并 AdaMerging 的创新技术。这种方法旨在以任务方式或分层方式自主学习模型合并的系数，而不依赖于原始训练数据。具体来说，我们的 AdaMerging 方法作为自动、无监督任务算术方案运行。它利用来自多任务设置的未标记测试样本的熵最小化作为代理目标函数来迭代地细化多个模型的合并系数。我们在八项任务中的实验结果证明了我们提出的 AdaMerging 方案的有效性。与当前最先进的任务算术合并方案相比，AdaMerging 的性能显着提高了 11 倍。值得注意的是，AdaMerging 在应用于看不见的下游任务时还表现出卓越的泛化能力。

NOLA: Networks as Linear Combination of Low Rank Random Basis
Authors Soroush Abbasi Koohpayegani, KL Navaneet, Parsa Nooralinejad, Soheil Kolouri, Hamed Pirsiavash
大型语言模型法学硕士最近因其在各种下游任务中令人印象深刻的少数镜头表现而受到欢迎。然而，由于检查点的规模巨大，例如 GPT 3 中的 350GB，微调所有参数并为每个下游任务或域存储唯一的模型变得不切实际。当前的文献（例如 LoRA）展示了对 LLM 原始权重进行低阶修改的潜力，从而实现任务特定模型的高效适应和存储。这些方法可以将 LLM 微调所需的参数数量减少几个数量级。然而，这些方法面临两个主要限制：1 参数减少受到秩一分解的下限；2 减少的程度很大程度上受到模型架构和所选等级的影响。例如，在较大的模型中，即使是一级分解也可能超过适应真正需要的参数数量。在本文中，我们介绍了 NOLA，它克服了 LoRA 中存在的一级下限。它通过使用随机生成的矩阵基础的线性组合重新参数化 LoRA 中的低秩矩阵并仅优化线性混合系数来实现这一点。这种方法使我们能够将可训练参数的数量与等级的选择和网络架构解耦。我们展示了在自然语言和计算机视觉任务中使用 GPT 2 和 ViT 的适应结果。 NOLA 的性能与具有同等参数数量的模型一样好，甚至更好。

OCU-Net: A Novel U-Net Architecture for Enhanced Oral Cancer Segmentation
Authors Ahmed Albishri, Syed Jawad Hussain Shah, Yugyung Lee, Rong Wang
口腔癌的准确检测对于改善患者的治疗效果至关重要。然而，该领域面临两个关键挑战：缺乏专门针对口腔癌的基于深度学习的图像分割研究以及缺乏注释数据。我们的研究提出了 OCU Net，这是一种开创性的 U Net 图像分割架构，专门设计用于检测苏木精和伊红 HE 染色图像数据集中的口腔癌。 OCU Net 融合了先进的深度学习模块，例如通道和空间注意力融合 CSAF 模块，这是一种新颖的创新功能，可在探索上下文信息的同时强调 HE 图像中的重要通道和空间区域。此外，OCU Net还集成了其他创新组件，例如Squeeze和Excite SE注意力模块、Atrous Spatial Pyramid Pooling ASPP模块、残差块和多尺度融合。这些模块的结合显示了本研究中使用的两个数据集的口腔癌分割的卓越性能。此外，我们有效地利用高效的 ImageNet 预训练 MobileNet V2 模型作为 OCU Net 的骨干来创建 OCU Netm，这是一个实现最先进结果的增强版本。

FedL2P: Federated Learning to Personalize
Authors Royson Lee, Minyoung Kim, Da Li, Xinchi Qiu, Timothy Hospedales, Ferenc Husz r, Nicholas D. Lane
联邦学习 FL 研究在开发全局模型的分布式学习算法以及根据每个客户端本地数据分布的具体情况对这些通用模型进行本地个性化的算法方面取得了进展。然而，不同的 FL 问题可能需要不同的个性化策略，甚至可能无法为所有客户定义一种有效的、适合所有客户的个性化策略，具体取决于每个客户的最佳预测器与全局模型的相似程度、不同的个性化策略可能是首选。在本文中，我们考虑学习个性化策略的联邦元学习问题。具体来说，我们考虑元网络，在给定本地数据统计的情况下，为每个客户端引入批量范数和学习率参数。通过 FL 学习这些元网络，我们允许整个 FL 网络协作，为每个客户学习定制的个性化策略。

Bag of Tricks for Fully Test-Time Adaptation
Authors Saypraseuth Mounsaveng, Florent Chiaroni, Malik Boudiaf, Marco Pedersoli, Ismail Ben Ayed
完全测试时间适应 TTA 旨在使模型适应数据漂移，最近引起了广泛的兴趣。人们提出了许多技巧和技术来确保对任意未标记数据流的稳健学习。然而，评估每种技术的真正影响并获得公平的比较仍然构成重大挑战。为了帮助巩固社区的知识，我们对选定的正交 TTA 技术进行了分类，包括小批量归一化、流重新平衡、可靠样本选择和网络置信度校准。我们仔细剖析每种方法对不同感兴趣场景的影响。通过我们的分析，我们揭示了这些技术在准确性、所需计算能力和模型复杂性之间的权衡。

Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image Segmentation
Authors Xiangru Li, Yifei Zhang, Liang Zhao
Segment Anything Model SAM 是一个强大的基础模型，它在自然图像分割方面带来了革命性的进步。然而，在描绘生物医学图像的复杂结构（其中多个器官和组织在单个图像中交织在一起）时，其性能仍然次优。在本研究中，我们引入了一种新颖的微调框架，该框架利用 SAM 捆绑和处理每个图像多个提示的能力，并寻求提高 SAM 在医学图像中的性能。我们首先整理了一个医学图像数据集，其中包含各个器官病变的 CT 扫描，每个图像数据集分别有器官和病变的两个注释。然后，我们通过批处理从真实掩模生成的两个边界框作为参考，在我们的框架内微调 SAM 掩模解码器。

Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion
Authors Dongjun Kim, Chieh Hsin Lai, Wei Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon
一致性模型 CM Song 等人，2023 以牺牲样本质量为代价加速基于评分的扩散模型采样，但缺乏权衡质量与速度的自然方法。为了解决这个限制，我们提出了一致性轨迹模型 CTM，这是一种概括，包含 CM 和基于分数的模型作为特殊情况。 CTM 训练单个神经网络，该神经网络可以在单次前向传递中输出分数，即对数密度的梯度，并能够在扩散过程中沿着概率流常微分方程 ODE 在任何初始时间和最终时间之间进行无限制的遍历。 CTM 能够有效结合对抗性训练和去噪分数匹配损失，以增强性能，并在 CIFAR 10 FID 1.73 和 ImageNet 64X64 分辨率 FID 2.06 上实现单步扩散模型采样的最先进的 FID。 CTM 还支持一系列新的采样方案，包括确定性和随机性，涉及沿 ODE 解轨迹的长跳跃。随着计算预算的增加，它不断提高样本质量，避免 CM 中出现的退化。

Comparative Evaluation of Transfer Learning for Classification of Brain Tumor Using MRI
Authors Abu Kaisar Mohammad Masum, Nusrat Badhon, S.M. Saiful Islam Badhon, Nushrat Jahan Ria, Sheikh Abujar, Muntaser Mansur Syed, Naveed Mahmud
大脑及其周围组织中细胞的异常生长被称为脑肿瘤。有两种类型，一种是良性非癌性，另一种是可能导致死亡的恶性癌性。磁共振成像 MRI 极大地帮助了放射科医生诊断恶性肿瘤的能力。计算机辅助诊断领域，特别是机器学习和深度学习领域，大大加快了脑癌的诊断速度。在我们的研究中，我们使用四种迁移学习技术对三种不同类型的脑肿瘤进行分类。我们的模型在代表三种不同形式脑癌的 3064 张 MRI 图片的基准数据集上进行了测试。值得注意的是，ResNet 50 的表现优于其他模型，准确率高达 99.06。我们强调平衡数据集对于在不使用增强方法的情况下提高准确性的重要性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com