新研究推动了多模式学习的最新发展

新研究推动了多模式学习的最新发展

分流电阻 2025-04-26

与大多数AI系统不同，人类在上下文中一起理解文本，视频，音频和图像的含义。

例如，给定单独查看时看起来无害的文本和图像（例如，“看看有多少人爱你”和一张荒芜的沙漠图片），人们将认识到这些元素正在配对或配对时间具有潜在的有害含义。

绑尽管仍然无法实现支持这些多模式推断的系统，但是已经取得了进展。

过去一年中的新研究推动了多模式学习的最新发展，特别是在视觉问题解答（VQA）的子领域中，该问题是计算机视觉任务，其中向系统提供有关图像和图像的基于文本的问题。

必须推断出答案。

事实证明，多模式学习可以承载互补的信息或趋势，并且只有当这些信息或趋势都包含在学习过程中时，这些信息或趋势才会变得明显。

这给从字幕到将漫画书翻译成不同语言的应用带来了希望。

在多模式系统中，计算机视觉和自然语言处理模型在数据集上一起训练，以学习组合的嵌入空间，或表示图像，文本和其他媒体的特定特征的变量所占据的空间。

如果将不同的单词与相似的图像配对，则这些单词很可能描述相同的事物或对象，并且如果某些单词出现在不同的图像旁边，则意味着这些图像表示相同的对象。

然后，多模式系统应该可以从文本描述中预测诸如图像对象之类的东西，并且大量的学术文献已经证明是这种情况。

仅存在一个问题：众所周知，多峰系统吸收数据集中的偏差。

诸如VQA之类的任务中涉及的问题和概念的多样性，以及缺乏高质量的数据，通常会阻止模型学习“推理”，从而导致模型依赖于数据集统计信息来进行有根据的猜测。

关键见解可能在于Orange实验室和里昂国家应用科学研究院的科学家制定的基准。

他们声称，用于度量VQA模型准确性的标准度量具有误导性，因此提供了另一种方法GQA-OOD，该方法可以评估无法推理的问题的性能。

在一项涉及7种VQA模型和3种减少偏差的技术的研究中，研究人员发现这些模型未能解决涉及频率不高的概念的问题，表明该领域需要开展工作。

该解决方案可能涉及更大，更全面的培训数据集。

巴黎高等师范学院（Inco Paris）的工程师和捷克共和国信息，机器人与控制论研究所的工程师发表的一篇论文提出了一个VQA数据集，该数据集由数百万个带有旁白的视频创建。

根据研究人员的说法，数据集由转录后的视频自动生成的问题和答案对组成，无需手动注释，同时在流行基准上可获得出色的性能。

（大多数机器学习模型学习基于自动或手动标记的数据进行预测。

）