与大多数AI系统不同,人类在上下文中一起理解文本,视频,音频和图像的含义。
例如,给定单独查看时看起来无害的文本和图像(例如,“看看有多少人爱你”和一张荒芜的沙漠图片),人们将认识到这些元素正在配对或配对时间具有潜在的有害含义。
绑尽管仍然无法实现支持这些多模式推断的系统,但是已经取得了进展。
过去一年中的新研究推动了多模式学习的最新发展,特别是在视觉问题解答(VQA)的子领域中,该问题是计算机视觉任务,其中向系统提供有关图像和图像的基于文本的问题。
必须推断出答案。
事实证明,多模式学习可以承载互补的信息或趋势,并且只有当这些信息或趋势都包含在学习过程中时,这些信息或趋势才会变得明显。
这给从字幕到将漫画书翻译成不同语言的应用带来了希望。
在多模式系统中,计算机视觉和自然语言处理模型在数据集上一起训练,以学习组合的嵌入空间,或表示图像,文本和其他媒体的特定特征的变量所占据的空间。
如果将不同的单词与相似的图像配对,则这些单词很可能描述相同的事物或对象,并且如果某些单词出现在不同的图像旁边,则意味着这些图像表示相同的对象。
然后,多模式系统应该可以从文本描述中预测诸如图像对象之类的东西,并且大量的学术文献已经证明是这种情况。
仅存在一个问题:众所周知,多峰系统吸收数据集中的偏差。
诸如VQA之类的任务中涉及的问题和概念的多样性,以及缺乏高质量的数据,通常会阻止模型学习“推理”,从而导致模型依赖于数据集统计信息来进行有根据的猜测。
关键见解可能在于Orange实验室和里昂国家应用科学研究院的科学家制定的基准。
他们声称,用于度量VQA模型准确性的标准度量具有误导性,因此提供了另一种方法GQA-OOD,该方法可以评估无法推理的问题的性能。
在一项涉及7种VQA模型和3种减少偏差的技术的研究中,研究人员发现这些模型未能解决涉及频率不高的概念的问题,表明该领域需要开展工作。
该解决方案可能涉及更大,更全面的培训数据集。
巴黎高等师范学院(Inco Paris)的工程师和捷克共和国信息,机器人与控制论研究所的工程师发表的一篇论文提出了一个VQA数据集,该数据集由数百万个带有旁白的视频创建。
根据研究人员的说法,数据集由转录后的视频自动生成的问题和答案对组成,无需手动注释,同时在流行基准上可获得出色的性能。
(大多数机器学习模型学习基于自动或手动标记的数据进行预测。
)