附加器

50亿图文中提取中文跨模态基准,奇虎36

发布时间:2022/8/22 18:41:57   

机器之心专栏

作者:奇虎人工智能研究院和清华大学

对于中文社区来说,本文提出的大规模跨模态基准数据集无疑很有价值

视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系。得益于海量数据、Transformer等优秀架构、CLIP等跨模态模型以及硬件设备的支持,一系列开创性的工作探索了VLP模型,并在各种视觉语言任务上取得了显著进展。

借助大规模训练语料库(主要是英语),众多VLP模型已被证明对下游任务有益。然而中文视觉语言数据集很少,并且存在各种局限性。针对大规模预训练模型加下游任务精调的经典模式,中文跨模态领域缺少一个包含大量优质数据,且完整定义了预训练数据集、多个下游任务训练集及下游任务测试集的数据基准。

如何构建一个完整、公平且具有高质量文本描述的中文跨模态基准成为一个亟需解决的问题。

最近,奇虎人工智能研究院和清华大学的研究者在其最新论文中重点

转载请注明:http://www.aideyishus.com/lkcf/1254.html

------分隔线----------------------------