附加器

附链接华人一作统一视觉语言理解

发布时间:2022/4/30 17:59:13   

计算机视觉

机器视觉

机器学习

深度学习

编者荐语

这个BLIP模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题。

转载自丨机器之心

视觉-语言预训练(Vision-LanguagePre-training,VLP)提高了许多视觉-语言任务的性能。然而,大多数现有的预训练模型只能在基于理解任务或基于生成任务中表现出色。现有的VLP方法主要存在两个局限性:(1)从模型角度来讲,大多数方法采用基于编码器的模型,或者采用基于编码器-解码器模型。然而,基于编码器的模型很难直接转换到文本生成任务中,而编码器-解码器模型还没有成功地用于图像-文本检索任务;(2)从数据角度来讲,像CLIP、SimVLM等SOTA模型通过在web上收集的图像-文本对进行预训练,尽管扩大数据集获得了性能提升,但web上的文本具有噪声,对VLP来说并不是最优。近日,来自SalesforceResearch的研究者提出了BLIP(BootstrappingLanguage-ImagePre-training),用于统一视觉-语言理解和生成任务。BLIP是一个新的VLP框架,可以支持比现有方法更广泛的下游任务。BLIP通过自展标注(bootstrappingthecaptions),可以有效地利用带有噪声的web数据,其中标注器(captioner)生成标注,过滤器(filter)去除有噪声的标注。该研究在视觉-语言任务上取得了SOTA性能,例如在图像-文本检索任务上,recall

1提高2.7%;在图像标注任务上,CIDEr提高2.8%、VQA提高+1.6%。当将BLIP以零样本的方式直接迁移到视频-语言任务时,BLIP也表现出很强的泛化能力。论文一作为Salesforce亚洲研究院高级研究科学家JunnanLi,香港大学电子工程学士,新加坡国立大学计算机科学博士。他的主要研究兴趣在于自监督学习、半监督学习、弱监督学习、迁移学习以及视觉与语言。

论文

转载请注明:http://www.aideyishus.com/lkzp/75.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章