視覚と自然言語の融合研究

視覚と自然言語の融合研究（英語: Vision and Language）とは、コンピュータビジョンと自然言語処理を融合した研究分野である。画像や動画からのキャプション生成、画像や動画を対象とした質問応答（VQA）などのタスクが含まれる。

この神経はここで途切れています。