視覚と自然言語の融合研究
視覚と自然言語の融合研究(英語: Vision and Language)とは、コンピュータビジョンと自然言語処理を融合した研究分野である。 画像や動画からのキャプション生成、画像や動画を対象とした質問応答(VQA)などのタスクが含まれる。
視覚と自然言語の融合研究(英語: Vision and Language)とは、コンピュータビジョンと自然言語処理を融合した研究分野である。 画像や動画からのキャプション生成、画像や動画を対象とした質問応答(VQA)などのタスクが含まれる。
視覚と自然言語の融合研究(英語: Vision and Language)とは、コンピュータビジョンと自然言語処理を融合した研究分野である。 画像や動画からのキャプション生成、画像や動画を対象とした質問応答(VQA)などのタスクが含まれる。
出典: Wikipedia「視覚と自然言語の融合研究」 · CC BY-SA 4.0
この記事を共有: X · Bluesky