OpenAI发布的Clip是一个基于图像和文本并行的多模态模型,CLIP模型的效果实现了图像和文本向同一个特征空间映射的能力。 当进行图像识别时,我们将待识别的图像映射成一个特征向量。同时我们将所有的类别文本转换成一个句子,然后将这个句子映射成另外一 ...