3月10日,Google发布Gemini Embedding 2嵌入模型,原生支持文本、图片、视频、音频和PDF五种模态输入,并将其映射至同一向量空间。该模型基于Gemini基础架构,所有模态共享Transformer网络,在中间层即实现跨模态语义交互,区别于CLIP等依赖后期对齐的方案。模型默认输出3,072维向量,采用Matryoshka Representation Learning(MRL...
网页链接3月10日,Google发布Gemini Embedding 2嵌入模型,原生支持文本、图片、视频、音频和PDF五种模态输入,并将其映射至同一向量空间。该模型基于Gemini基础架构,所有模态共享Transformer网络,在中间层即实现跨模态语义交互,区别于CLIP等依赖后期对齐的方案。模型默认输出3,072维向量,采用Matryoshka Representation Learning(MRL...
网页链接
精彩评论