滚动新闻

小扎亲自官宣Meta视觉大模型可以准确识别不同画风的同种物体

2023-04-18 14:41:16 来源：IT之家

　　无需文字标签，完全自监督的 Meta 视觉大模型来了!

　　小扎亲自官宣，发布即收获大量关注度 ——

　　在语义分割、实例分割、深度估计和图像检索等任务中，这个名叫 DINOv2 的视觉大模型均取得了非常不错的效果。

　　

　　甚至有超过当前最好的开源视觉模型 OpenCLIP 之势。

　　虽然此前 Meta 就发布过自监督学习视觉大模型 DINO，不过这次 AI 识别图像特征的能力显然更进一步，准确分割出了视频中的主体：

　　

　　可别以为 DINOv2 通过自监督学会的只有图片分割。事实上，它已经能根据不同类别、不同场景下的照片，准确识别出同种物体(狗)的头部、身体和四肢长在哪：

　　

　　换而言之，DINOv2 自己学会了找图像特征。

　　目前 Meta 官方不仅已经放出了开源代码，而且还给了网页版 Demo 试玩。有网友内涵：

　　什么叫开源，LLaMA，SAM，DINOv2 这才叫开源!

　　

　　一起来看看，DINOv2 的效果究竟如何。

　　准确识别不同画风的同种物体

　　事实上，DINOv2 是基于上一代 DINOv1 打造的视觉大模型。

　　这个模型参数量是 10 亿级，也仍然是视觉 Transformer 架构(ViT)，但与 DINO 不太一样的是，这次 DINOv2 在数据集上经过了精心挑选。

　　具体来说，DINOv2 构建了一个数据筛选 pipeline，将内容相似的图片精心筛选出来，同时排除掉相同的图片：

　　

　　最终呈现给 DINOv2 的训练数据图片虽然没有文字标签，但这些图片的特征确实是相似的。

　　采用这类数据训练出来的视觉模型，效果如何?

　　这是 DINOv2 在 8 个视觉任务上的表现，包括语义分割、分类、深度估计等，其中橙色是自监督方法的效果，深粉色是弱监督方法的效果。

　　可以看见，经过自监督学习的视觉模型，表现上已经与经过弱监督学习的模型性能相当。

　　

　　实际效果也不错，即便在一系列照片中，相同物体的画风并不相似，DINOv2 也能准确识别它们的特征，并分到相似的列表中。

　　如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马：

　　

　　而且从 PCA(主成分分析)图像效果来看，DINOv2 不仅能准确分类，还能用不同颜色标出它们“相同”的部分，例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

　　换而言之，DINOv2 能理解这些图像中的相似之处，就像人会形容飞机“看起来像一只鸟”一样。

　　目前 DINOv2 已经放出 Demo，我们也试了试它的实际效果。

　　Demo 直接可玩

　　官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

　　据 Meta 介绍，这几个任务中，DINOv2 在大多数基准上超过了目前开源视觉模型中表现最好的 OpenCLIP。

　　我们先来看看深度估计的效果。

　　

　　值得一提的是，在效果更好的情况下，DINOv2 运行的速度也比 iBOT 更快，相同硬件下只需三分之一的内存，运行速度就能比 DINOv2 快上 2 倍多。

　　

　　这是 Meta 论文中与 OpenCLIP 在实际例子上的比较效果：

　　

　　我们用这张猛男版新宝岛试一下，看起来还不错，即使是高糊图片也能比较好地估计出深度：

　　

　　接下来是语义分割的效果，这里也先给出 Meta 论文中的数据对比情况：

　　

　　这里也给出 OpenCLIP 和 DINOv2 的对比，中间的图片是 OpenCLIP 的效果，右边是 DINOv2 分割的效果：

　　

　　我们也用一张办公室的图片试了一下，看起来 DINOv2 还是能比较准确地分割人体、物体的，但在细节上会有一些噪点：

　　

　　最后是图片检索。

　　官网上给出的图片效果还是挺不错的，输入铁塔照片，可以生成不少含铁塔的相似艺术图片：

　　

　　这里我们也试了试，输入一张华强买瓜，给出来的艺术图片大多数与西瓜有关：

　　

　　那么，这样的自监督视觉大模型可以用在哪里?

　　从 Meta 给出的视频来看，目前有一些比较环保的用途，例如用于估计全球各地的树木高度：

　　

　　除此之外，如同扎克伯格所说，DINOv2 还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调：

　　可以被用于制作更具沉浸感的元宇宙。

　　嗯，看来 Meta 的元宇宙路线还将继续……

Copyright © 2020 中华侨讯网 All rights reserved.