小扎亲自官宣Meta视觉大模型！多任务效果超OpenCLIP丨开源-华西制冷网

无需文字标签，完全自监督的Meta视觉大模型来了！

(资料图片)

小扎亲自官宣，发布即收获大量关注度——

在语义分割、实例分割、深度估计和图像检索等任务中，这个名叫DINOv2的视觉大模型均取得了非常不错的效果。

甚至有超过当前最好的开源视觉模型OpenCLIP之势。

虽然此前Meta就发布过自监督学习视觉大模型DINO，不过这次AI识别图像特征的能力显然更进一步，准确分割出了视频中的主体：

可别以为DINOv2通过自监督学会的只有图片分割。事实上，它已经能根据不同类别、不同场景下的照片，准确识别出同种物体（狗）的头部、身体和四肢长在哪：

换而言之，DINOv2自己学会了找图像特征。

目前Meta官方不仅已经放出了开源代码，而且还给了网页版Demo试玩。有网友内涵：

一起来看看，DINOv2的效果究竟如何。

准确识别不同画风的同种物体

事实上，DINOv2是基于上一代DINOv1打造的视觉大模型。

这个模型参数量是10亿级，也仍然是视觉Transformer架构（ViT），但与DINO不太一样的是，这次DINOv2在数据集上经过了精心挑选。

具体来说，DINOv2构建了一个数据筛选pipeline，将内容相似的图片精心筛选出来，同时排除掉相同的图片：

最终呈现给DINOv2的训练数据图片虽然没有文字标签，但这些图片的特征确实是相似的。

采用这类数据训练出来的视觉模型，效果如何？

这是DINOv2在8个视觉任务上的表现，包括语义分割、分类、深度估计等，其中橙色是自监督方法的效果，深粉色是弱监督方法的效果。

可以看见，经过自监督学习的视觉模型，表现上已经与经过弱监督学习的模型性能相当。

实际效果也不错，即便在一系列照片中，相同物体的画风并不相似，DINOv2也能准确识别它们的特征，并分到相似的列表中。

如（a）组中都具有翅膀的鸟和飞机、（b）组中的大象和大象雕塑、（c）组中的汽车和汽车玩具模型、（d）组中的马和涂鸦版马：

而且从PCA（主成分分析）图像效果来看，DINOv2不仅能准确分类，还能用不同颜色标出它们“相同”的部分，例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

换而言之，DINOv2能理解这些图像中的相似之处，就像人会形容飞机“看起来像一只鸟”一样。

目前DINOv2已经放出Demo，我们也试了试它的实际效果。

Demo直接可玩

官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

据Meta介绍，这几个任务中，DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。

我们先来看看深度估计的效果。

值得一提的是，在效果更好的情况下，DINOv2运行的速度也比iBOT更快，相同硬件下只需三分之一的内存，运行速度就能比DINOv2快上2倍多。

这是Meta论文中与OpenCLIP在实际例子上的比较效果：

我们用这张猛男版新宝岛试一下，看起来还不错，即使是高糊图片也能比较好地估计出深度：

接下来是语义分割的效果，这里也先给出Meta论文中的数据对比情况：

这里也给出OpenCLIP和DINOv2的对比，中间的图片是OpenCLIP的效果，右边是DINOv2分割的效果：

我们也用一张办公室的图片试了一下，看起来DINOv2还是能比较准确地分割人体、物体的，但在细节上会有一些噪点：

最后是图片检索。

官网上给出的图片效果还是挺不错的，输入铁塔照片，可以生成不少含铁塔的相似艺术图片：

这里我们也试了试，输入一张华强买瓜，给出来的艺术图片大多数与西瓜有关：

那么，这样的自监督视觉大模型可以用在哪里？

从Meta给出的视频来看，目前有一些比较环保的用途，例如用于估计全球各地的树木高度：

除此之外，如同扎克伯格所说，DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调：

嗯，看来Meta的元宇宙路线还将继续……

试玩Demo地址：https://dinov2.metademolab.com/demos

项目地址：https://github.com/facebookresearch/dinov2

参考链接：https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

小扎亲自官宣Meta视觉大模型！多任务效果超OpenCLIP丨开源

三维化学（002469）2022年年报简析：净利润减27.48%

全国肿瘤防治宣传周丨告别“化疗时代”，这种治疗方式已成为强有力的“肝癌克星”之一

河南省第二届职业技能大赛如何观看？既能现场观赛也能线上“围观”|全球最新

当前动态:《光遇》2023年4月18日每日任务攻略介绍

黄淮学院新增3个本科专业

当前动态:完美世界：4月17日融券净卖出37.18万股，连续3日累计净卖出60.54万股

环球要闻：考老师需要什么文凭（考老师需要什么条件）

【世界新要闻】迎大运金牛师生家长接力共摹“梦想”成都

规避利率风险再添新工具天天资讯

唐朝英雄排名表_唐朝英雄排名

战舰世界更新维护信息：12.3版

【当前热闻】维也纳酒店以优质盈利能力赢得投资者青睐

兄弟2550加粉清零_兄弟打印机加粉清零

环球观焦点：马东锡《犯罪都市3》首曝预告上来就是一大比兜

环球实时：海南2023年初级会计准考证打印时间：4月28日至5月13日

全球即时看！等不到你的雪月风花是什么歌等不到你的雪月风花是什么歌词

当前通讯！数智化管理水平提升爱立信南京5G智能工厂深化绿色运营

每日热门：国光电器：国际贸易环境的剧烈变化会对公司的出口业务产生一定的负面影响，可能使公司面临成本增加、订单减少的压力，导致公司出口业务规模下降、出口产品毛利降低

共创美好纯电生活一汽丰田bZ3正式上市

小扎亲自官宣Meta视觉大模型！多任务效果超OpenCLIP丨开源

三维化学（002469）2022年年报简析：净利润减27.48%

全国肿瘤防治宣传周丨告别“化疗时代”，这种治疗方式已成为强有力的“肝癌克星”之一

河南省第二届职业技能大赛如何观看？既能现场观赛也能线上“围观”|全球最新

当前动态:《光遇》2023年4月18日每日任务攻略介绍

黄淮学院新增3个本科专业

当前动态:完美世界：4月17日融券净卖出37.18万股，连续3日累计净卖出60.54万股

小扎亲自官宣Meta视觉大模型！多任务效果超OpenCLIP丨开源

三维化学（002469）2022年年报简析：净利润减27.48%

全国肿瘤防治宣传周丨告别“化疗时代”，这种治疗方式已成为强有力的“肝癌克星”之一

河南省第二届职业技能大赛如何观看？既能现场观赛也能线上“围观”|全球最新

当前动态:《光遇》2023年4月18日每日任务攻略介绍

黄淮学院新增3个本科专业

当前动态:完美世界：4月17日融券净卖出37.18万股，连续3日累计净卖出60.54万股

环球要闻：考老师需要什么文凭（考老师需要什么条件）

【世界新要闻】迎大运 金牛师生家长接力共摹“梦想”成都

规避利率风险再添新工具 天天资讯

唐朝英雄排名表_唐朝英雄排名

战舰世界更新维护信息：12.3版

【当前热闻】维也纳酒店 以优质盈利能力赢得投资者青睐

兄弟2550加粉清零_兄弟打印机加粉清零

环球观焦点：马东锡《犯罪都市3》首曝预告 上来就是一大比兜

环球实时：海南2023年初级会计准考证打印时间：4月28日至5月13日

全球即时看！等不到你的雪月风花是什么歌 等不到你的雪月风花是什么歌词

当前通讯！数智化管理水平提升 爱立信南京5G智能工厂深化绿色运营

每日热门：国光电器：国际贸易环境的剧烈变化会对公司的出口业务产生一定的负面影响，可能使公司面临成本增加、订单减少的压力，导致公司出口业务规模下降、出口产品毛利降低

共创美好纯电生活 一汽丰田bZ3正式上市

小扎亲自官宣Meta视觉大模型！多任务效果超OpenCLIP丨开源

三维化学（002469）2022年年报简析：净利润减27.48%

全国肿瘤防治宣传周丨告别“化疗时代”，这种治疗方式已成为强有力的“肝癌克星”之一

河南省第二届职业技能大赛如何观看？既能现场观赛也能线上“围观”|全球最新

当前动态:《光遇》2023年4月18日每日任务攻略介绍

黄淮学院新增3个本科专业

当前动态:完美世界：4月17日融券净卖出37.18万股，连续3日累计净卖出60.54万股

【世界新要闻】迎大运金牛师生家长接力共摹“梦想”成都

规避利率风险再添新工具天天资讯

【当前热闻】维也纳酒店以优质盈利能力赢得投资者青睐

环球观焦点：马东锡《犯罪都市3》首曝预告上来就是一大比兜

全球即时看！等不到你的雪月风花是什么歌等不到你的雪月风花是什么歌词

当前通讯！数智化管理水平提升爱立信南京5G智能工厂深化绿色运营

共创美好纯电生活一汽丰田bZ3正式上市