比GPT还猛!FaceBook公布CV大模子后,研讨生曲呼要
比GPT还猛!FaceBook发布CV大模型后,研究生直呼要集体失业了
比GPT还猛!FaceBook发布CV大模型后,研究生直呼要集体失业了
不久前,Meta公司也就是之前的Facebook,发布了一款能够分割一切的第一个图像分割基础模型--Segment Anything Model(SAM)。
消息传开以后,CV行业炸锅了。
网友直呼CV不存在了,快跑!
CV也就是计算机视觉(Computer Vision)是一种人工智能领域的技术,旨在让计算机拥有类似于人类视觉感知和理解的能力。
它利用数字图像处理、模式识别、机器学习等方法,从图像或视频中提取出有用的信息,例如对象检测、识别、跟踪、姿态估计、三维重建等。
具体来说,计算机视觉可以应用于许多领域,例如医学影像分析、自动驾驶、安全监控、无人机航拍、人脸识别、游戏开发、虚拟现实和增强现实等。
在CV大模型出现之前,计算机视觉领域的图像分割任务通常使用传统的图像处理和机器学习方法来解决。这些方法主要包括以下两种
基于边缘检测的分割方法该方法基于边缘检测技术来提取图像中的边缘信息,并利用分割算法将边缘连接成为完整的区域。这种方法依赖于图像中的局部特征,如纹理、灰度等,容易受到噪声、光照等因素的影响。
基于区域生长的分割方法该方法从图像中选取一个或多个起始种子点,在此基础上通过一定规则不断扩展相邻区域,最终完成整幅图像的分割。
这种方法可以利用区域间的全局信息,但对于起始种子点的选择和规则的设计需要人工经验和调试。
这两种方法都非常耗费人力和时间,需要由领域内的专家进行高度专业化的工作,并且不能提供通用的全自动分割方法。
Meta发布的分割大模型解决了以上难题,作为第一个CV领域的通用大模型,SAM接受了大量多样化数据训练的可提示模型。能够完成各种任务,操作起来也非常简单方便。
SAM已经掌握了“什么是对象”这一概念,意味着就算是没有经过训练的图像或者视频,它也可以生成相对应的掩码。
那么SAM到底是怎么操作的?
官网演示中可以通过点提示、画框提示、全选、语音输入等方式来实现图像分割。
选择或者上传一张照片,如下图,选择了这张沙发的照片。
点击进去以后就是这个界面,左边的菜单栏可以选择不同的提示方式。
第一种方式,点提示,将鼠标移到画面中任何一个物体上就可以选中,还可以多次点选,添加更多的物品。
选择Box,也就是画框的形式,针对图像中任意物体画框就能选中直接进行分割。
选择Everything,全选画面,就会将整张图进行分割!
一种方式,文本输入,类似现在的ChatGPT输入方式,只需要用文字输入你的要求,就能自动识别。
这种方式在演示中没有,在官方实例中出现了,比如输入Cat,就能自动识别出图里的所有猫。
CV领域的分割大模型,是一种用于像素级别的图像分割任务的深度学习模型。简单来说,它可以将输入的图像分成若干个区域或像素,每个区域或像素代表一个不同的类别或对象。
通过分割大模型,我们可以在许多应用中实现更加准确和高效的图像分析和理解。例如,在医疗领域,分割模型可以帮助医生自动分析CT、MRI等影像数据,识别并定位肿瘤、血管、器官等重要结构。
在自动驾驶领域,分割模型可以帮助车辆识别行人、车辆、道路标志、车道线等关键信息,提高行驶安全性。
在遥感图像分析领域,分割模型可以帮助农业、林业等领域对土地、作物、森林等资源进行精细化管理和监测。
目前Meta已经开源了SAM大模型,并且共享了数据集。Meta公司希望能够让SAM被应用到更广泛的领域,成为AR、VR、内容创建和更加通用的Ai系统组件,推定相关领域的科技发展。
毫无疑问,CV大模型的时代已经到来,未来CV领域将会引发怎样的浪潮,时间会给我们答案。