【发起收藏】八大开源计算机视觉项目分享

打印 上一主题 下一主题

主题 837|帖子 837|积分 2511

计算机视觉(Computer Vision,简称CV)是一种模仿人类视觉的科学,目标是让计算性可以或许感知、理解、分析、解释图像和视频数据。它在很多新兴范畴都发挥着关键作用,包括人脸识别、自动驾驶、无人机、医学影像分析等等。

本文将为您先容6个计算机视觉相干的开源项目,这些项目非常实用且功能强大,不但在CV技术方面具有重要意义,而且为计算机视觉应用的发展提供了有力的支持。

1、OpenCV
OpenCV的全称是Open Source Computer Vision Library,是一个功能强大的跨平台计算机视觉和呆板学习软件库,主要用于实时视觉应用。它提供了大量的图像和视频处理功能,包括特征检测、对象跟踪、活动分析、3D重建等等,是一个非常热门和基础的开源项目 。支持多种编程语言,比力热门的包括C++、Python、Objective-C、HTML等

它的特点:具有易用性、高效性、扩展性、跨平台兼容性、模块化设计

GitHub项目库所在:https://github.com/opencv
OpenCV网站:https://opencv.org

中文先容:https://blog.csdn.net/chenlycly/article/details/131352357


2、Detectron2(现在在GitHub上29.4K星)
detectron2是Facebook开源的深度学习的目标检测框架,建立在Detectron和maskrcnn-benchmark基础之上,可以进行目标检测、语义分割、全景分割,以及人体体姿骨干的识别。现在新增了Densepose、Cascade R-CNN、PointRend、DeepLab、ViTDet、MViTv2等新模型;
模型可以导出为TorchScript格式或Caffe2格式进行部署。

detectron2框架的设计有以下一些优点:
1、强大:提供了包括目标检测、实例分割、全景分割等非常广泛的视觉使命模型库。
2、灵活:可以通过注册机制自界说模块或模型结构,从而进行扩展和改进。
3、易用:通过list of dict格式界说自己的数据集, 简单好用。

GitHub项目所在:https://github.com/facebookresearch/detectron2
官方文档:detector2.readthedocs.io/en/latest/



3、YOLOv10(现在在GitHub上8.3k星)
YOLOv10是毫秒级实时端到端目标检测的开源模型。5月25日,由清华大学研究人员推出YOLOv10,被认为是计算机视觉范畴的突破性框架,它有用地将YOLO框架推End-to-End的推理范式。与 YOLOv9-C相比,在相同性能下,YOLOv10-B的延迟减少了46%,参数减少了25%。 



YOLOv10主要亮点:在效率和正确度方面有所突破,更值得注意的是它提出NMS-free练习的同等双分配策略来解决后处理中的冗余预测问题;

GitHub项目所在:https://github.com/THU-MIG/yolov10
论文所在:https://arxiv.org/pdf/2405.14458

4、MMDetection(现在在GitHub上28.6K星)
MMDetection是一个基于PyTorch的目标检测工具箱,包含了丰富的目标检测、实例分割、全景分割算法以及相干的组件和模块,也是OpenMMLab项目的一部门。MMDetection支持在Linux、Windows 和 macOS系统运行。官方发起需要Python 3.7+、CUDA 9.2+或PyTorch 1.8+。
MMDetection的主要特点包括:模块化设计、支持多种检测使命、高效


GitHub项目所在:https://github.com/open-mmlab/mmdetection
官方文档:GET STARTED — MMDetection 3.3.0 documentation

5、segment-anything(45.6K星)
segment-anything是由Meta提出的分割齐备模型,简称SAM模型,是一个提示型模型。可根据点或框等输入提示天生高质量的物体蒙版,并可用于为图像中的全部物体天生蒙版。可以自动分割和识别图像、视频和音频中的任何对象,无需深度学习专业知识,是一个非常实用的图像处理工具。现在该模型已在包含1100 万张图像和 11 亿个蒙版的数据集上进行了练习,并且在各种分割使命中具有强大的零样天性能。

GitHub项目所在:https://github.com/facebookresearch/segment-anything
论文所在:https://arxiv.org/abs/2304.02643
demo所在:https://segment-anything.com/demo

6、Track-Anything (6.3K星)
Track-Anything,简称TAM,是一款灵活交互式的视频对象跟踪和分割工具,只需用户点击即可指定要跟踪和分割的任意目标而不需要手工标注,它是在Segment anything(SAM)的基础上开发出来的。SAM是针对图像的分割齐备,而TAM是针对视频的分割齐备。实用于:随着镜头变化的视频对象跟踪和分割;视频对象跟踪和分割的可视化开发和数据注释;

以目标为中心的相干视频使命,比方视频修复和编辑。
特点:易用、灵活而且可以跨平台。

GitHub项目所在:https://github.com/gaomingqi/Track-Anything
论文所在:https://arxiv.org/abs/2304.11968
教程所在:
https://github.com/gaomingqi/Track-Anything/blob/master/doc/tutorials.md

BuluAI是一家创新型的算力服务商,算力使用灵活,可为开发者提供强大计算资源和全面支持。帮助BuluAI的使用者可以或许更专注于计算机视觉技术的研究和优化,推动该范畴的发展。产品预计9月份正式公测上线,敬请期待!



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

盛世宏图

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表