计算机视觉

作者:张皓(南京大学)

引言
深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解,这使得初学者经常卡在一些概念的理解上,读论文似懂非懂,十分吃力。另一方面,即使有了简单易用的深度学习框架,如果对深度学习常见概念和基本思路不了解,面对现实任务时不知道如何设计、诊断、及调试网络,最终仍会束手无策。

本系列文章旨在直观系统地梳理深度学习各领域常见概念与基本思想,使读者对深度学习的重要概念与思想有一直观理解,做到“知其然,又知其所以然”,从而降低后续理解论文及实际应用的难度。本系列文章力图用简练的语言加以描述,避免数学公式和繁杂细节。本文是该系列文章中的第三篇,旨在介绍深度学习在计算机视觉的其他任务的应用。

网络压缩(network compression)
尽管深度神经网络取得了优异的性能,但巨大的计算和存储开销成为其部署在实际应用中的挑战。有研究表明,神经网络中的参数存在大量的冗余。因此,有许多工作致力于在保证准确率的同时降低网路复杂度。

2018中国计算机视觉应用市场研究

IDC近期发布《2018年中国计算机视觉应用市场研究(上)》报告。报告针对计算机视觉市场各个行业以及潜力巨大的应用场景深入分析用户需求、技术采用模式以及市场格局;并对未来不同行业应用的发展趋势做出预测。

根据IDC市场追踪数据,截至2017年12月底,中国计算机视觉应用市场规模达15.45亿元人民币,同比2016年增长184.0%。其中,政府、金融、互联网是计算机视觉技术支出规模最大的3个行业;政府行业中平安城市、金融行业中人脸身份验证是技术支出规模最大的2个场景。

主流厂商研究
计算机视觉应用市场的参与者既有明星算法型厂商如商汤、依图、旷视、云从科技、云天励飞、码隆科技、扩博智能、图谱科技、北京深醒科技,又有大型CSP厂商如腾讯云、百度云、阿里云、金山云、AWS,还有众多传统的安防厂商如海康、大华、易华录、以萨科技、华尊科技、智慧眼科技等等。单从市场表现数据来看,2017年计算机视觉“四小龙”(见下图所示)总体市场份额达 69.4%,其他厂商总体占市场30.6%的份额。

改变你对世界看法的五大计算机视觉技术

摘要: 本文主要介绍计算机视觉中主要的五大技术,分别为图像分类、目标检测、目标跟踪、语义分割以及物体分割。针对每项技术都给出了基本概念及相应的典型方法,简单通俗、适合阅读。

计算机视觉是当前最热门的研究之一,是一门多学科交叉的研究,涵盖计算机科学(图形学、算法、理论研究等)、数学(信息检索、机器学习)、工程(机器人、NLP等)、生物学(神经系统科学)和心理学(认知科学)。由于计算机视觉表示对视觉环境及背景的相对理解,很多科学家相信,这一领域的研究将为人工智能行业的发展奠定基础。

那么,什么是计算机视觉呢?下面是一些公认的定义:

1.从图像中清晰地、有意义地描述物理对象的结构(Ballard & Brown,1982);

目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经科学)和心理学(认知科学)等等。许多科学家认为,计算机视觉为人工智能的发展开拓了道路。

那么什么是计算机视觉呢? 这里给出了几个比较严谨的定义:

✦ “对图像中的客观对象构建明确而有意义的描述”(Ballard&Brown,1982)
✦ “从一个或多个数字图像中计算三维世界的特性”(Trucco&Verri,1998)
✦ “基于感知图像做出对客观对象和场景有用的决策”(Sockman&Shapiro,2001)

为什么要学习计算机视觉?
一个显而易见的答案就是,这个研究领域已经衍生出了一大批快速成长的、有实际作用的应用,例如:

  • 人脸识别: Snapchat 和 Facebook 使用人脸检测算法来识别人脸。
  • 图像检索:Google Images 使用基于内容的查询来搜索相关图片,算法分析查询图像中的内容并根据最佳匹配内容返回结果。
  • 游戏和控制:使用立体视觉较为成功的游戏应用产品是:微软 Kinect。
  • 预计2025年全球计算机视觉市场达到262亿美元

    根据Tractica的最新数据,计算机视觉市场正在快速发展。深度学习和卷积神经网络(CNN)利用大量的视觉推动基于人工智能(AI)的计算机视觉迅速改进。此外,计算机视觉应用于视频,正在扩大现实世界。Tractica预测,到2025年全球计算机视觉软件、硬件和服务收入将从2016年的11亿美元增长到262亿美元。

    根据Tractica的分析,2016-2025年计算机视觉最受欢迎的十大用例包括:

    1.视频监控

    2.机器/车辆物体检测/识别/避让

    3.医学图像分析

    4.增强现实(AR)/虚拟现实(VR)

    5.定位和制图

    6.将文书工作转换为数据

    7.人类情感分析

    8.广告插入图像和视频

    9.脸部识别

    10.房地产开发优化

    2017年中国计算机视觉行业研究报告

    2017年下半年,数家计算机视觉公司单笔融资上亿美元,再次将计算机视觉推向人工智能领域最受关注的方向之一。本报告聚焦于计算机视觉技术现阶段在工业界的应用与研发,将在对相关技术热点及产业整体做概述性介绍的基础上,对典型应用的具体使用场景分领域论述,希望理清现状,写明征途,供产业界、投资界、政策制定者及关注人工智能领域的社会各界以参考。因报告研究对象以技术层创业公司为主,偏颇遗漏之处,敬请指正。

    报告核心观点:
    1. 深度学习主要提升的是计算机视觉领域分类任务的准确率;开源环境仅降低计算机视觉领域的入门技术门槛,前沿算法的技术壁垒依然存在;计算机视觉比赛成绩、论文成果不直接代表技术团队解决实际业务问题的能力。
    2. 2017年中国计算机视觉规模预期为40亿,凭借安防领域的爆发性增长,预期2020年将增长至725亿。
    3. 前端嵌入式智能系统的渗透率将逐步提升,与后端协同智能计算,加速产业智能升级。
    4. 算法迭代将不断提升限定场景识别准确率,加速渗透为各行业应用赋能。
    5. 前沿算法之外,计算机视觉公司的商业壁垒有赖于产品、服务、市场等综合建设。

    据外媒报道,亚马逊网络服务(AWS)宣布了对其识别服务的一系列更新,为云客户提供基于机器学习的计算机视觉功能。系统现在将能够检测和识别图像中的文本,以便客户可以输入标志和文档,并将这些图像的内容进行进一步处理。

    这意味着识别服务可以被用于通过仅为处理文本数据而构建的系统,使得物理世界的图像更易于理解。

    客户也将能够在数百万张面孔的集合上进行实时人脸搜索。例如,Rekognition可用于验证一个人的图像,并与现有数据库中的另一个图像相匹配,数据库拥有多达数千万张图像,达到亚秒级延迟性能。

    这对执法机构特别有用,尤其是当客户想要将一个人的照片与已存档的图像相匹配时。除此之外,与之前的15张人脸限制相比,系统还可以在一张照片中检测多达100个不同的人脸。

    这些变化是AWS,Google,Microsoft,IBM和Salesforce等云提供商之间持续竞争的一部分。所有这些企业都试图通过为客户提供预先构建的系统来实现智能化结果,从而使机器学习革命更加便捷。

    此外,像Rekognition这样的系统可以帮助客户吸引到不同的云平台,带来更多的工作量,并长时间保持业务关系。

    文章来源::cnBeta.COM

    Python计算机视觉工具安装

    由于刚刚接触Python没多久,对于python软件安装较生疏,但近想学习利用Python处理计算视觉,故着手安装各种包,遇到一些,经过查询相关资料,最终解决了,故总结了此篇博客。

    PIL安装使用

    PIL(图像处理类库)提供了通用的图像处理功能,以及大量有用的基本图像操作,比如图像缩放、裁剪。、颜色转换等。它是免费的。下面是安装和使用PIL库的一些总结。

    1)安装PIL库,首先下载PIL-1.1.7.win32-py2.7.exe,然后点击安装即可。

    2)使用过程中,show()函数不能正常显示图片,修改方法如下:
    将 D:\setup\Python2.7.11\Lib\site-packages\PIL\ImageShow.py中的第99行代码(return “start /wait %s && del /f %s” % (file, file))修改为return “start /wait %s && PING 127.0.0.1 -n 5 > NUL && del /f %s” % (file, file) 即可。
    注意:一定要确定路径,该路径下不仅包括ImageShow.py还包括对应的ImageShow.pyc和ImageShow.pyo。

    Numpy安装使用

    七步带你认识计算机视觉(Computer Vision)

    计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成更适合人眼观察或进行仪器检测的图像。

    学习和运算能让机器能够更好的理解图片环境,并且建立具有真正智能的视觉系统。当下环境中存在着大量的图片和视频内容,这些内容亟需学者们理解并在其中找出模式,来揭示那些我们以前不曾注意过的细节。 计算机视觉的实现基本过程为:

  • 计算机从图片中生成数学模型
  • 计算机图形在模型中对图像进行绘制,然后在图像处理过程中将其作为输入,另外给出处理图像作为输出
  • 给深度学习入门者的Python快速教程基础篇

    作者:达闻西

    本章将介绍Python的最基本语法,以及一些和深度学习还有计算机视觉最相关的基本使用。

    Python简介
    Python是一门解释型的高级编程语言,特点是简单明确。Python作者是荷兰人Guido van Rossum,1982年他获得数学和计算机硕士学位后,在荷兰数学与计算科学研究所(Centrum Wiskunde & Informatica, CWI)谋了份差事。在CWI期间,Guido参与到了一门叫做ABC的语言开发工作中。ABC是一门教学语言,所以拥有简单,可读性好,语法更接近自然语言等特点。在那个C语言一统天下的年代,ABC就是一股简单的清流,毕竟是门教学语言,最后没有流行起来,不过这段经历影响了Guido。1989年的圣诞假期,闲得蛋疼的Guido决定设计一门简单易用的新语言,要介于C和Shell之间,同时吸取ABC语法中的优点。Guido用自己喜欢的一部喜剧电视剧来命名这门语言:《Monty Python‘s Flying Circus》。

    同步内容