刘晟:让开发者尖叫的微软认知服务究竟为何物
对于微软在人工智能行业的布局和发展,可能大家听得最多的就是Cortana(小娜)和微软小冰了。一个小娜,一个小冰,微软取名倒是够随意。
甚而网络上曾有一个段子流传,讲的就是微软、Coogle和苹果这三家科技巨头公司在语音人机交互战略上的对比,如下↓:
看完简直让人忍俊不禁。
然而,Cortana和微软小冰都运用了微软认知服务中的API应用,对于这点可能知道的小伙伴并不多。
微软认知服务到目前为止已发布了25种API,涵盖视觉、语音、语言、知识、搜索5大块,每个版块都有好几种API,开发者仅用几行代码就可以借助强大的算法开发出应用程序。
目前,微软认知服务已登录Azure平台,并已开通了试用通道。考虑到一些小伙伴可能对于微软认知服务还并不那么了解,为此我们邀请到了微软物联网设备与云服务部门生态系统的渠道总监——刘晟,给大家做了一期分享。Steven详细介绍了微软认知服务究竟是一项怎样的智能服务,它下面的计算机视觉API都能给开发者带来哪些便利,以及一些哪些成功案例。
以下是分享实录↓
一、机器智能与人工智能的区别
刘晟:大家最近听到比较火的两个词,一个是人工智能,一个是机器智能。上个世纪50年代,IBM公司就提出了“人工智能”的概念,时间很久,但机器智能,听的人就少一些了。
但从我个人的理解来看,对智能有两个不同方向的理解。不管是人工智能,还是机器智能,人在赋予机器智能的时候,大概要分几个阶段。
第一阶段,如何让机器或者机器人能够感知到外面的世界,或者传递给他信息。
第二阶段,机器人如何能够理解他的信息。
第三阶段,才能提到智能。
二、认知能力是机器拥有人工智能的起点
上图中,一个叫Cortana,一个是微软的小冰。我相信Cortana名气更大一些,因为它最初出现在手机上面,是在Windows8那会儿,Cortana也还出现在其他的设备平台,尤其在Windows10 。Cortana,我们定义为是一个个人的数字助理。而微软小冰是微软中国研究院做出来的人工智能机器人。
我不知道大家有没有用过小冰和小娜,可能大家用了之后就会发现,Cortana并不是娱乐、聊天、玩游戏用的,它更多的是做一个数字助理。微软小冰之前最初出现是以文字的形式跟大家交流、聊天,后来也赋予了其他的一些功能,包括语音。
目前,不管是小冰还是小娜都可以帮助大家处理一些日常工作。比如,询问天气、问是否会唱歌等。但实际上在一些行业应用里,已经开始借助小冰或者小娜了。
以前各个公司的Hotline(热线电话),比如联通的10010,实际上后台的语音或者微信,我们跟这些微信公众号聊天的时候,后台已经不是人而是具有一定人工智能的聊天机器人。
人工智能已经有很多公司在做,而微软的人工智能实际上也包含了很多内容。
简单说一下人工智能的背景,去年2016年很多人说是人工智能的元年,但在业界里说,有人说去年已经是人类第四次工业革命的元年。为什么有这样一个说法呢?因为第四次工业革命也称为数字化革命。它的基本条件有三个:
第一:大数据。
第二:云计算。
第三:人工智能。
从第一点大数据来看,有人说从去年开始,每一年每一个企业或者每一个个人,产生的数据量每12个月都要翻一番。第二就是云计算,这个分布式的计算,可以将计算能力几乎扩展到无限。最后一个就是人工智能。
微软在人工智能都做了哪些工作呢?现在主要分为这么几大块。
之前提到的小娜、小冰,都是大家能够接触到的产品。可能由于微软给大家的刻板印象,是比较“软”性服务,一些产品无实体,而让用户很难有实感。但实际上微软包含的内容和科技是非常多的。特别在三年前,微软新CEO萨蒂亚·纳德拉(Satya Nadella)上台之后,对整个业务进行了一次比较大的转型,云服务、人工智能成为我们最新、最重要的方向。微软人工智能除了刚才那几种大家能接触的产品,还有一部分就是微软的认知服务。
三、微软认知服务API概况
微软人知服务,实际上源于微软研究院之前的内部项目——牛津计划,目标就是研究人工智能领域的一些技术。
微软认知服务包含五个大的类别,包括视觉、语音、语言、知识和搜索。如果我们要做一个机器人,先让机器人具备一些听说读写,还有知识储备的能力。这个就是刚才我说的人工智能的三个阶段,第一你要让它去感知,能够接受到外界的信息;第二就能让它理解;第三去产生人工智能。而微软认知服务则主要解决前两个大问题。
微软认知服务现在已经有25个相关API面世了,大家可登陆以下这个链接(https://www.microsoft.com/cognitive-services/zh-cn/) 进行体验。
举个例子,比如说从微软认知服务的视觉板块来看,里面包括计算机视觉、情绪识别、人脸识别、视频监测、内容的监控服务等等,这样的类似API,就可以解决相关一类认知问题。如果想做一个机器人,想解决一些计算机视觉上的问题,再不用自己再去写算法,而只需要一个简单的API调用就可以完成应用开发。
微软认知服务作为Azure中国云平台的重要组成部分,将给大家提供人工智能的服务。因为25个API今天不可能跟大家一个一个详细介绍,故选择了计算机视觉API为重点给大家介绍。这25个微软认知服务API,实际上都是基于微软的云平台——Azure。现在全世界有三大云平台,微软的Azure、Google和亚马逊。而中国的阿里云则是一个后起之秀,从规模上来讲,直逼排名第三的谷歌。
1.计算机视觉API:分析图像;识别名人
计算机视觉API,简而言之,它能对机器人或者机器捕捉到的图象或者照片,进行认知。它不光能够识别出照片里的物品和种类,标明坐标值、位置等等的精确度也可以识别得非常高。具体可看下面这张图片↓:
案例一:计算机视觉API:分析图像
这个照片里边,有天空、有建筑,有狗,还有草地等。目前这项API能对几千种物体进行识别和打标签。另外,这项API还能对视频进行认知,这个非常有趣。因为所有的认知服务都是基于云服务的,所以目标定位场景不一定是一个非常实时的一个场景。
案例二:计算机视觉API:名人识别
识别名人也是一个非常有趣的API。现在在全球的商界、体育界、文娱界,大概有六十多万的人脸库。只要你的图片里边有这些人的脸出现,用这个API就可以识别出来。
案例三:微软识花App
另外,微软还开发了一个app叫微软识花。目前在App Store上可以下载,这是一款我们和中科院植物所合作的一款App,利用这款App,可以轻松识别各种花种。
2.人脸识别API:人脸验证
除了识别名人之外,还有一个API,叫人脸识别。通过对人脸的特征识别、验证,不光能够识别出这个人脸的特征,还会返回很多值,大家具体可从上图来观察。这个人的情绪怎样,他有没有胡子,戴的什么眼镜,都可以识别出来。当然还可以识别出这是一个真的照片,还是个黑白照片,还是个剪贴画,这都不一样。
开发者调用API之后,都会返回一系列的特征值。特征值分了90大类,每一类的特征值都有层级,它会对整个人脸和照片,进行分析。微软在国际上还推出了一个鉴黄应用API,能检测出这里边是否含有成人内容,不雅照等都会标注出来。以后是否会自动打上马赛克,这个就暂时不太清楚了。
我借用了去年一个名人,大家可以看到她这么丰富的表情,人脸识别API都能将她的情绪识别的非常准确。
3.情绪识别API:人脸验证
识别完人脸,还有一个很有意思的API——情绪识别API。情绪识别API被微软定义了八种情绪,比如笑、伤心、难过、惊讶、害怕、生气、厌恶等等,只要你把相关的视频或者照片上传,调用情绪识别API就可以看到返回值。
接下来的我将给大家分享一些案例。
案例一:人脸识别API增强Uber平台安全
大家看到以上这个图片,在美国优步司机开网约车需要验证,验证之后怎么能够知道现在在开车的这个司机跟验证时机是一个人呢?优步就运用了微软这个人脸识别API,来解决这一问题。
案例二:宝贝回家
目前在中国有很多走失或者被人拐卖的儿童,这是一个很大的社会问题,微软应用微软认知服务的人脸识别API,已经帮助了好些问题。中国有一个志愿者协会,叫“宝贝回家”,微软通过跟公安部、“宝贝回家”志愿者协会合作,运用人脸识别API,已经有1004人通过宝贝回家找到了自己的亲人。
微软在“宝贝回家”计划中运用的人脸识别技术,大概每一两秒就可以在照片库中的几万张照片进行匹配,可以对每一张照片的面部、重要特征或者几十个特征点进行识别。
案例三:视力障碍人的光明
去年我还见到了这个视频中的主人公,他在微软一个全球大会上展示了这个技术。这个技术不仅造福了正常人,对视力残障人士也是一个很好的利好应用。目前在英国、中国,都已经有企业在利用微软认知服务来做一些产品,包括眼镜、导游机等。利用微软认知服务的导游机,可以在城市里,更自然地跟人进行交互。视频中的这个预演项目,不仅用到了计算机视觉API,还包括video和图像识别、语言识别、自然语言处理,还有后台机器学习、Cortana相关的技术等,所以这是一个综合案例。
(有兴趣的小伙伴通过以上图片的两个链接就能体验到微软认知服务的各项API:
Azure云平台中国:https://www.azure.cn/
微软认知服务官网:https://www.microsoft.com/cognitive-services/zh-cn/)
四、人工智能的目的是什么?它将走向何方?
最后一个小小的话题来结束今天我跟大家的分享。这个配图出自麻省理工学院的一篇论文,我觉得很有意思,就是人创造了机器,再借助机器创造了机器人,最后机器人一脚把人踢开了。
我曾就这个问题问了还在读高中的小朋友,他的IT水平仅限于敲敲文档和打打游戏,他的回答是:好多人都在说,人工智能总有一天会超过人类,但他不这么认为,人工智能永远不会超过人类,因为他是人工智能。
其实说实话,我也不知道以后人工智能会不会超过人类,但可以肯定的一点是,微软的人工智能在这方面,目标从来不是在游戏或者比赛里去打败人类,而是在人类的日常工作和生活中,提高他们的效率和水平。
【主题分享完】
以下是部分精彩问答环节的整理:
Q:现在有用到微软认知服务的机器人企业有哪些?老师方便分享一个案例吗?国内国外都可以。
刘晟:实际上这个机器人如果按照广义的概念来讲它可以是任何形式的机器人,这个面就很宽了,如果只是单纯限定在机器人这一块,我可以举一两个国内的例子,但不太方便提这个国内厂商的名字,他们在做一些在银行或商场里做引导工作的机器人,他们正在用到微软的认知服务。
微软在语音翻译方面做了很多年的工作。两年多以前在美国开会,我就已经在实际场合里感受过微软的实时翻译功能,在这里可以和大家分享一个视频。
这个视频里边,它的软件是微软的Skype软件,大家可以在PC或者手机上下载它来玩玩,但是我觉得更有代表性的还是translator,实用性更大一些。
Q:微软有应用到工业的视觉么?
刘晟:这个就太多了,因为工业机器人本来就是微软的强项,那德国的Kuka,他们的机器人都已经在应用微软的机器视觉或者认知服务这一块,但是还没有大规模地铺开。因为这一块还比较新,所以大家也都在成熟化的过程中。
Q:微软认知服务登录Azure中国,之后追随着会有哪些计划?对开发者或爱好者会开放相关福利吗?
刘晟:现在全球25个认知服务的API,目前在中国正式上线的只有三个。关于视觉的API,接下来我们也会陆续把已经在海外的API,移到中国这边来。对开发者和爱好者开放相关福利这方面,因为微软一直在做普及运算,所以跟其他公司不太一样,大家可能平时感觉不到微软,但是微软就像空气一样无处不在。所以我相信微软对于爱好者、开发者的福利会越来越多。
Q:有Win10 IOT的板子支持快速连接微软认知服务吗?
刘晟:Win10 IOT的版本实际上有三个。
一个是Win10 IOT的Entre-Price,这个就跟电脑上用的Win10是一样的,所以这个平台跨得比较多。
另一个平台是Win10 Mobile,这个是基于ARM平台, 可以理解为它是把Windows Mobile的缝的这部分移植到IOT的领域来了,它是基于ARM架构的。
最后一个平台叫Win10的IOT Core,这个平台它也是跨平台的,像X86,ARM等有些平台都可以用,包括Intel的一些板子都有现成的,装上去就可以去用了。
而且微软认知服务,它是架在微软Azure云平台上的,只要你的设备能连接到微软的Azure上去,就能够使用微软这一智能服务了。