别自嗨了看看中美人工智能差距有多大
文/周超臣
人工智能不能“举国体制”。
这是我在3月20日听完长江商学院发布《2018中国人工智能指数》之后最大的收获和感触。
这份报告从学术、人才、产业、开源/平台及公共认知和媒体报道五个领域对评估了中美在人工智能领域的发展现状及差距,它综合了斯坦福指数、牛津指数、麦肯锡报告、领英以及国内的、华为、清华的报告等。
中国的牛津指数得分是17分,美国得分33分,这意味着美国在人工智能潜力上几乎是中国的2倍。
引人瞩目的是在学术期刊及专业会议发表论文方面,总数上中国呈现快速接近美国的趋势,在2016之后这一趋势尤其明显。
蓝色曲线代表中国
黄色曲线代表中国
而中国的中、低引用率(0引用)的论文的发表总数在最近几年逐渐接近美国的总数,但在最具原创性、最具影响力的极高引用率(被引用1000次以上)和高引用率(被引用100次以上)的论文方面,中国与美国的差距巨大。
具体到领域,在机器学习、文本分析和nlp、计算机图像与视频分析、虚拟代理及群体智能等领域,中国的论文发表总数和被引用总数在最近几年里大幅度缩小了与美国的差距。但是在深度学习、机器人流程自动化、以及包括推理学习等在内的其他领域,从发表总数和引用率方面,中国与美国的差距仍然显著。
至于中国在人工智能领域零引用论文数量比美国突出、而高引用论文数量又少得可怜的原因,长江商学院经济学教授、人工智能与制度研究中心主任许成钢分析认为主要有两个:
第一,中国这些论文讨论的问题是在比较狭窄范围里的应用问题,由于应用的范围非常狭窄,所以超出了他的范围之外别人就没有兴趣了,因为都是应用型的,所以也就没有人引用了。
第二,中国的激励机制的原因,在学校里面是要数数的,数你在国际期刊上发了多少篇。“当你的评价体制高度偏重于数数字的时候,就会引导着他们追求数字大,而不是追求质量高。这两个中间是有矛盾的,因为你要为了质量高,你可能就要慢下来,你要是为了数字高,你可能把一篇论文拆成三篇,拆了以后每一篇就都不重要了,合成一篇可能就是一篇很重要的文章。”
长江商学院经济学教授、人工智能与制度研究中心主任许成钢
许成钢在接受虎嗅采访时强调,无论是国际期刊还是国际会议,都是经过同行评议的,也就是说,能在国际期刊上发表的论文,其基本质量是有保证的。
武汉大学大数据与云计算实验室主任崔晓晖与许成钢的观点不谋而合:“我们在中国体制内大学,大家可能应该知道有一个sci现象(scientific citation index,《科学引文索引》),也就是你的水平高和低,或者你从讲师评到副教授或者是教授,人事处就数这个教授发了多少篇sci文章,从来不管你这篇文章到底有多大的影响力。这就是sci现象。”
除了学术领域,在人工智能人才方面中美的对比也非常有趣,据领英人才数据库统计,中国的ai人才总数为5万,而美国的ai人才总数为83万。具体到工作年限和分布领域的话――
工作年限。在中国,工作10年以下人工智能领域的人在各个年限都超过美国同行,而美国则在工作10年以上的人才方面远超中国,美国超过71.5%的人工智能领域的人工作了10年以上,而中国这一比例为38.7%。
分布领域。在人工智能的基本算法、芯片、传感器等方面中国都落后于世界上多数的发达国家,尤其美国。
除了上面说的,报告还对其他领域进行了总结,如下:
在产业领域,中国的活跃的人工智能初创公司整体上呈快速发展趋势,2016年超过400家,达到顶峰。中国活跃的人工智能初创公司数字在2012年之前多于美国,但是在2012年以后美国超过中国,而且在2016年之后,美国快速上升,在2018超过600家,而中国则在2016之后下降,在2018降至不到200家。
在人工智能的学术人才方面,除了有特大影响的人才外,中国发表有影响(即被引用的)论文的作者人数与美国之间的差距持续缩小。发表没有被引用的论文的作者人数,最近几年大幅增加,超过美国。但特大影响(特高引用率)作者的人数显著少于美国。
开源软件包,作为度量人工智能研发程度的指标。中国在最近三年里,关注人工智能开源软件包的总数迅速上升,并在2017年秋超过了美国。但是,几乎93%的中国研究者使用的人工智能开源软件包,是美国的机构开发提供的。中美两国人工智能研究者使用最多的软件包是google开发的tensorflow。在2018年初,中美研究人员对此的关注人数,分别达到将近9000和约7000。
公共认知和媒体报道方面,在2014年之前,中国媒体对人工智能的正面报道略多于负面,差距不大。此后,负面报道持续下降,正面报道逐年增加,全面压倒负面报道。相比之下,全球英语世界的报道,多数属于没有正负之分的中性。在2013到201年之间,正负报道之间的差距曾经大幅度缩小。在2016之后,正面报道大幅度提高,而负面报道则没有显著变化。 这个趋势与2016年之后美国人工智能投资初创企业的快速增长高度相关。
武汉大学大数据与云计算实验室主任崔晓晖教授
崔晓晖教授在接受虎嗅采访时表示,在基础人才培养方面不应该在大学里专门设一个人工智能相关的学科或学院:“人工智能是一个高度交叉的学科,应该把人工智能做成一个通识课,分布在各个专业里,从小学、中学乃至大学都应该让学生去学一点。”
他说,学科建设更多的是高端人工智能人才的培养:“在这方面更多的是基础理论,这就需要一个学科,在资源获取上更容易一些,因为中国在资源分配方面是按照学科给你分配的。这也就是为什么很多体制内大学的教授一直强调要建一个学科,其实是为了更好的获取资源。”
《科技日报》总编辑刘亚东则建议,中国在搞重大的国家科学发展规划的时候,应该更多地发挥市场功能,调动企业特别是企业家参与的热情,这个事情政府是不能取代的。
“如果给我们国家的人工智能国家计划提建议的话,就是政府的作用、角色要发生转换,要从领导变成引导,从定规划变成定规则,得完成这样一个角色的转换,这样的话人工智能产业才能够健康发展。”刘亚东说。
一句话总结,就是搞人工智能不能搞“举国体制”。
崔晓晖表示,任何的创新都是不可能预知和不可规划的,更多的是在一些随机事件中所产生的,“甚至有一些创新刚出来我们本身并不知道它有很大影响或者是很大的创新。”
如何避免“举国体制”呢?许成钢对虎嗅表示,问题在于资源如何配置,尤其在一个快速发展的、新的、高度不确定性的领域:“基础科学的资源应该是由本行的专家来决定配置,应用性的工作资源由风险投资来决定,风险投资是政府没有办法做的。”
也就是说,应避免把大量的社会资源调动起来、人为地朝某些地方投入,因为你投入最大的那个领域,最大的可能是失败。
政府主导的风险投资和私人基金主导的风险投资的根本区别在于,前者更关心的是你申请了多少个专利,而不在乎你的死活,因为它不会让你死,而后者则相反,它要求企业的第一要务是活下去。
“你把目的放到了专利上,你就引导了他们生产大量没有用的专利,那么这样子的企业,它就不可能在激烈的技术发展和竞争的过程中脱颖而出。”许成钢解释说。
在他看来,只要你不是真正创新创出来能制造价值的,你在市场上就要死,这是市场机制里的最基本部分,因为优胜劣汰的基本机制,靠的就是多数的企业要死。
许成钢教授补充说:“在过去超过半个世纪的所有的创新,最大的创新的工作都产生于小企业,这也是一个基本规律。”
上面提到,美国在基础科学领域做得远远比中国好,中国则更多的是在应用层。从去年或更早些时候开始,中国的企业才开始意识到要往基础科学方面下沉和侧重,比如成立达摩院,马化腾呼吁关注基础科学,都是这样的例子。
中国在基础科学上和美国等发达国家的差距,许成钢认为,有两个方面的原因,一个是历史上积累的,从来差距就很大;第二就是直接跟这个制度尤其是大学制度有关,在美国等发达国家的大学制度里,讲究的是教授治校自由。
许成钢跟虎嗅分析道:“创造性的工作是很难靠评价体系引导出来的,它更多的是靠人的想象力,而想象力很难通过评价体系引导出来。”
忠言逆耳,希望有关部门能明白。