<em id="s044j"></em>
<em id="s044j"><ol id="s044j"></ol></em>
    1. <em id="s044j"></em>

      1. <div id="s044j"><ol id="s044j"></ol></div><div id="s044j"></div>

          1. <em id="s044j"></em>
            <em id="s044j"></em>

            <div id="s044j"><tr id="s044j"><object id="s044j"></object></tr></div>

                1. <div id="s044j"></div>

                  1. <dd id="s044j"><legend id="s044j"></legend></dd>
                      1. <dd id="s044j"></dd>

                      2. <div id="s044j"><tr id="s044j"><object id="s044j"></object></tr></div><div id="s044j"></div>
                        <div id="s044j"></div><div id="s044j"><ol id="s044j"><mark id="s044j"></mark></ol></div>
                        1. <div id="s044j"></div><div id="s044j"></div>

                          1. <div id="s044j"></div>
                              1. <div id="s044j"></div>

                                <div id="s044j"><tr id="s044j"><mark id="s044j"></mark></tr></div><div id="s044j"></div>
                                当前位置 > 首页 > 专家访谈 > 朱扬勇教授讲解大数据:数据科学家将成热门职业

                                朱扬勇教授讲解大数据:数据科学家将成热门职业

                                来源:中国数据分析行业网 | 时间:2016-02-15 | 作者:数据委

                                  大数据的出现颠覆了我们既有的一些观念。?#28909;紓?#36807;去衡量是不是金融中心,主要看全球有多少家金融机构入驻。但是未来,金融中心就是有多少金融的数据资源在这里流通。如果将来在华尔街买股票的时候,要看一下上海的数据发布才能决策,到那个时候,上海就离全球金融中心不远了.

                                  当前,“土地财政”已经难以为继,但“盘活政府数据资源,建立数据财政”的时机可能已经到来。和土地不同,数据不会越用越少,并且数据本身会日益增加,因此盘活数据资源,建立“数据财政?#20445;?#21487;能是政府数据资源开发利用的?#34892;?#25163;段

                                思想者小传

                                  朱扬勇复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任,上海市政府信息化专家委员会专家,中国计算机学会大数据专家委员会专家,美国马里兰大学客座教授。从事数据领域研究25年,是国内最早一批从事数据挖掘研究的学者,是国际数据科学研究的主要倡导者之一。主持过国家自然科学基金、国家863计划项目、上海市科委重点课题等多项数据挖掘领域的研究课题,曾获上海市科技进步一、二、三等奖。在国内外权威期刊或会议上发表论文100余篇,出版专著2本,教材3本。第462次香山科学会议“数据科学与大数据的理论问题探索”的执行主席,并担任《大数据技术与应用丛书?#20998;?#32534;。

                                  三年前,很多人不知道大数据是何物。当时我在某地作一个关于大数据的报告,台下一片茫然,有人发问,“大数据是什么东西”。但是到了今天,我相信大家对这个词已经再熟悉不过了,甚至?#34892;?#20154;已经开始了冷思考,认为大数据不是万能的,质疑它的?#34892;?#24615;。

                                  毫无疑问,大数据已经渗透到我们的生活。?#28909;紓?#31038;交网络成为IT领域研究的方向,很多研?#21487;?#21338;?#21487;?#20889;的论文就是社交网络分析。按理?#25285;?#36825;个是社会学研究的一个方向,但是现在只是从IT角度加以分析。

                                  再?#28909;紓?#20013;国最出名的作家是谁?一般?#20064;?#22995;感觉是金庸。但是如果用大数据分析,就会发现,最出名的作家是鲁迅,因为他排在最高出现的词频上。

                                  大数据的出现,也改变了我们传统的研究方法。?#28909;紓?#22269;家要做一个重大课题,要求调查1万户?#29992;?#23478;庭收入支出的情况,以衡量现在?#29992;?#30340;生活水平和幸福指数。用传统的方法做这样一个课题,大概需要培养200名调查员,到?#29992;?#23478;中去调查。?#30475;?#22823;概是2个人一组,每组大概要调查100户。可以试想一下,调查100个家庭大概需要一年的时间,因为是遍?#26082;?#22269;的,有西藏的或者是新疆喀什地区某个村里面的一户人家。而每一次调查,还要支付调查员工资、差旅费等费用,这样一年下来成本估计在5000万元左右。问题是,调查的可信度并不能得到充分保证,因为你去别人家里问他的收入,一般人都不大愿意讲。即便得到回答,要将这么多数据整理出来,又要费一番工夫。

                                  但是,今天我们有了网络的集合运用,尤其是互联网运用,原有的方式就有了改变。发调查问卷得到回馈再做分析,是我们现在早已驾轻就熟的方式。未来还可以怎么做?希望今天的讲座结束后,大家能?#19994;?#31572;案。

                                数据和信息是一回事吗

                                  讲大数据之前,我们先来说一下信息。之前,我们把知识和获得?#27597;?#24565;叫做信息。信息产业、信息技术、信息化,都是由此而来的。那么,信息与大数据是一回事吗?这可能是第一个容易引起混淆和困惑的地方。

                                  ?#28909;紓业?#33041;里存了很多东西,如果你看得懂,你就获得了信息,反之,你就没有获得信息。而在电脑里的这些东西就是数据。

                                  数据有很多,但是信息可能不一定多,或者?#30340;?#20174;一大堆的数据当中要获得的信息可能并不多。?#28909;紓?#29616;在外面温度是19摄氏度,当我把这个数据拍照片给你看的时候,你可能感觉不到外面多少度。那么?#38405;?#32780;言,你获得不了这个信息,这个就只是数据。数据在?#19994;?#33041;里,你看懂了才能获得信息,这是?#19994;?#19968;个想要说的观点。

                                  那么,我们经常看到的数据、信息、知识,三者之间有什么关系?怎么定义?早期关于数据?#27597;?#24565;就是数字。到了今天,数据不再只是指数字,而是指整个网络空间里的东西,包括照片、声音、图像、文字等,只要放在电子化设备里的东西,都可以叫数据。?#28909;紓?#20320;看到这样一?#20301;啊?#38134;行流动?#36234;?#24352;?#20445;?#22914;果你看懂了,你就获得了信息,并会采取相应措施去应对。这是一个从数据到获得信息以及到用知识做决定的过程。简单来?#25285;?#20174;范畴而言,数据大于信息,信息大于知识。

                                大数据究竟是什么

                                  大数据一词最早于1997年出现在迈克尔·考克斯的论文中。2008年,著名刊物NATURE出版了一个大数据专刊,引起了学术界?#27597;?#24230;重视。2012年3月29日美国政府发布《大数据研究和发展倡议》,引起了各国政府和产业界的关注。

                                  关于大数据的定义,存在不少争论。从根本上?#25285;?#22823;数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题所用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法。

                                  所有人都是数据的拥有者,做数据的可能主要是IT工作者。但是,数据的价值在于应用。正如同,我们不需要做手机,不需要做软件,但是这些连起来以后数据成了价?#25285;?#29992;技术能把价值找出来,最后把它用好就实现了这个价值。

                                随着数据的增长,整个人类的能力在提高。

                                  ?#28909;紓游?#26143;图看地球,长期观测下来,有科学家就发现地球的南极跟北极白色的区域逐年在减少。白色区域减少,意味着冰山雪正在融化消失,这就是全球变暖现象。

                                  又如,疾病的早期诊断。每年死亡于癌症人数的有200多万,如果癌症能够在早期进行诊?#24076;?#33021;?#36745;?#26399;发现,那么对人的生命的延长是非常有帮助的。疾病的早期诊断方式,就是通过你的病史、你的生活习惯、你的工作环?#24120;?#20877;加上当前的检验?#25285;?#26469;评估你?#21450;?#30340;风险有多高。

                                  说得更近一点,现在智能手机普及率很高,出行的时候有导航系统,买东西的时候有移动支付,所有的这些系统在后台有一个我们称之为智慧引擎的东西,这个东西存储了大量的数据以及大量数据分析的软件,通过各?#25351;?#26679;智能化的软件推送?#34903;?#31471;,才会有我们今天享受到?#27597;髦指?#26679;的智能服务。

                                  大数据的出现颠覆了我们既有的一些观念。?#28909;紓?#36807;去衡量是不是金融中心,主要看全球有多少家金融机构入驻。但是未来,金融中心就是有多少金融的数据资源在这里流通。也就是?#25285;?#22914;果将来在华尔街买股票的时候,要看一下上海的数据发布才能决策,到那个时候,上海就离全球金融中心不远了。

                                数据是最重要的资源

                                  数据不断增长,被大量积累以后就形成了数据资源。数据是本?#20848;?#26368;重要的资源,李克强总理说它是基础资源,我想这个定位非常?#26082;貳?#20197;前我们只关注石油、煤炭之类的天然资源,没有关注数据资源。

                                  数据能力是国家竞争力。美国、英国、日本等国相继推出大数据战略,以提升政府效能。在我国,党的十八届五中全会提出要实施网络强国战略,实施“互联网+”行动计划,发展分享经济,实施国家大数据战略。“十三五”规划建议首次提出“拓展网络经济空间”。日前,国务院常务会议通过了《关于促进大数据发展的行动纲要》,强调开发应用好大数据这一基础性战略资源,推动公共数据资源开放共享,将大数据打造成新常态下经济提质增效升级的新动能。可以预见,大数据将创造下一代互联网生态、下一代创新体系、下一代制造业形态以及下一代社会治理结构。

                                我们讲大数据,实际上是在讲两件事。

                                  第一个是用数据解决问题。小到去哪里旅游,大到国家全面二孩政策的放开,都可以用数据。

                                  第二个是解决数据的问题。?#28909;紓?#25968;据多了以后怎?#21019;?#25918;。大数据就是一个大海捞针的过程,怎?#27492;恪?#24590;么运、怎?#21019;媯?#36825;些都是问题。

                                  今天,数据的组织形式和以前相比,发生了巨大的变化。?#28909;紓?#26377;人发给我一个邮件,我就知道要做一个报告,再发一个邮件,我就知道这个报告有100个人来听。但是如果我在朋友圈里发一条微信,这就连成了一个圈,?#30001;?#21040;了整个社会。最终来听报告的是什么样的人,我并不清楚。由此可见,数据的增长、流通、流向是不可控的。

                                  如果把所有网络空间里的数据加起来,那就形成了数据界。它呈现出自然界的特征,即不可控性、未知性、多样性、复?#26377;浴?#32780;如何开发和应用数据资源,成为摆在我们面前的最大问题。

                                  数据还有可能产生新的文明形态。科学家在2011年做了一张各国网络流量图,显示一?#20013;?#30340;文明方式很快就要出现。我们讲的古老文明就是河流的文明,接下来是海洋文明。因为水是人类进步所必需的,人不能没有水,我们称之为“蓝色文明”。但是今天网络是人类进步的必需品,你没有网络谈不上进步,网络的流向、大小、流量的内容以及流量变化的规律,决定了网络文明的兴起和消亡。网络流量往哪里去,哪里的文明就会发达。在网络文明当中?#19981;?#26377;一些发达地区,这些地区往往存在发达的结点,数据集中于这个点,这个结点上会产生数据效应,数据越多这个网站提供的服务越?#33579;?#26381;务越好数据就会越多,所以会形成一个良性的发展。

                                数据科学家将成热门职业

                                  大数据来了以后,给我们各行各业带来革命性的变化,同时也出现了一个新的学科或者是新的科学,叫做数据科学。数据科学,顾名?#23478;?#23601;是研究数据的科学或关于数据的科学,它是研究探索网络空间中数据界现象和本质的理论、方法和技术,主要有两个内涵:

                                  一是科学研究的数据方法(不同于实验方法、理论方法、计算方法)。这是指数据科学为传统科学研究提供了方法,其目的在于揭示自然界和人类行为的现象和规律。我们可以利用网络空间中的数据指导科学研究,或者提高各种科学研究领域的效率和效果,例如生物信息学。从这个内涵上看,科学研究方法需要进一步发展,包括数据工具的利用、科学数据存储和共享技术、科学研究的数据方法论,等等。

                                  第二个是研究数据本身。这是指数据科学研究数据自身的现象和规律,包括数据的历史、进化和迁移,数据网络的形成和发展,数据?#27597;髦中?#24335;、类型、状态、属性及其变化形式和变化规律等,即认识数据、掌握数据。

                                我认为在将来,数据科学、自然科学是并列的。

                                  早先的天文学,坐井观天是很重要的。今天的天文学家再也不看天,他们坐在电脑前看图像,进行数据分析。所以今天我们讲认识宇宙、认识生命、认识社会?#23478;热?#35782;数据,要先读懂这个社会的数据才能读懂现象。就此而言,数据科学跨越了所有的学科。

                                  大数据时代,最热门的职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。麦肯锡公司预测,到2018年,仅在美国?#23601;?#23601;可能面临缺乏19万名具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业作出?#34892;?#20915;策的数据的管理人员和分析师也有150万人的缺口。

                                  目前,被称为数据科学家的大致有三类人:从事商业数据分析的人、从事科学数据分析的人、研究数据的人。但在解决一个大数据分析问题时,常常是由来自数学与统计、计算机和业务领域的一个数据科学家团队来完成的。这说明,目前在大学没有什么专业具备了数据科学家所需要的全部知识,这是一个新问题。

                                  2010年起,各国大学开始了数据科学人才培养工作。哥伦比亚大学从2011年起开设《数据科学导论》课程,并从2014年起设立硕士学位,2015年起设立博士学位;复旦大学从2010年开始招收数据科学博士研?#21487;?#24182;从2013年起开设研?#21487;?#35838;程《数据科学》,2015年开始正式招收数据科学专业研?#21487;?#20197;及本科第二专业学位。2015年10月,复旦大学大数据学院、大数据研究院正式成立。清华大学于2014年成立数据科学研究?#28023;?#25512;出大数据硕士项目。

                                  尽管国内大数据人才的培养已经起步,但值得注意的是,当前缺乏数据科学家培养的基础条件,主要包括:计算条件——建设数据科学人才培养所需的计算能力,包括软?#24067;?#29615;境;数据条件——数据是资源,也是数据科学人才培养的核心,需要建设丰富的数据资源环境;师资条件——这是目前相?#27604;?#20047;的数据科学人才培养资源,也是影响未来数据科学人才培养成果的关键。

                                如何用数据资源去赚钱

                                  数据产业是网络空间中数据资源开发利用形成的产业。信息化是生产数据,大数据是开发数据,所以两者的方向性是不一样的。

                                  很难用传统产业划分来归类数据产业。首?#20154;?#26159;数据资源,它具有资源性。然后,数据要加工,属于加工业。它也具有服务性,所以又是第三产业。就此而言,数据是新产业、新业态、新模式、新技术,是新经济的典型代表。

                                  所谓新的业态产业,我们叫基于大数据的产业整合。具体来?#25285;?#25163;机、电视是终端,终端是?#22270;?#29978;至是免费,上面有很多的应用。然后整?#29616;?#31471;制造商、网络、电信、IT等,提供一个新的服务业态,这个就叫做基于大数据的产业整合。它怎么赚钱呢??#20811;?#30340;数据资源赚钱。大家可以回顾一下什么叫做?#25226;?#29699;经济?#20445;?#23601;是我开一个网站,有多少人看?#19994;?#32593;站,那么我就值多少钱。身处移动时代,你不仅要看这个东西,还要用这个东西,那么就需要有一个很大的客户群体在这个?#25945;?#19978;,而你则一定要提供?#22270;?#29978;至是免费的服务,你用这个数据资源去赚钱。中关村有一句话叫做?#25226;?#27611;出在狗身上,猪买单”。就是?#25285;?#20320;的主业要?#22270;郟?#29978;至是免费。那么怎么赚钱呢?就要找“猪”。?#36873;?#29482;”?#19994;劍小?#29482;”来买单,现在最大的“猪”就是硅谷和华尔街的VC(风险投资)。“飞猪”时代,重要的是?#19994;?#37027;头“猪”。

                                  信息化是生产数据的,大数据是开发数据的,二者不混淆、不对立。十八届五中全会公报提出“实施国家大数据战略?#20445;?#25968;据资源开发利用将成为未来若干年的战略新兴产业——数据产业。这里需要注意的是,数据资源不会因为使用而减少,也不会因为不用而增值。因此,不能按照?#28304;?#29028;炭、石油等天然资源的方式来?#28304;?#25968;据资源,而是要尽早、尽快、尽量使用数据资源,不要囤积待涨。必须把握大数据带来的战略机会,提升政府治理能力、实现经济转型升级。

                                  当前,?#24179;?#25919;府数据资源开发利用的一个主要?#20064;?#26159;“数据不愿意开放共享?#20445;?#20854;本质是利益分配的问题。数据收集、管理和维护是有成本的,数据开放也是有成本的。因此,需要理性看待“数据不愿意开放共享”问题,?#24066;?#25968;据资源拥有部门在数据开放共享过程中获得一定的利益。近20年来,政府通过盘活土地资源,实现了经济高速发展,城市现代化进程得以加快。虽然“土地财政?#21271;?#20154;?#35206;。?#20294;不能否认“土地财政”在这些年经济发展中的贡献。当前,“土地财政”已经难以为继,但“盘活政府数据资源,建立数据财政”的时机可能已经到来。和土地不同,数据不会越用越少,并且数据本身会日益增加,因此盘活数据资源,建立“数据财政?#20445;?#21487;能是政府数据资源开发利用的?#34892;?#25163;段。

                                  国家发布《关于促进大数据发展的行动纲要》,是希望借此提升全民数据意识,发展数据?#24149;?#37322;放数据红利,打造数据优势,这是国家的战略性考虑。要?#28216;幕?#19978;、意识上、根本上来做,即要用数据来说话,用数据来管理,用数据来决策,用数据来创新。整体来讲,就是要打破政府数据资源利益?#27597;?#25454;,把政府的数据资源释放出来,这对于整个管理创新、政府治理和产业变革都有大作用。

                                (本演讲系由复旦大学文科科研处等组织的“大数据系列讲座”第一讲)

                                来源:36大数据

                                极限平特肖公式规律

                                <em id="s044j"></em>
                                <em id="s044j"><ol id="s044j"></ol></em>
                                  1. <em id="s044j"></em>

                                    1. <div id="s044j"><ol id="s044j"></ol></div><div id="s044j"></div>

                                        1. <em id="s044j"></em>
                                          <em id="s044j"></em>

                                          <div id="s044j"><tr id="s044j"><object id="s044j"></object></tr></div>

                                              1. <div id="s044j"></div>

                                                1. <dd id="s044j"><legend id="s044j"></legend></dd>
                                                    1. <dd id="s044j"></dd>

                                                    2. <div id="s044j"><tr id="s044j"><object id="s044j"></object></tr></div><div id="s044j"></div>
                                                      <div id="s044j"></div><div id="s044j"><ol id="s044j"><mark id="s044j"></mark></ol></div>
                                                      1. <div id="s044j"></div><div id="s044j"></div>

                                                        1. <div id="s044j"></div>
                                                            1. <div id="s044j"></div>

                                                              <div id="s044j"><tr id="s044j"><mark id="s044j"></mark></tr></div><div id="s044j"></div>

                                                              <em id="s044j"></em>
                                                              <em id="s044j"><ol id="s044j"></ol></em>
                                                                1. <em id="s044j"></em>

                                                                  1. <div id="s044j"><ol id="s044j"></ol></div><div id="s044j"></div>

                                                                      1. <em id="s044j"></em>
                                                                        <em id="s044j"></em>

                                                                        <div id="s044j"><tr id="s044j"><object id="s044j"></object></tr></div>

                                                                            1. <div id="s044j"></div>

                                                                              1. <dd id="s044j"><legend id="s044j"></legend></dd>
                                                                                  1. <dd id="s044j"></dd>

                                                                                  2. <div id="s044j"><tr id="s044j"><object id="s044j"></object></tr></div><div id="s044j"></div>
                                                                                    <div id="s044j"></div><div id="s044j"><ol id="s044j"><mark id="s044j"></mark></ol></div>
                                                                                    1. <div id="s044j"></div><div id="s044j"></div>

                                                                                      1. <div id="s044j"></div>
                                                                                          1. <div id="s044j"></div>

                                                                                            <div id="s044j"><tr id="s044j"><mark id="s044j"></mark></tr></div><div id="s044j"></div>
                                                                                            未来湖北麻将8局链接 排三振幅走势图2 今晚三十一选七走势图 黑龙江时时彩开奖网址 飞鱼白条最新版本 pk10每天赢一期方案 凤凰娱乐彩票下载送27元 内蒙古时时十一选五开奖结果 哪个彩票软件最好 重庆时时官网直播开奖 吉林时时规则 重庆时时骗局龙虎合 75秒极速赛官网 北京pk拾杀号规律 北京赛结果 贵州11选536期号