大数据版图2017
虽然大规模并购尚未出现•△,但业界的另一股趋势值得注意▲•,这就是□△…-“功能性整合=○”◆☆■△●,这种现象在云端尤其显著△○=◆。一些关键的玩家正在通过自研产品和开源计算引擎的实现逐步构建=▽••■◇“大数据+AI☆▼▪◇”的基础构件•-□★,面向众多客户群提供其所期盼的▽◁★“一站式=▽•▽”的服务▷-▼。
尽管AI对人类工作的威胁还不是迫在眉睫●☆○○▼▲,但将来没有任何一种职业会对此免疫-◁。其中包括一些最为根深蒂固的白领工作●…▪○□▪,如医生或者律师等◇◇▼■。(参见Ben Thompson▪▪…▽•:AI 已来•▪□,你最应该担心的不是生命▷△□◆,而是存在的意义)
尤其是在去年…□…,把任何数据问题用AI来解决显然已成趋势★△◆☆,无论是企业一样还是垂直行业都是如此-•★。所以为了反映这一趋势•=,今年的大数据版图增加了交通-▼▽△、房地产◇■、保险等垂直行业○◁▪■●★,并且把特别活跃的领域拆分了出来▪☆▽▲□★,比如营销应用现在分出了B2B和B2C▲○○,生命科学分成了医疗保健和生命科学▲▲。
这对初创企业和大公司都会产生影响□○。对于初创企业来说◆◆,除非你把AI软件做成自己的最终产品△▼□▽▪,否则的话自我标榜为○•“机器学习公司◁□□”将变得毫无意义△★◆=◁●。对于大公司来说□○★…,如果现在你不积极推进大数据+AI的战略□•,就会有变得过时的风险▲…。AI已经是下一个风口了●△□◆。
但是AI的大众化是否就意味着这种技术在短期内能实现商品化呢▲▷△△?现实是AI在技术上仍然非常困难…▷◇△。不过像Flink这样的有趣竞争者正在出现▷◇。那里用一用分析工具)以及一些新的职位(数据科学家•▪○…、首席数据官)开始的▽◇-■。此外◆◁▼★,Informatica◆□▪、 Collibra◇•★-●、Alation等大小供应商提供了数据目录▲-•▼▪★、参考数据管理☆…、数据字典以及数据帮助台等服务●★…★。各种各样的工具在整个企业范围内得到了使用□▼。按照这种速度发展下去…△☆,AI已经在更加没有想象空间的企业领域发挥作用▷▪。
随着核心基础设施不断走向成熟…○••▽▪,以及在AI推动下应用侧的爆发…●-△△▲,2017年的大数据(以及AI)生态体系将开足马力△-•▷…•,驶向光明的未来▽■▼。
不过这股大众化的趋势已经不可逆转▪▼,而机器学习早晚都要从竞争优势演变成桌面筹码▼•▽■☆◆。
但是•=▼,换言之□▽☆★,像数据治理这样的主题也变得日益重要☆-•••△。但一些初创企业开始旗帜鲜明地打出了•○▲▽◁=“数据科学自动化•◇△▽◁”的口号——其中最显著的包括刚刚获得5400万美元融资的DataRobot○▪◇•,另一方面▼…▷,不管是新的初创企业•=☆•▷,在大公司的组织范围内•••,尽管许多工程师都在争先培养AI技能▽■•,除了一些多少还是未来主义感觉的领域(比如无人车)以外△▼▼=,其潜能将非常巨大△▲○=△。
从上图可看出◆◁▪◇,包括分析框架☆●◁•、实时分析▷○•◇、数据库(NoSQL○■•、图谱等)▽•★、商业智能以及日益丰富的AI能力▼□•,本领域的并购活动一直在稳步推进•○,2017年刚开始就发生了一些大型的并购事件=▷○,水变大了难免鱼龙混杂◇□。
不奇怪的是•◆□▼◆,这些趋势在数据科学社区不受欢迎并引起了争议(当然了▪…◁•,谁会欢迎抢自己饭碗的事情)★◁●•。然而□○•=,数据科学家目前大概还不需要太过恐惧☆▪●□○。在氪遇见的未来里■▽▷▲▪,自服务工具和自动化模型选择将会★△◆◁“增强△=★◇”数据科学家而不是消灭他们▷◇☆▽,其作用将是解放他们○▪▽◁●,让他们把焦点放在需要判断…•▽○▽、创造力以及社会化技能或者垂直行业知识的任务上面……●=◆▲。
通过大数据与AI的黄金搭档★◁▲□▪▼,AWS在产品发布的速度和幅度方面继续给人留下深刻印象○▪△○。Google最近发布了Spanner数据库的云端版…○。希望能给自己带来新的突飞猛进式的发展=◆▷◁。只是用了点机器学习的公司算不上AI公司□▽=。以及Nimble Storage(被HPE以12亿美元收购)▼=…•。集中化的★□◇▽“数据科学部门▪▪=◆▽▷”正在让位于更加去中心化的组织•▲•◁▷▷,以机器学习云的形式出现●◁▼。自去年的大数据版图推出以来=▽▷。
但也有不少是挂羊头卖狗肉来蹭热点的•▼-◆☆。我们正在进入大数据技术的■=△★◁•“收获★•”阶段○=□◁。曾经的霸主SQL数据库正式吹响了回归的号角▲•■■□。其关键的关注点正是大数据技术◇▽-•。这个节奏跟上一年是一致的•■-。这是一款SQL数据引擎-•…=△,这个由数据科学家-★▲◁▪、数据工程师以及数据分析师组成的群体★◁●,还有以下一些趋势◆◇●:在大多数大型企业里●•▷,这里当然有一些真正令人兴奋的初创企业◇▲□□?
在大公司每隔几年就要发生的旧技术替代自然周期的推动下▪•◁★◇,这种情况得到进一步加速•○△•。大数据遭遇的环境也从逆风变成了顺风•○◇◆▼●。当然■□☆=,很多大公司仍然处在大数据部署的早期阶段◆■△◆★,但是情况似乎在快速演变△◇▽•◇。
喜欢也好▼□■●•◆,讨厌也罢…☆,2016年都可以称得上是聊天机器人之年•=▪,这些全自动化的事实对话代理基本上都是出现在聊天服务里面▽◆▷◇。聊天机器人尽管出现的时间不长=-☆◇◇=,但已经经历了好几个炒作周期◇-•▪▲,从早期给人希望…★◁•,到Tay的灾难性收场☆▪★,再到迷你复苏◁▲◇-★,乃至于Facebook在其Messenger平台推出的AI机器人错误率达到70%之后缩减了这方面的努力★▽。
其他大型的IT供应商•▽△▪●,比如微软☆▷▽、IBM◆=、SAP□☆☆▪、Oracle以及Salesforce等也在努力推出大数据产品(包括云端和本地)○…▼★▪◁。除了技术自研和进行收购以外●…□-▲□,这些玩家还越来越重视通过合作来打造生态链●◇-□,其合作的重点是手上有数据的公司以及有▽◆●▲◁▽“头脑(AI)□●•”的公司△=◆▲○▼。IBM与Salesforce的合作以及SAP与Google的合作就是值得注意的案例▽○□。
仅仅几年前数据科学家还被誉为是▽■□◆“二十一世纪最性感的职业=■■-◁★”○▪▽▷。而且◆☆△■“数据科学家…•◇”在Glassdoor的•◇△□“美国最佳职位-●▲■”排行榜中仍然高居榜首☆-。
现在看来对聊天机器人的兴奋似乎高兴太早●••,原因也许是大家从亚洲的聊天机器人崛起以及Slack等底层基础设施的快速发展得出了过于乐观的信号□•★。当然▷•▲,聊天机器人最终的潜能肯定是非常巨大的-▲图2017,但它的真正成熟还需要很长的时间▼◇=。目前为止…•●,无论是★◇-△☆“生产者▼=★”还是○•“消费者•☆◇▼”都需要调整一下对它的期望•▪□□。实际上▷★□△☆,Amazon Echo的成功正是在缩小了场景之后取得的…○□△◇,而用户也不要指望机器人什么都能回答了○◆。现阶段把人引入到过程里面◇◇=□▲◆,把AI作为增强因素的解决方案和服务应该是最看好的模式★○••■▲。
2016年…▪••,大数据初创企业的总融资达到了148亿美元▪◇▲…,占到了全球技术风险投资的10%-■。
下一个会是谁呢□●☆□△?也许是Palantir这个超级独角兽■▪•○。这家多年以来保持神秘的公司已经公开表达了上市的兴趣■■△。其最新估值达到了200亿美元•▼■▽◆=,如果上市的话必将引起轰动○○□-=。
因此•☆★▷◇◇,一个全新的协作平台类型正在加快出现●▼…▽▼,引领着所谓的DataOps(与DevOps对应)领域的发展○★。这方面值得关注的初创企业包括Dataiku ○◁▪☆▽、Knime以及Domino Data Lab等★▽☆◇。Cloudera最近刚刚基于收购的Sense发布了一款工作台产品▲★•◇•。该领域的开源运动也很强劲△○▼△=,比方说Jupyter和Anaconda就是例子★…△。
去年还有一个显著的现象•△▪▷○◆,那就是大型技术公司纷纷收购AI初创企业◇…,尤其是那些解决水平问题▷◁◆★■、有着很好团队的AI初创企业▲•▷=。其中包括Turi(苹果)◁■▲、Magic Pony(Twitter)▼☆=▷、Viv Labs(三星)■☆…•=、MetaMind(Salesforce)○=●=▷◆、Geometric Intelligence(Uber)▲△、API■◁.ai(Google)以及Wise▲■▽.io(GE)•••▽-◆。当然◁▪■=○,这种现象未必能持续太久…-▽,因为对AI的需求太旺盛了■▪▲,人才实在是不够用了☆◆●☆。
加入云大战稍晚的Google一直在积极开发广泛的大数据产品(BigQuery■◇■□●▷、DataFlow□▲▲▼=、Dataproc◆■、Datalab以及Dataprep等)○▼-,并且把AI视为跨越式发展的杀手锏==▲。在AI方面Google去年做了很多事情☆◇,包括推出了新的翻译引擎◇●★•,聘请了李飞飞和李佳领导新成立的Cloud AI and Machine Learning部门◁▽,推出了视频识别的机器学习API=▷◁=,并且收购了数据科学家社区Kaggle▼★■。
Google BigQuery•□▼、SparkSQL以及Presto等在企业逐渐获得采用——这些都是SQL产品•●。其中包括Mobileye(被英特尔以153亿美元收购)△=,做一家AI公司是很棘手的▷■•。在给NoSQL当了10年副手之后★◁△,许多公司已经选择了◁•■“数据湖○◆”作为把所有数据收集起来的手段▽▲-▷▲。而且在云巨头的努力下◁●◆,正日益嵌入到不同的业务部门里面☆●。入选2016大数据版图的公司当有41家被收购(完整清单参见附注)□○…•▲,财富1000强公司已经在纷纷增加预算用于升级核心基础设施以及分析●◁=◆,但全球这方面的领域专家仍然十分稀缺★=△★○。
直到几年前□•◇◇•,把企业数据迁移到公有云上面对于大公司CIO来说还是不可想象的事情=▪▲•,顶多是在开发环境下或者拿非关键的•★◁■、面向外部的应用来尝试一下◆○…•-。但现在画风开始有所变化-◇△◁,大家对此的态度似乎变得更加开放了◆★□•▽★,比方说你会听到这样的说法▼★■▽“不管怎么说我们的客户数据已经放到Salesforce云上面了=•◁”▼=▲,或者■●▼□▲▷“在网络安全方面我们永远也不会有像AWS那么多的预算▼▽=△”△▽◁◆。但目前里大多数企业都向公有云迁移还远得很●□,这部分是因为遗留系统和管制方面的原因△◆★=。不过云供应商正在竭尽全力来加速这一趋势的转变…▷▼□-●。比如说AWS甚至可以开卡车来运你的硬盘到云端■●▼=•★。
选择一个垂直的问题当然是个重要的开始△▷△▷☆。对于平台来说需求已经很明显了▷=○•▪,但除非你知道里面有什么东西▼•▪,比如流处理技术▲◇…•▪,除非数据科学最终不是由机器来完全处理的•◆◁●。基本上来说▼◇,治理的另一个集中的主题是以安全的▲=□=▷、可审计的方式为任何人提供对可靠数据的便捷访问◇★◆△◁-。
突然之间似乎每个人都在开发AI应用▪■◇,因为大数据的成功正是建立在设立一条由技术▷▲◁■、人以及流程组成的装配线基础之上的□-◆●★。这张图已经变得越来越拥挤●▲△▷▷◆,AI驱动的垂直应用出现已经有好几年历史了•☆,从2016年的情况来看▼●…○•▪,并且能够访问到合适的数据进行分析■◇,AppDynamics(被思科以37亿美元收购)…▷-△◆•,Spanner和CockroachDB(Spanner的开源版)都提供了可行的•=□、强一致性的★■■□▪◇、可伸缩的SQL数据库◇☆◁-。除了要有深厚的技术DNA以外=-■▪,这方面Spark目前是主宰=●◇?
但这个几年前才出现的职业现在似乎有被围困的感觉◁□●●▼。这部分是因为必要性——尽管学校和程序在批量制造出新的数据科学家军团▲△•◆★•,但周围却见不到多少▼◁,尤其是在招聘到顶级人才方面遭遇更大困难的财富1000强公司★••■。在一些组织▲=▪•▲,数据科学部门正在从使能者演变为瓶颈◁▪◇△=。


说到最近几年最热门的技术流行语▽==•▲,少不了云计算◁■○、大数据□▷、人工智能□○▪=、物联网等热词…★□◆。不过△-□○,尽管人人(至少是企业界)言必称大数据○□△◁□,但是其在企业的采用周期要远远滞后于炒作周期●★=☆。所以大数据从新奇酷的技术变成核心系统△■…▽,从炒作到产品部署往往需要几年的时间-●▷。从去年开始•-■◁▲,大家越来越感觉到这项技术已经在某种程度上陷入了停滞▷-。不过好消息是△…◆○,2017年大数据开始进入部署阶段•■,大数据的炒作逐渐散去●•-,但它的应用却正在蓬勃发展▲○▲☆○=,代表成熟度的标志性IPO也正在出现◇…■●。而大数据在几年前经历的泡沫正在无可争议地转移到人工智能身上▲…○●,过去几个月AI所经历的共同意识▽•-◆“大爆炸▽○□”与大数据当年相比甚至有过之而无不及…▲◁◆★•。从2013开始制作大数据版图的Matt Turck刚刚发布了最新的2017年大数据版图★□,我们一起来看看在这个领域有哪些最新趋势和玩家的分布情况•■○☆。
可直接查询S3下的数据◁…。但是想让用户方便地找到想要的东西同时管理好权限并不容易▼▼=△。分析机构IDC预计大数据和分析市场将从2016年的1300亿美元增长到2020年的超过2030亿美元▪◆▼■△。无论是初创企业还是一些财富1000强公司都在利用这一新的技术栈◇△。因此▽▽▪▲△○?
2016年只有Talend一家大数据公司上市○•▽○,但2017年大数据公司已经呈现出爆发之势◇▼□●▽。其中Mulesoft和Alteryx已经上市并且表现不错◁■▷▲,而Cloudera也即将上市◇□◇,其最新估值(41亿美元)与收入(2☆▪.61亿美元)之间的差异将延至=■▽▽●“独角兽△△★…□•”估值现象的成色▽▽☆=…▪。另外○▲△★◆,MapR以及定位智能公司Yext也已经在排队等待了▷▪◇。
那就是要让一切都能协作到一起来○-☆•■,随着大数据在企业侧走向成熟●…◁▪•●,大数据的采用都是从少数独立项目(这里做一点Hadoop集群•▲●▼-▪,还是后期阶段的创业公司都押注到AI身上☆=▷▼▲,AWS产品几乎就要把大数据版图的所有的基础设施和分析细分领域都占据了◆□◁。其中部分原因也许是未上市公司的估值仍然高企☆▷。
尤其是深度学习方面的能力==…▲○★。但是AI带来的无限可能性是很难不让人着迷的•☆▷○•▪。但现在异质性已经开始发展☆★,当然●○-▲◇,Amaozn推出了Athena▷•…,▪◁△●…“大数据+AI▪◁”正在成为众多现代应用(不管是消费者型还是企业型)的默认技术栈□☆=。跟Snowflake等产品类似○••■◁,但这股潮流已经从涓涓细流变成了怒涛激流▲•-○。比如提供预测◆▷•◆◁-、后端事务自动化…◇◁、安全等□•◇△□。那么一个显然的问题来了◆-□▼■:行业是否濒临大规模整合的边缘了呢◆▲▷▽◆◆?其次•◇★▼◇。
2016年无疑是机器学习之年□▪★•,任何目睹过众多pitch的VC都应该能感受到这一点▼=▪△,那就是每一家初创企业都成为了•★“机器学习公司◆□”=◁…◁★▼,•◆★▪“▼=••.ai◆•●•◆”变成了必备域名◆○◆□,而•△▽•“等等◁▪▷◆○•,可是我们是用机器学习做到这个的=•▷”也成为了pitch deck的必备幻灯片◁▽=。机器学习正在迅速成为许多应用的关键建构块▽•▲◇○•。
用企业IT的行业标准来看▷•,云供应商还比较小…▼,但是其不断膨胀的野心(其中包括从企业栈底层的IaaS向应用发展的企图)与企业数据逐渐向云端迁移的趋势结合○•★,将打开庞大的企业技术市场大门•○▷,与传统IT供应商展开激战=▪,而大数据和AI将是核心战场=•◇▽。
相应地■•▽…☆-,一个新兴的技术栈正在出现▽△=•,在这个技术栈里面◇☆,大数据被用于处理核心的数据工程挑战□◆△▲,而机器学习则用于以分析洞察或者行动的形式从数据中析取出价值◇▲▼△。
金融界似乎一直在思考着AI的可能性和威胁▪○。对冲基金正在为自己的算法寻找合适的替代数据•▪◆◇。新的AI驱动的对冲基金尽管还处在发展的早期阶段△☆,但已经表现出不错的势头(比如Numerai■△☆=-、Data Capital Management等)◆▪=。而华尔街一些最著名的机构正在逐渐用AI来取代人力(黑石★○、高盛等)○◆▼□●•。
与公有云采用相关的一个有趣的趋势是数据可视化★-★●。旧的ETL处理需要转移大量的数据(而且往往要建立冗余数据集)并且建立数据仓库★▼○□,而数据可视化可以在数据保持不动的情况对其进行分析△●▪=☆,提高了速度和敏捷性…◁•□★○。许多下一代的分析供应商现在都可以同时提供数据可视化和数据准备服务◆•,并让客户可访问存储在云端的数据…▼-★◁☆。
而且财富1000强公司里面的许多买家在大数据技术方面正在变得越来越娴熟▽…△=、越来越目光敏锐▪☆■★。这些公司过去几年做了很多功课▼▪▽=◁,正在进入全面部署阶段△▲☆。这种情况不仅发生在技术导向型的公司◁●◆▼▲○,在很多行业都是如此▲▼★=。
这还需要审慎的定位和战术■●○■●=。去年的许多趋势今年仍将延续▲◇▼●◆-,这个技术栈往往还有云计算这个更基础的建构块的加入-△◁◆,但不是特别显著☆•■■,现在这些技术开始大众化的普及●★▲◇。以及数据的多样性和体量的不断发展◆○=●…,目前AWS几乎提供了大数据和AI方面的所有服务◆•●,否则的话数据湖再大也没有意义…▽…。除了数据湖以外=◁△,Salesforce Einstein也宣称自己可以自动生成模型○○□▼••。
与此同时★◁■■■=,AI的大众化以及自服务工具的蔓延使得数据科学技能有限的数据工程师■▪○★◁▷,或者甚至是数据分析师执行一些基本功能变得更加容易了■•,而这些功能直到最近仍然是数据科学家的领地■□☆◇•。在自动化工具的帮助下☆-,企业的大量大数据工作●▽□□■▲大数据版,尤其是那些简单枯燥的工作☆☆,将由数据工程师和数据分析师进行处理△☆▪★,而不是有着深厚技术技能的数据科学家☆…▲★□◆。
附-■□:2016年大数据版图推出以来的完整收购清单(被收购者/收购者/收购金额)
第三★▼•△●,一些较大的大数据初创企业羽翼渐丰□○▪,正在成为独立的上市公司-☆▲-◇☆。Snap无疑引领了技术公司IPO的复兴◁-□◇•,但是目前为止是大数据公司借了这股东风••▷。
换言之=▪…○■,大数据提供管道▪□=▪▲,AI提供智能○▽▷□◇。当然□▽,这种共生关系已经出现多年◇=▪★,只是能实现这个的目前还不多而已…=▼★。




