返回 医学论文 首页
迎接大数据时代

  今年4月,央视《对话》栏目推出大数据专题;还是在4月,《自然》杂志刊文用大数据预测禽流感病毒的传播路径;近两年,与大数据相关的会议在各地涌现……大数据的热潮阵阵袭来,势不可挡。那么,大数据来自哪儿?定义是什么?它又给医疗行业带来了哪些影响?
  画出H7N9禽流感传播地图
  SARS十年之后,一个叫H7N9的病毒再袭中国,引起国人恐慌。卫生部门紧急应对,措施得当,引起了舆论的普遍赞许。关注H7N9禽流感的不只限于医疗界,还有学术界。英国著名学术期刊《自然》(Nature)杂志网站4月24日刊文三篇,其中的一篇《画出H7N9禽流感传播地图》(Mapping the H7N9 avian flu outbreaks)的文章,似乎更应得到重视。
  文章称,2003年,为了应对SARS,科学家收集了很多数据,包括禽类交易路线、鸟类运输数量、活禽市场分布以及来源路线、水禽类数量、土地使用和人口密度等,然后把H5N1家禽病例的分布、市场上主动监测到的有效的H5N1数据与上述数据进行整合,制作出了一张H5N1禽流感感染风险图。
  事实上,当把H7N9人类病例置于这张风险地图上后,它们似乎落在了H5N1的最高风险区域里,与当年H5N1的风险区域不无相似。地图显示,H7N9高风险区域包括山东省,渤海周围延伸至北方的辽宁省。
  把大量的、不同种类的数据进行整合,提取出有价值的信息进行利用,这就是大数据的应用。大数据真正为大众所知,应该是在2003年,也是与禽流感有关。
  在SARS爆发的几周前,谷歌公司的工程师们在《自然》杂志上发表了一篇论文。论文称,谷歌能对冬季流感进行准确的预测,不仅能预测全美范围的传播,还能具体到特定的地区和州。
  该文解释,谷歌公司把5 000万条美国人最频繁检索的词条,与美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,以此可辨别出人们是否感染了流感。谷歌公司的工程师猜测,人们使用特定的检索词条,如“治疗咳嗽和发热的药物有哪些”,是为了在网络上得到关于流感的信息。
  但是找出这些词条并不是重点,他们建立的系统也不依赖于这样的语义理解。这个系统唯一关注的是,特定检索词条的频繁使用与流感在时间和空间上传播之间的联系。谷歌公司为了测试这些检索词条,共处理了4.5亿个不同的数学模型。将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后发现,他们的软件发现了45个检索词条的组合,一旦将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不像疾控中心一样要在流感爆发一两周之后才可以做到。
  该论文的发表震惊了美国公共卫生官员和计算机专家。
  在之后SARS爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更及时的指示标。更重要的是,谷歌公司的方法不需要分发口腔试纸和联系医生――它是建立在大数据基础之上的。近来的畅销书《大数据时代》在谈到这个案例时如此评价:“这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”
  炙手可热的大数据
  大数据这一概念真正热起来是在近两年。它一度占据过《纽约时报》、《华尔街日报》的重要版面,进入美国白宫新闻。
  在国内,腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。
  数据的重要性,不只受到IT巨头们的重视,它也引起了决策者的注意。2013年1月,工信部等五部委联合发布了《关于数据中心建设布局的一些指导的意见》,加速我国的数据中心,特别是大型数据中心的合理布局和健康发展。
  在弄清大数据为何如此炙手可热之前,有必要先了解一下大数据是如何产生的。
  当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18个月翻两倍以上。这是著名的“摩尔定律”,它揭示了信息技术进步的速度。
  随着时代的进步,信息技术的进步已经与发现“摩尔定律”的上世纪60年代远远不同。国人给“摩尔定律”赋予了新的定义:我国Internet联网主机数和上网用户人数的递增速度,大约每半年就翻一番!
  来自“大数据世界论坛”2012年的数据显示,1分钟内,YouTube用户会上传48小时的视频;Google会收到2000000次搜索请求并极快地返回结果;Twitter要处理1000000条Tweets信息;网购产生272070美元的交易;App Store有47000次下载;全球新增网页571个。而今年,YouTube用户每分钟上传的视频已达72小时;Facebook每分钟发29万条状态更新;Baidu每天会收到50亿次搜索请求……
  如上所述,信息爆炸是数据量剧增的根本原因。对于大数据产生的原因,北京嘉禾美康信息技术有限公司市场总监朱杰认为有两个方面。一是Web2.0时代的到来,“以前是固定人员产生数据,相对量还比较小,现在互联网的所有参与者都在产生数据,数据量一下就上去了。”另一个是物联网,由机器所产生的通讯数据、位置数据能与人进行关联,数据量也非常大。
  这个判断与美国互联网数据中心的观点不谋而合,它指出:“互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。”


【相关论文推荐】
  • 迎接大数据浪潮
  • 秒针系统:迎接广告大数据时代到来
  • 迎接生物大数据时代的来临
  • 迎接大数据的技术盛宴
  • “大数据”时代逼近
  • 习惯大数据时代
  • 弄潮大数据时代
  • 布局大数据时代