您好, 访客   登录/注册

大数据操作系统的革命

来源:用户上传      作者:

  海绵数据的大数据操作系统Sponge为用户提供了一个简单易用的高性能大数据平台,同一个平台可以满足用户不同层面的需求。Sponge是一个划时代的产品,代表了大数据未来的发展方向。
  5月20日,海绵数据科技有限公司(以下简称海绵数据)在北京发布第二代大数据操作系统Sponge。海绵数据CEO朱晓明称Sponge是全球首款基于内存计算技术的大数据底层操作系统:“我们希望利用公司技术团队在IT领域二三十年的技术积累,在大数据底层技术上实现突破,同时抛砖引玉,吸引更多合作伙伴共同投资于大数据基础技术的研发,推动大数据应用快速落地。”
  加速大数据落地
  当前,大数据已经从概念炒作的阶段过渡到应用落地的阶段。用户迫切需要高效、简单、易用、成本优化的大数据平台和工具。但是,目前用户正在使用的第一代大数据操作系统比较复杂,在数据同步和一致性、数据安全、数据处理性能等方面存在不足。为此,海绵数据才潜心研发新一代大数据底层操作系统Sponge。有人说,Sponge的矛头直指Hadoop。“从市场角度讲,Sponge不会刻意与Hadoop竞争。有人担心能否将应用从原来的Hadoop平台平滑迁移到Sponge平台上。其实,在Sponge推出后,已经有用户这样做了。”朱晓明说。
  Sponge在性能、部署和使用的简便性等方面明显优于第一代大数据操作系统。实际测试和使用过Sponge的用户都有这样的感觉。举例来说,第一代大数据操作系统在不出现任何问题的情况下,至少也要半天才能完成部署,而Sponge从下载到安装最多也就十几分钟,大大改善了用户体验。“我们的目标不是与谁竞争,而是希望尽快在中国建立大数据应用和推广的生态链。”朱晓明表示。
  第二代大数据操作系统与第一代产品之间的区别在哪里?“两代产品在技术架构和设计理念上完全不同。”海绵数据CTO李东介绍说,“第一代大数据操作系统15年前就诞生了,其技术架构是在满足当时用户的需求和技术条件下设计的。随着时间推移,用户需求改变了,技术也在不断发展,从底层架构到上层应用,大数据都发生了巨大改变。”
  举例来说,第一代大数据操作系统的工作方式是先进行大量文件的抓取,然后进行存储,再对这些文件进行处理和分析。随着社交网络的发展,大量智能设备不断涌现,传统的文件批处理方式已经转变为现在的交互式处理、实时处理。用户端也要求数据处理的手段更加多样化。“正是看到了技术的变化和当前用户的需求,我们决定重新开发一套大数据底层操作系统,用一个统一的平台满足用户不同的数据处理需求。”李东表示。
  注重用户体验
  评判一个软件产品优劣的标准是什么?强大的性能,还是丰富的功能?是用户的体验。李东表示,第一代大数据产品技术架构比较复杂,应用比较困难,性能调优更是难上加难。海绵数据在开发第二代大数据操作系统Sponge技术框架时,特别注意了架构的简化与整合。用李东的话说,Sponge技术框架短小精悍,功能齐全。
  Sponge在以下几方面实现了突破和创新。在存储层,Sponge整合了高性能的存储,可同时处理结构化和半结构化的数据,并结合了云对象存储和软件定义存储,采用统一的核心,扩展性非常好。在分析计算层,Sponge与Apache Spark紧密集成。Sponge提供的分布式NFS与POSIX完全兼容,可以更容易集成现有的系统、应用和脚本。Sponge拥有支持Hadoop文件系统的接口,可以很容易地与Hadoop生态系统兼容。由于底层的存储架构支持细粒度的数据块,Sponge还实现了CDR(持续数据复制)功能,其集群的拓扑结构采用Masterless,消除了单点故障和文件数目的限制。
  让大数据应用变简单是Sponge的最终目标。Sponge在设计之初就秉承让大数据平台简单实用,同时又不失丰富功能的原则,各功能模块基于同一个核心,实现了高度整合,开发和使用都基于同一个平台界面。Sponge之所以与Apache Spark集成,也是希望将用户的使用、维护和开发融为一体,提供一个简单高效的平台。
  从产品开发难易程度来看,基于Hadoop平台开发一个大数据工具肯定比自主开发一个大数据底层操作系统要容易得多,但海绵数据并没有“取巧”,而是选择了一条比较艰辛的道路。为什么呢?一是海绵数据看到了大数据应用推广难的症结所在,就是因为没有一个简单易用的大数据操作系统;二是IT领域许多底层或核心的系统都是国外厂商开发的,作为中国厂商,海绵数据愿意做这个“吃螃蟹”的人;三是,海绵数据在国内外拥有强大的技术研发能力。“很多人可能认为,开发底层操作系统是一件枯燥乏味的事。但对于大数据应用来说,底层操作系统是不可或缺的。我们希望从这个层面实现全新的突破。”海绵数据COO刘栋表示。
  Sponge是一个底层操作系统平台,包括丰富的技术和功能,比如文件系统、分布式NFC技术、数据分析引擎、数据实时同步技术、软件定义存储、SWIFT云集成等。这些技术和功能合在一起构成了一个高性能、简单、易用的大数据平台,分开也可以成为独立的产品,比如现在十分流行的软件存储等。“有些功能模块确实可以变成独立的商品化软件。”刘栋举例说,“有的用户只关注存储,那么就可以直接采用Sponge软件定义存储产品。我们的销售策略十分灵活,既可以提供打包的整体解决方案,也可以单独提供其中的某个功能模块。”
  不开源 但开放
  Hadoop之所以在大数据领域拥有极高知名度,主要是因为Hadoop是开源的,而且已经建立了一个庞大的生态系统。海绵数据在推广其大数据操作系统时,是效仿Hadoop的成功模式,还是另辟蹊径呢?
  海绵数据已经在产品落地、技术推广、生态链构建等几个方面开始了积极尝试。第一,海绵数据希望培养更多的大数据专业人才,为此将与国内众多高校合作,并为高校免费提供大数据产品。第二,海绵数据还会与高校合作建立一些产业园基地,最快今年6月就会有集产学研用于一体的基地投入建设。第三,在杭州当地政府的支持下,海绵数据正筹划建立一个推动大数据应用实践的产业联盟实体,如果这一模式能够成功,还计划在北京、上海等地复制和推广。“目前,中国的大数据市场规模还不够大,主要原因是炒作概念的人多,而真正落地的项目少。从技术角度讲,缺少大数据底层的操作系统也是一个掣肘。”朱晓明强调说,“我们只做大数据底层操作系统,包括核心的文件系统、存储等,而不会涉及上层应用开发。我们的产品策略是不开源,但开放。我们会开放API接口给合作伙伴,由它们结合不同行业的应用需求进行二次开发,这样也避免了与生态链上的其他厂商竞争。”
  海绵数据的核心技术团队在美国硅谷,其技术专家很多曾参与过第一代大数据操作系统的开发,不仅具有很强的开发能力,而且可以密切跟踪国际最新的技术发展潮流。目前,海绵数据申请的自主知识产权已有20项左右。
  “我们应该感谢第一代大数据操作系统的开发者和使用者。因为站在他们的肩膀上,我们才能用更短的时间开拓并建立大数据操作系统2.0生态圈。”刘栋表示,“我们在努力开拓大数据操作系统2.0的新市场的同时,对于第一代大数据操作系统的客户也志在必得。一方面,我们会用更先进的产品解决用户遇到的技术难题;另一方面,我们的大数据操作系统2.0全面兼容第一代大数据操作系统,方便用户从原有系统平稳迁移到新的平台上。”
  海绵数据的中长期战略目标是,争取在五年内成为全球最大的大数据厂商,占据全球市场50%的份额。海绵数据哪来的这种霸气和自信呢?朱晓明表示:“我们研究发现,大数据2.0时代潜在的市场规模比1.0时代大得多,至少是5倍左右。如果我们能按预期的年均50%的速度增长,5年后我们应该能够与Hadoop平起平坐。”
转载注明来源:https://www.xzbu.com/8/view-11810302.htm