合作者定义了六大挑战,涵盖了IT基础设施的关键需求:数据采集、计算平台、数据存储架构、计算配置和管理、网络、通信和数据分析。
白皮书还将科研团体的大数据挑战分为几类:收集和分析数据以支持科学研究;开发具有成本效益和安全性能的计算机基础设施来处理大量的数据;进行准确的模拟,在成千上万的科学家和工程师之间共享数据。
这些新出现的问题需要科学家和工程师具备新的技能。报告指出,“重要的是,新一代科学家和工程师在现代并行编程、统计方法、数据分析、高效资源利用,以及洞察看似独立领域之间的可能联系等方面具有足够的技能和专业知识”。
白皮书展示了每一个挑战在不同领域的应用实例。
1.数据采集研究人员需要能访问具有更大的数据集的高性能计算资源,并与分散的科学团队合作。
然而,防火墙保护电子邮件、浏览网页和其他应用程序可能会导致TCP/IP网络内数据包丢失,这会大大减缓数据传输速度,逐渐趋缓的数据传输达到一定临界点,将会使得在线交互协作难以进行。路由器和交换机没有足够的高速内存来处理大的流量突发,同样会导致相同的问题。
科学研究需要更复杂的和灵活的收集、过滤及通过高速网络存储数据的手段。预计未来的计算机系统应该能实现计算理论和算法创新等变化。此外,可以通过用高性能商用处理器和高效的软件代替定制的电子产品来减少成本和降低复杂性。
2.计算平台运行超级计算机需要的大量空间和能源,已经成了处理能力提升的限制因素。报告称,现在只能利用多核平台或新的通用图形处理器增加处理能力,但是要做到这一切,现有的软件必须优化甚至重新设计。
为了解决这个问题,桑迪亚国家实验室宣布启动了一个项目:开发低成本、低功耗、计算速度更快的新型超级计算机。正在研究的技术包括:纳米计算、量子计算和智能计算(能自我学习的计算机)等。
桑迪亚的计算研究中心负责人罗布利兰说,“我们认为,结合微电子和计算机体系结构中的能力,桑迪亚可以很快跨越到下一个技术曲线,并且风险更小”。
该项目超越了摩尔定律。进而解决了原本巨大的能源消耗,可能会威胁到未来的计算机的实用性。
3.数据存储架构如今,大多数物理数据都是基于自定义的解决方案存储。然而,云存储架构,如亚马逊的简单存储服务(S3),可提供可扩展的和更有成本优势的替代方案。
科学界需要更灵活,具有成本优势的云存储空间,以此优化应用程序的存储架构。可靠、有效和具有成本效益的设计数据存储架构,必须适应各种应用程序和用户的不同需求。
4.计算管理和配置高性能计算需要自动化和虚拟化以管理日益增长的数据,而不需要更多的人力投入。与此同时,对资源的内部访问和跨学科间的数据访问必须安全、透明,才能促进合作。
科研机构解决这个问题的一个方法是通过分布式系统,将一个问题分成多个任务,每个任务由一个或多个相互通信的计算机解决。网格计算(分布式计算的一种)支持跨多个管理域的计算和计算资源的虚拟化。
在美国,由能源部和国家科学基金会共同资助的开放科学网格(OSG),被当作高吞吐量网格使用—通过把科学问题分解成大量可独立运行的单个任务以解决科学难题。OSG被用于设计布鲁克海文国家实验室的一个新的高能电子对撞机,就是一个例子。
5.网络和通信良好、可靠的网络对科学研究至关重要。数据传输的优化,需要新的基于软件的网络体系的结构设计。例如,迁移公共IP地址的能力允许将应用程序服务迁移到其他硬件。并且,智能化有线和无线网络,可以帮助网络优化其流量管理以提高服务和控制成本。
6.数据分析数据如过于庞大和多元化,人类在一瞬间将无法全部理解。因此,必须有能从大数据中获取价值,发现新的模式,进而持续实现新的科学发现。
作为一种服务,数据分析将包括近实时处理,批处理和数据存储集成。一个理想的平台将是一个有标准的、通用的框架,可以很容易地实现在数据层面和工具之间传递数据,能使用最合适的解决方案进行分析。除了CERN专有应用程序,这些分析将用于工业控制系统、IT和网络监控。
Gabriel咨询集团的分析师奥尔兹称,“为了在科学问题上得到我们希望呈现的性能,我们需要有更高效的新技术,而为这项新技术所付出的成本也要我们能够负担”。