人工智能的最佳计算基础设施是什么?
2019/8/19 13:47:55
Nvidia公司人工智能超级计算机负责人Charlie Boyle日前阐述了人工智能硬件和数据中心的现状和未来发展。 比以往任何时候都更重要的是,对于每个新的数据中心工作负载,IT组织必须回答的问题是在哪里运行。如今,最新的企业计算工作负载是机器学习(或人工智能)的变体,无论是深度学习模型培训还是推理(使用经过培训的模型),人工智能基础设施已经有太多的选择,因此很难直接为企业找到最佳的解决方案。 市场上有各种各样的人工智能硬件选项,广泛且快速增长的人工智能云服务范围,以及用于托管人工智能硬件的各种数据中心选项。Nvidia公司是机器学习基础设施生态系统中最重要的一家公司,它不仅为全球的人工智能工作负载(Nvidia GPU)销售和生产大多数处理器,它还构建了大量运行在这些芯片上的软件,并销售自己的人工智能超级计算机。 行业媒体Datacenter Knowledge(DCK)与Nvidia公司的DGX人工智能超级计算机高级营销总监Charlie Boyle一起探讨了人工智能硬件发展和人工智能基础设施的发展趋势。以下是采访内容: DCK:企业如何决定是将云计算服务用于其机器学习还是购买自己的人工智能硬件采用机器学习? Charlie Boyle:我们的大多数客户都使用内部部署和云计算的组合。我们看到的最大动态是数据所在位置决定处理它的位置。在人工智能环境中,需要处理大量数据才能得到结果。如果所有这些数据都已经存在于企业数据中心中(企业可能收集了10~30年的历史数据),那么希望将处理过程尽可能接近企业所在的位置。因此,它有利于内部部署系统。如果是一家业务从云端起步的公司,并且其所有客户数据都在云端,那么最好在云平台中处理这些数据。 DCK:是因为很难将大量数据移入和移出云端吗? Charlie Boyle:这还取决于企业如何生成数据。大多数企业的数据都是动态的,因此总是会添加数据,因此,如果他们在系统中收集所有数据,那么他们就更容易继续在内部处理它们。如果他们将大量数据聚合到云服务中,那么他们就会在云平台上处理它。 这适用于生产用例。许多实验性用例可以从云端开始,企业只需启动浏览器即可访问人工智能基础设施,但随着他们转向生产,企业就可以做出本地决策、财务决策、安全决策,以及是否更好地在内部部署或在云平台上处理它。 Nvidia公司的客户通常在内部进行一些人工智能模型培训,因为这是他们的历史数据所在。他们构建了一个很好的模型,但是该模型随后由他们的在线服务提供服务——他们在云中基于他们在内部部署构建的模型进行的推理。 DCK:对于那些在自己的内部部署或托管数据中心运行人工智能工作负载的企业,考虑到机架的功率密度越来越高,您认为他们将采用哪种冷却方法? Charlie Boyle:数据中心采用液体冷却还是空气冷却始终是一个热门的争论话题,我们一直在研究这个问题。一般来说,数据中心运行大量服务器机架,有的多达50个,采用传统的空气冷却设施效果良好。当运行更高功率密度的机架时,例如机架的功率为30千瓦~50千瓦,通常采用水冷式热交换器进行冷却,这就是在数据中心实施的最新冷却措施,因为这样数据中心就不会改造冷却系统本身的管道。 现在,我们的一些OEM合作伙伴也基于我们的GPU构建可以直接冷却芯片的水冷系统,一些企业希望构建一个超级密集的计算基础设施,他们将会提前部署冷却基础设施。但是,通过我们与大多数托管服务提供商的合作,发现只有水冷系统才能更好地支持高功率密度的机架运行。 直接冷却芯片更像是一个运营问题。我们的技术现在可以做到,但如何为它提供服务呢?对于正常运营的企业来说,这将是一个学习曲线。 DCK:NVIDIA DGX系统和其他GPU驱动的人工智能硬件如此密集,以至于无法采用空气冷却进行冷却吗? Charlie B
下一页
返回列表
返回首页
©2025 人工智能世界_专注人工智能领域,汇集人工智能技术资料 电脑版
Powered by iwms