丹沙利文

由于采用云技术使公司能够扩展其技术基础设施,因此了解如何利用存储在云服务器中的所有数据成为一项竞争的当务之急。公有云平台允许数据科学家收集深入的见解,因为服务支持数据科学的整个生命周期,从数据探索和收集到部署模型或解释一个人的发现必威中文官网。

混合和多云基础设施越来越受欢迎,公司不必依赖一个供应商的每个云都需要。数据团队在谈到时具有各种各样的选择工具和平台有几个因素影响着我们的选择。这就是为什么我鼓励公司和我的学生考虑谷歌云平台(GCP)解决方案,用于他们的多云结构中的任何数据科学应用。

GCP作为公共云基础设施提供商越来越受欢迎,目前是仅次于亚马逊AWS和微软Azure的第三大公共云提供商。在特性方面,每个云提供商都有自己的优势和劣势,但我认为GCP真正脱颖而出的地方是数据科学和机器学习。

在本文中,我将分享使GCP成为数据科学团队强大工具的五个不同之处。

1.易用性

用户首先注意到的事情之一谷歌云平台(GCP)就是开始使用虚拟机和云存储有多容易。数据科学家可以从图形用户界面启动虚拟机和容器、上传数据和开始分析工作。此外,GCP为许多基础设施配置参数提供了合理的默认值,这意味着数据科学家花在配置防火墙规则和安全组等方面的时间更少。

如果您正在使用大型数据集,则可以将数据上传到云存储,在其中您可以在几个类别的存储中选择。如果您需要从不同地理区域的数据的低延迟访问权限,则可以使用多区域存储;较少频繁访问的数据可以存储在近线或冷线存储中。同样,所有这些都可以通过图形用户界面来完成。

谷歌助理云工程师:2021年获得认证

上次更新了2021年8月

  • 111课
  • 各级
4.5 (5900)

了解如何从为谷歌编写官方认证指南的人中考试丹•沙利文

探索课程

2.计算选项范围

GCP提供了各种计算资源,您可以根据需要选择最优配置。如果您需要完全控制服务器和操作系统,您可以使用Compute Engine。托管实例组使得创建实例和根据需求自动伸缩实例变得很容易。

如果您愿意部署容器,Kubernetes引擎提供托管群集,而云运行是运行无状态容器的无要选项。Compute Engine和Kubernetes Engine都支持GPU和TPU。

3.数据科学的管理服务

花在配置和管理服务器上的时间,会减少用于分析数据和构建模型的时间。使用GCP,团队可以使用托管服务来减少普通数据科学工作的操作开销。

Cloud Dataproc是一个受管理的Spark/Hadoop服务,允许您快速启动集群。与通常持续运行的本地Spark集群不同,datproc集群通常是短暂的。你可以在需要的时候启动它们,在工作结束的时候关闭它们——这些能力可以带来显著的节省。

Cloud Dataflow是一个用于蒸汽和批处理的托管服务,非常适合在分析之前对大型数据集进行预处理。云数据融合(Cloud Data Fusion)是GCP服务集的最新成员,它也可用于提取、转换和加载(ETL)和ELT工作流。

4.使用SQL构建模型

存储在这么多的结构化数据中关系数据库, SQL是一项必要的数据科学技能。GCP提供了BigQuery,这是一个托管的分析数据库SQL作为查询语言。

更重要的是,BigQuery SQL允许用户在SQL中创建回归和分类模型,包括线性回归,二进制和多类逻辑回归,K表示聚类,时间序列预测和XGBoost以及允许用户运行TensorFlow模型。如果您想使用SQL并需要向上缩放到Petabyte卷数据集,则BigQuery是一个考虑的选项。

5.讲述你的故事

一旦您完成了分析,就该构建数据背后的故事,并在整个组织中共享这些结果。像Cloud Data Studio这样的工具使团队能够构建交互式仪表板,包括可以帮助非技术团队成员更好地理解数据故事的可视化。

云数据工作室集成了BigQuery以及其他服务,包括谷歌Analytics和谷歌Ad。随着谷歌的收购流行商业智能平台,Looker在美国,客户现在有了一个高端的商业智能分析和报告平台,可以让他们理解不断涌入公司的数据。

要开始使用GCP中的数据进步,我建议您通过完成来构建平台的基础知识级别谷歌准云工程师认证.通过此考试所需的技能会对计划和配置云解决方案,监视云操作,部署应用程序,管理公司的云环境等所需的理解,创建了了解云解决方案所需的GCP基础知识。

赋予你的团队。引领行业。

通过Udemy for Business订阅您组织的在线课程和数字学习工具图书馆。

请求演示

页面最后更新:7月2020年