丹沙利文

随着云采用允许公司扩展其技术基础架构,了解如何利用存储在云服务器中的所有数据成为竞争命令。公共云平台允许数据科学家收集深层洞察,因为服务支持数据科学的全部生命周期,从数据探索和收集到部署模型或解释一个人的调查结必威中文官网果。

混合和多云基础设施越来越受欢迎,公司不必依赖一个供应商的每个云都需要。数据团队在谈到时具有各种各样的选择工具和平台几个因素会影响我们所做的选择。这就是为什么我鼓励公司和学生考虑在其多云结构中的任何数据科学应用程序中考虑Google云平台(GCP)解决方案。

GCP作为公共云基础设施提供商正在越来越受欢迎,目前在亚马逊的AWS和Microsoft的Azure之后作为第三大公共云提供商等级。每一个云提供商在功能方面都提供自己的优点和缺点,但我觉得GCP真的从竞争对手中脱颖而出,是在数据科学和机器学习中。

在本文中,我将分享五个差点,使GCP成为数据科学团队的强大工具。

1.易用性

用户注意到的第一件事之一谷歌云平台(GCP)是使用虚拟机和云存储器开始的容易。数据科学家可以从图形用户界面旋转虚拟机和容器,上传数据和启动分析作业。此外,GCP为许多基础架构配置参数提供合理的默认值,这意味着数据科学家花费更少时间配置防火墙规则和安全组等内容。

如果您正在使用大型数据集,则可以将数据上传到云存储,在其中您可以在几个类别的存储中选择。如果您需要从不同地理区域的数据的低延迟访问权限,则可以使用多区域存储;较少频繁访问的数据可以存储在近线或冷线存储中。同样,所有这些都可以通过图形用户界面来完成。

Google Associate Cloud Engineer:获得认证2021

上次更新6月2021日

  • 111讲座
  • 中级水平
4.4 (5,039)

了解如何从为谷歌编写官方认证指南的人中考试丹苏里瓦

探索课程

2.计算选项范围

GCP提供各种计算资源,您可以为您选择,为您的需求选择最佳配置。如果您需要完全控制服务器和操作系统,则可以使用Compute Engine。托管实例组使得可以轻松创建实例并根据需求自动缩放它们。

如果您愿意部署容器,Kubernetes发动机提供托管群集,而云运行是运行无状态容器的无要选项。Compute Engine和Kubernetes Engine都支持GPU和TPU。

3.数据科学的托管服务

花费时间配置和管理服务器将带走可能花费分析数据和构建模型的时间。使用GCP,团队可以使用托管服务来减少常见数据科学工作的运营开销。

Cloud DataProc是一个托管的火花/ Hadoop服务,允许您快速旋转群集。与通常不断运行的前提的火花群不同,DataProc集群通常是短暂的。当您需要它们并在您的工作结束时关闭它们时,请启动它们 - 能够导致大量储蓄的功能。

Cloud DataFlow是蒸汽和批处理的托管服务,并且非常适合在分析之前预处理大数据集。GCP一组服务更新,云数据融合也可用于提取,转换和负载(ETL)和ELT工作流程。

4.使用SQL构建模型

存储在这么多的结构化数据中关系数据库,SQL是一项基本数据科学技能。GCP提供了一个使用的管理分析数据库BigQuerySQL.作为查询语言。

更重要的是,BigQuery SQL允许用户在SQL中创建回归和分类模型,包括线性回归,二进制和多类逻辑回归,K表示聚类,时间序列预测和XGBoost以及允许用户运行TensorFlow模型。如果您想使用SQL并需要向上缩放到Petabyte卷数据集,则BigQuery是一个考虑的选项。

5.讲述你的故事

完成分析后,是时候建立了数据背后的故事并在组织中分享这些结果。像云数据工作室这样的工具使能团队构建交互式仪表板,包括可帮助非技术团队成员更好地理解数据故事的可视化。

Cloud Data Studio与BigQuery以及其他服务集成,包括Google Analytics和Google广告。随着谷歌收购流行商业智能平台,景族,客户现在拥有高端的商业智能分析和报告平台,可供他们使用涌入公司的日益增长的数据。

要开始使用GCP中的数据进步,我建议您通过完成来构建平台的基础知识级别谷歌助理云工程师认证。通过此考试所需的技能会对计划和配置云解决方案,监视云操作,部署应用程序,管理公司的云环境等所需的理解,创建了了解云解决方案所需的GCP基础知识。

赋予你的团队。引领行业。

通过Udemy为Business获取组织的在线课程和数字学习工具库的订阅。

请求演示

页面上次更新:7月2020年