亚历山大·哈格曼

了解如何将数据帧导出到CSV文件是每个数据科学家工具包中的一项基本技能。Pandas是一个基于Python的数据操作工具,在数据科学中很受欢迎。数据专家使用DataFrames(一种公共对象)来合并、操作和分析表格数据,DataFrames表示一个表。

在panda编码会议结束时,任何数据和进度都需要保存。最常见的方法是将DataFrames写入CSV文件,CSV文件只不过是一个简单的文本文件。这是存储和交换表格数据最常见、最简单的方法。CSV文件格式之所以如此,是因为它得到了Excel、Open Office和Tableau等其他应用程序的广泛支持。

将数据帧导出到CSV的一些典型用例包括:

完整熊猫训练营2021:使用Python的数据科学

2021年9月

最高评级
  • 325次讲座
  • 各级
4.7 (2,326)

熊猫全面解释| 150+练习|必须具备机器学习和金融技能|+Scikit学习和Seaborn|亚历山大·哈格曼

探索课程

导出熊猫DataFrames到CSV文件的基础知识

要理解DataFrame df。作为第一步,我们必须用进口大熊猫作为pd

进口大熊猫作为pd

pd.DataFrame ()我们可以创建一个简单的DataFrame对象。

df = pd。DataFrame(data = {"Name": ["Lionel Messi", "Cristiano Ronaldo", "Neymar Junior", "Kylian Mbappe", "Manuel Neuer"], "Country":["阿根廷","葡萄牙","巴西","法国","德国"],"Height_m": [1.70, 1.87, 1.75, 1.78, 1.93]}) df

DataFrame是一种二维标记数据结构。在我们的例子中,df有5行3列。每一行表示一个足球运动员,每一列包含关于运动员的信息。左边的' column '不是column。它是数据帧的索引。索引对行进行了标记。如果未指定,DataFrames有一个升序整数的RangeIndex。在DataFrame的顶部是列标题。

要将数据帧写入CSV文件,我们可以使用DataFrame方法to_csv().一个简单的例子是:

df.to_csv(“players.csv”)

这将创建CSV文件players.csv.打开文件时,我们可以看到以下结构:

,姓名,国家,身高0米,莱昂内尔·梅西,阿根廷,1.71,克里斯蒂亚诺·罗纳尔多,葡萄牙,1.87 2,内马尔·朱尼尔,巴西,1.75 3,基里安·姆巴佩,法国,1.78 4,曼努埃尔·诺伊尔,德国,1.93

CSV文件是使用逗号分隔值的分隔文本文件。您仍然可以看到表格数据结构。文件的每一行都是数据记录–足球运动员。每条记录由一个或多个值组成–球员信息–用逗号分隔。

根据用例的不同,我们可以自定义导出to_csv()提供几个选项(参数)来微调最终输出。

将熊猫自定义为CSV的5种方法

  1. 定义文件名和位置

第一个也是最重要的参数是path_or_buf. 您可以在此处定义:

球员是适当的文件名。您可以选择一个不同的文件名。但不要使用任何空格(足球运动员)或特殊字符。如果文件名包含两个或多个单词,请使用下划线(football_players).

使用CSV文件类型(. csv),如未另作说明。或者,您可以写TXT文件使用.txt扩大

保存在当前工作目录中

如果没有指定完整路径,Pandas会将文件保存在当前工作目录(CWD)中:

df.to_csv(path_或_buf=“players.csv”)

这节省了players.csv在您的CWD中。请注意,您可以省略“path_or_buf =“.

保存在指定位置

CWD可能会有所不同,这取决于您的系统和Python安装。因此,您可以通过添加完整文件路径来定义指定位置。要保存players.csv在Windows桌面上,您将添加路径C:\Users\alex\desktop\players.csv

Windows上的完整文件名为:C:\Users\alex\desktop\players.csv

macOS和Linux上的完整文件名为:/用户/亚历克斯/桌面/ players.csv

请注意,Windows使用反斜杠(\)而不是斜杠(/)。由于反斜杠在Python中是一个特殊字符,因此使用以下代码将删除一个错误:

df.to_csv(“C: \用户桌面\ \ alex \ players.csv”)

有两种方法可以解决这个问题:

df.to_csv(“C: /用户/亚历克斯/桌面/ players.csv”)
df.to_csv (r”弗格森C: \用户\ \电脑\ players.csv”)

在macOS和Linux上,唯一的最佳解决方案是:

df.to_csv(r“C:\Users\alex\desktop\players.csv”)

  1. 导出索引

to_csv()方法在默认情况下导出索引。您可以通过添加来删除索引指数= False

df.to_csv(“players.csv”,index=False)

让我们来看看CSV文件:

姓名、国家、身高、阿根廷莱昂内尔·梅西、葡萄牙1.7克里斯蒂亚诺·罗纳尔多、巴西1.87内马尔、法国1.75基里安·姆巴佩、德国1.78曼纽尔、1.93

一个简单的规则:如果数据帧具有默认范围索引,请不要导出该索引,因为它不包含任何有价值的信息。如果使用从CSV重新导入数据集pd.read_csv (),索引可能会在数据帧中列出两次。

何时导出索引?在索引中包含重要信息的情况下。下面的数据帧股票包括微软(Microsoft)和苹果(Apple)的股价:

此数据帧有一个包含日期时间信息的索引,它是日期时间索引. 在本例中,不应删除索引。

stocks.to_csv(“stocks.csv”)

CSV文件stocks.csv仍然包含日期时间信息:

日期,AAPL,MSFT 2020-05-04 293.16,178.84 2020-05-05 297.56 180.76 2020-05-06 300.63 182.54 2020-05-07 303.74 183.60 2020-05-08 310.13,184.68
  1. 选择列

如果不指定,to_csv()将数据帧的所有列写入CSV。您可以选择一列或多列,并忽略所有其他列。

创建一个列表(my_list)和您希望导出的列(例如名称和国家)。

my_list = ["Name", "Country"]

通过my_list列=

my_list = ["Name", "Country"]
  1. 导出列标题

to_csv()方法默认写入列标题(例如国家)到CSV。您可以通过添加来删除这些列标签头= False

df.to_csv(…, header = False)
  1. 小心所有其他选择

还有14个附加参数用于进一步定制导出to_csv()。最好在此处使用默认设置。

在极少数情况下,替代设置可能是适当的。让我们考虑两个选项:

更改分隔符(不推荐)

CSV文件中,值之间用逗号分隔。您可以更改分隔符并使用分号(";")代替。将所需的分隔符用引号传递给9月=

df.to_csv(…,sep=“;”)

定义丢失数据的替代表示(不推荐)

当将DataFrames写入CSV时,丢失的数据用一个空字符串(" ")表示。你可以通过传递给定义一个替代表示(例如“None”)纳乌代表=

df.to_csv(…,na_rep=“无”)

数据科学家经常将数据帧写入CSV。这个to_csv()方法提供了许多自定义导出的选项。如果要将数据保存到下一个编码会话,请执行以下操作:

df.to_csv(“file_name.csv”,指数= False) #如果df包含RangeIndex df.to_csv (file_name.csv) #如果索引包含重要的信息

这允许您使用简单的代码将数据重新导入熊猫:

pd.read\u csv(“file\u name.csv”,…)

在所有其他情况下,您可以根据需要自定义导出。
现在您已经掌握了执行这个重要的Pandas任务的技能,您可以通过它来了解更多关于Pandas的信息文档或者通过开始熊猫训练营

页面最后更新:2020年8月

熊猫的顶级课程

使用Python进行数据科学
考试的地盘
4.5 (95)
终极熊猫训练营:高级Python数据分析
安迪Bek
4.8 (479)
畅销书
Python中的数据分析。熊猫入门速成班
贾尔斯McMullen-Klein
4.6 (27)
使用Pandas完成数据分析:实践Pandas Python
Ankit Mistry,数据科学与机器学习学院
4.5 (648)
熊猫大师班:熊猫高级数据分析
数据是好的
4.5 (107)
使用Pandas和Python进行数据分析
鲍里斯·帕斯卡弗
4.6 (14538)
畅销书
Python中的数据操作:熊猫速成班
塞缪尔·辛顿,光明队
4.6 (1002)
完整熊猫训练营2021:使用Python的数据科学
亚历山大·哈格曼
4.7 (2,326)
最高评级
使用Python和Pandas管理财务数据:独特的Masterclass
亚历山大·哈格曼
4.8 (483)
畅销书

更多的熊猫课程

熊猫学生也学习

让你的团队。领导行业。

使用Udemy for Business订阅您所在组织的在线课程和数字学习工具库。

请求演示

亚历山大·哈格曼的课程

完整熊猫训练营2021:使用Python的数据科学
亚历山大·哈格曼
4.7 (2,326)
最高评级
使用Python和Pandas管理财务数据:独特的Masterclass
亚历山大·哈格曼
4.8 (483)
畅销书
用Python从免费Web资源导入金融数据
亚历山大·哈格曼
4.7 (230)
完成2合1 Python for Business and Finance训练营
亚历山大·哈格曼
4.6 (590)
Python数据科学与熊猫:掌握12个高级项目
亚历山大·哈格曼
4.6 (344)
畅销书
Python for Excel:使用xlwings用于数据科学和金融
亚历山大·哈格曼
4.7 (335)
畅销书
用Python、机器学习和AWS进行A-Z算法交易
亚历山大·哈格曼
4.7 (755)
用Python进行算法交易的技术分析
亚历山大·哈格曼
4.6 (186)
畅销书
交易的绩效优化和风险管理
亚历山大·哈格曼
4.6 (22)
畅销书

亚历山大·哈格曼的课程