Alexander Hagmann.

了解如何将Pandas DataFrame导出到CSV文件是每个数据科学家工具包的重要技能。Pandas是一种基于Python的数据操作工具,流行的数据科学使用。数据专家使用DataFrame,常见的熊猫对象并表示一个表,合并,操作和分析表格数据。

在Pandas编码会话结束时,需要保存任何数据和进度。这样做的最常见方法是将Dataframe写入CSV文件,这是一个简单的文本文件。它是存储和交换表格数据的最常见和最简单的方法。CSV文件格式是因为它被其他应用程序广泛支持,包括Excel,Open Office和Tableau。

将Dataframes导出到CSV的一些典型用例包括:

完整的Pandas Bootcamp 2021:数据科学与Python

上次更新6月2021日

收视率最高
  • 325讲座
  • 各级
4.7 (2,086)

PANDAS充分解释|150+练习|必须有机器学习和金融技能|+ Scikit-reath和Seaborn |由Alexander Hagmann.

探索课程

将Pandas DataFrames导出到CSV文件的基础知识

要理解DataFrame DF。作为第一步,我们必须使用熊猫库进口熊猫作为PD

进口熊猫作为PD

pd.dataframe()我们可以创建一个简单的dataframe对象。

df = pd.dataframe(Data = {“名称”:[“Lionel Messi”,“Cristiano Ronaldo”,“Neymar Junior”,“Kylian Mbappe”,“Manuel Neuer”,“Country”:[“阿根廷”,“葡萄牙“,”巴西“,”法国“,”德国“,”Height_m“:[1.70,1.87,1.75,1.78,1.93]})DF

dataframe是二维标记数据结构。在我们的示例中,DF有五行和三列。每一行代表一个足球播放器,每列包含有关玩家的信息。左侧的“列”不是列。这是Dataframe的索引。索引标记行。如果未指定,则DataFrame具有带升序整数的RangeIndex。在dataframe的顶部是列标题。

要将DataFrameS写入CSV文件,我们可以使用DataFrame方法to_csv()。一个直接的例子是:

df.to_csv(“players.csv”)

这会创建CSV文件Players.csv.。打开文件时,我们可以看到以下结构:

,名称,国家/地区,高度_M 0,Lionel Messi,阿根廷,1.7 1,Cristiano Ronaldo,Portugal,1.87 2,Neyymar Junior,Brazil,1.75 3,Kylian Mbappe,France,1.78 4,Manuel Neuer,德国,1.93

CSV文件是一个分隔的文本文件,它使用逗号来分隔值。您仍然可以看到表格数据结构。每行文件是数据记录 - 足球播放器。每个记录由一个或多个值组成 - 播放器信息 - 用逗号分隔。

根据用例,我们可以自定义导出。方法to_csv()提供多个选项(参数)以微调最终输出。

5种方法来定制熊猫到CSV

  1. 定义文件名和位置

第一个也是最重要的参数是path_or_buf.。在这里,您可以定义:

玩家是一个适当的文件名。您可以选择一个不同的文件名。但不要使用任何空格(足球运动员)或特殊字符。如果您的文件名包含两个或多个单词,请使用下划线(足球运动员)。

使用csv filetype(.csv.)如果没有另有指定。或者,您可以使用的是您可以通过使用来写入TXT文件。文本文件扩大。

保存在当前工作目录中

如果您未指定具有完整路径的位置,Pandas将保存当前工作目录(CWD)中的文件:

df.to_csv(path_or_buf =“players.csv”)

这节省了Players.csv.在你的cwd。请注意,您可以省略“path_or_buf =.“。

在指定位置保存

CWD可能会有所不同,取决于您的系统和您的Python安装。因此,您可以通过添加完整文件路径来定义指定的位置。拯救Players.csv.在Windows桌面上,您将添加路径C:\用户\ Alex \ Desktop \Players.csv.

Windows上的完整文件名是:C:\用户\ Alex \ Desktop \ Players.csv

麦克斯和Linux上的完整文件名是:/users/alex/desktop/players.csv.

请注意,Windows使用Backslash(“\”)而不是斜杠(“/”)。由于Backslash是Python中的特殊字符,因此使用以下代码将丢弃错误:

df.to_csv(“C:\用户\ Alex \ Desktop \ Players.csv”)

如何解决此问题有两种方法:

df.to_csv(“c:/users/alex/desktop/players.csv”)
df.to_csv(r“c:\ users \ alex \ desktop \ players.csv”)

在MacOS和Linux上,单一最佳解决方案是:

df.to_csv(r“c:\ users \ alex \ desktop \ players.csv”)

  1. 导出索引

to_csv()方法默认导出索引。您可以通过添加来删除索引index = false.

df.to_csv(“players.csv”,index = false)

让我们在CSV文件中查看:

姓名,乡村梅西梅,阿根廷,1.7克里斯蒂亚诺·罗纳尔多,葡萄牙,1.87 Neymar Junior,Brazil,1.75 Kylian Mbappe,France,1.78 Manuel Neuer,德国,1.93

一个简单的规则:如果您的DataFrame具有默认RANAYINDEX,请不要导出索引,因为它不包含任何有价值的信息。如果您从CSV恢复数据集pd.read_csv(),可以在DataFrame中列出索引。

您应该什么时候出口索引?在您在索引中具有重要信息的情况下。以下dataframe.股票包含微软(MSFT)和Apple(AAPL)的股票价格:

此DataFrame具有带日期信息的索引,这是一个DateTimeIndex.。在此示例中,您不应该丢弃索引。

Stocks.to_csv(“Stocks.csv”)

CSV文件Stocks.csv.仍包含DateTime信息:

日期,AAPL,MSFT 2020-05-04,293.16,178.84 2020-05-05,297.56,180.76 2020-05-06,76 2020-05-06,300.63,182.54 2020-05-07,303.74,183.60 2020-05-08,31013,184.68
  1. 选择列

如果未指定,to_csv()将DataFrame的所有列写入CSV。您可以选择一个或多个列并省略所有其他列。

创建列表(我的列表)与您希望出口的列(例如,姓名和国家)。

my_list = [“名称”,“国家”]

经过我的列表列=

my_list = [“名称”,“国家”]
  1. 导出列标题

to_csv()默认情况下的方法将列标题(例如国家/地区)写入CSV。您可以通过添加来删除这些列标签标题= false.

df.to_csv(...,header = false)
  1. 所有其他选择要小心

有14个其他参数可以进一步自定义导出to_csv()。最好在此处使用默认设置。

在极少数情况下,替代设置可能是合适的。让我们考虑两个选项:

更改分隔符(不推荐)

在CSV文件中,值由逗号分隔。您可以更改分隔符并使用分号(“;”)。通过引号通过所需的分隔符SEP =

df.to_csv(...,sep =“;”)

定义缺失数据的替代表示(不推荐)

将Dataframes写入CSV时,缺少数据由空字符串(“”)表示。您可以通过将其传递给的替代表示(例如“无”)来定义替代表示na_rep =.

df.to_csv(...,na_rep =“none”)

数据科学家经常将Pandas DataFrames写入CSV。这to_csv()方法提供了许多选项来自定义导出。如果要保存数据,直到下一个编码会话,请执行以下操作:

df.to_csv(“file_name.csv”,index = false)#如果df包含一个范围Index df.to_csv(“file_name.csv”)#如果索引包含重要信息

这允许您使用简单的代码重新移动数据转换为Pandas:

pd.read_csv(“file_name.csv”,......)

在所有其他情况下,您可以根据您的需求自定义导出。
现在您有能够执行这一重要的熊猫任务的技能,您可以了解更多关于熊猫的信息文件或通过开始Pandas Bootcamp.

页面上次更新:2020年8月

熊猫的顶级课程

使用Pandas MasterClass进行数据操作
Francesco Mosconi,数据周末
4.5 (24)
新的
终极熊猫Bootcamp:高级Python数据分析
安迪贝克
4.7 (339)
畅销书
用熊猫完成数据分析:实践熊猫Python
Ankit Mistry,数据科学与机器学习学院
4.6 (617)
使用Python&Pandas管理财务数据:唯一的MasterClass
Alexander Hagmann.
4.7 (433)
畅销书
完整的Pandas Bootcamp 2021:数据科学与Python
Alexander Hagmann.
4.7 (2,086)
收视率最高
熊猫和Python的数据分析
Boris Paskhaver.
4.7 (13,572)
畅销书
Python中的数据操作:Pandas Crash课程
塞缪尔亨顿,辉煌队
4.6 (873)
畅销书
Pandas Library用于数据科学(一体化)
Shambhavi Gupta.
4.6 (24)
新的

更多熊猫课程

熊猫学生也会学习

赋予你的团队。引领行业。

通过Udemy为Business获取组织的在线课程和数字学习工具库的订阅。

请求演示

Alexander Hagmann的课程

完整的Pandas Bootcamp 2021:数据科学与Python
Alexander Hagmann.
4.7 (2,086)
收视率最高
使用Python&Pandas管理财务数据:唯一的MasterClass
Alexander Hagmann.
4.7 (433)
畅销书
使用Python从免费Web源导入金融数据
Alexander Hagmann.
4.7 (197)
完成2合1 Python用于商业和金融训练营
Alexander Hagmann.
4.7 (507)
收视率最高
Python数据科学与熊猫:硕士12个高级项目
Alexander Hagmann.
4.4 (313)
畅销书
Python for Excel:使用xlwings进行数据科学和金融
Alexander Hagmann.
4.6 (273)
畅销书
算法交易A-Z配有Python,机器学习和AWS
Alexander Hagmann.
4.6 (571)
畅销书
用Python进行算法交易的技术分析
Alexander Hagmann.
4.5 (107)
畅销书

Alexander Hagmann的课程