Python数据分析,一般第一步就是读取数据,这篇详解pandas读取数据read_csv。
-
read_csv函数参数
几个常用的参数包括path、sep、header、index_col、names、skiprows、na_values、nrows、skip_footer、encoding。下面主要对这几个参数解释 。

-
读取文件,必要参数path给出文件路径,encoding设置csv文件编码格式,默认为“utf-8”,这里文件格式为“gbk”。

-
sep给出文件分隔符,默认为‘,’,这里文件分隔符也是‘,’,如果分隔符为其他符号,可以用此参数。

-
header默认为0,表示第0行为标题,可以给定None表示文件无标题,同时在header为None时可以给定参数names来给定列名。


-
skiprows可以选择忽略前面的行数,通过下图可以对比使用skiprows前后的shape。

-
na_values可以用来替换NA值,当然这里我的数据没有NA,如果有的话可以用这个参数。
-
nrows从文件开始时选取需要读取的行数。可以看到使用nrows=3之后,数据只有前三行。(df.head()默认读取前五行)

-
skipfooter从文件末尾选择需要忽略的行数。忽略了28行之后,只剩下前五行了。

我们下次再见,如果还有下次的话!!!
欢迎关注微信公众号:516数据工作室

本文详细解析Python中Pandas库的read_csv函数,涵盖path、sep、header等关键参数的使用,帮助读者掌握高效读取和预处理CSV数据的方法。
5172

被折叠的 条评论
为什么被折叠?



