pandas-读取数据并显示,pd.read_csv(),df.tail(),df.head(),df.shape,df.info(),describe()使用方法

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

dirty-data.csv 里边的数据内容

员工ID,姓名,部门,入职日期,年龄,月薪,月度业绩,考勤天数,学历,在职状态
1001,张三,技术部,2020-03-15,28,8500,12000,22,本科,是
1002,李四,市场部,2021/05/20,35,9800,--,20,硕士,是
1003,王五,,2022-01-08,,7600,8500,18,大专,否
1004,赵六,销售部,2020.11.30,42,12000,25000,25,本科,1
1005,,技术部,2023-07-12,26,6800,NaN,23,本科,是
1006,孙七,市场部,2021-09-05,31,8900,9800,-5,硕士,是
1007,周八,销售部,,33,10500,18000,21,大专,否
1008,吴九,技术部,2022/06/18,29,9200,15000,24,n/a,是
1009,郑十,行政部,2023-02-20,58,7300,6500,19,本科,是
1010,钱十一,市场部,2020-12-03,36,11000,13000,22,博士,否
1011,冯十二,销售部,2021.04.15,,9500,21000,26,本科,是
1012,陈十三,技术部,2022-08-25,27,7900,10000,23,大专,0
1013,褚十四,,2023-03-10,34,8200,9200,,本科,是
1014,卫十五,行政部,2021/10/18,45,6500,5800,17,硕士,是
1015,蒋十六,销售部,2020-06-22,38,13500,30000,24,本科,否
1016,沈十七,市场部,2022.03.05,29,8600,7500,21,大专,是
1017,韩十八,技术部,,32,9800,14000,22,本科,是
1018,杨十九,销售部,2023-05-18,40,11500,23000,25,硕士,是
1019,朱二十,行政部,2021-02-12,52,7800,6200,19,本科,否
1020,秦二十一,市场部,2022-11-08,33,9100,8800,20,博士,是

pd.read_csv 读取数据

# 读取数据
import pandas as pd
df = pd.read_csv('./dirty-data.csv')
# 显示csv 里边的所有的数据
df

员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
01001张三技术部2020-03-1528.085001200022.0本科
11002李四市场部2021/05/2035.09800--20.0硕士
21003王五NaN2022-01-08NaN7600850018.0大专
31004赵六销售部2020.11.3042.0120002500025.0本科1
41005NaN技术部2023-07-1226.06800NaN23.0本科
51006孙七市场部2021-09-0531.089009800-5.0硕士
61007周八销售部NaN33.0105001800021.0大专
71008吴九技术部2022/06/1829.092001500024.0NaN
81009郑十行政部2023-02-2058.07300650019.0本科
91010钱十一市场部2020-12-0336.0110001300022.0博士
101011冯十二销售部2021.04.15NaN95002100026.0本科
111012陈十三技术部2022-08-2527.079001000023.0大专0
121013褚十四NaN2023-03-1034.082009200NaN本科
131014卫十五行政部2021/10/1845.06500580017.0硕士
141015蒋十六销售部2020-06-2238.0135003000024.0本科
151016沈十七市场部2022.03.0529.08600750021.0大专
161017韩十八技术部NaN32.098001400022.0本科
171018杨十九销售部2023-05-1840.0115002300025.0硕士
181019朱二十行政部2021-02-1252.07800620019.0本科
191020秦二十一市场部2022-11-0833.09100880020.0博士
# nrows 只读取3行数据
df = pd.read_csv('./dirty-data.csv',nrows=3,)
df
员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
01001张三技术部2020-03-1528.085001200022本科
11002李四市场部2021/05/2035.09800--20硕士
21003王五NaN2022-01-08NaN7600850018大专
# nrows 只读取3行数据 usecols=[0,1,2] 选择 列的下标 是0,1,2的列
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2])
df
员工ID姓名部门
01001张三技术部
11002李四市场部
21003王五NaN
# header=None 表示标题也算数据的一部分
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2],header=None)
df
012
0员工ID姓名部门
11001张三技术部
21002李四市场部
# skiprows=1 跳过第一行,再取3条数据
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2],header=None,skiprows=1)
df
012
01001张三技术部
11002李四市场部
21003王五NaN

df.head(5)开头几行


df = pd.read_csv('./dirty-data.csv')
# 显示前5行数据
df.head(5)
员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
01001张三技术部2020-03-1528.085001200022.0本科
11002李四市场部2021/05/2035.09800--20.0硕士
21003王五NaN2022-01-08NaN7600850018.0大专
31004赵六销售部2020.11.3042.0120002500025.0本科1
41005NaN技术部2023-07-1226.06800NaN23.0本科

df.tail(5) 显示后几行

# 显示后5行数据
df.tail(5)
员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
151016沈十七市场部2022.03.0529.08600750021.0大专
161017韩十八技术部NaN32.098001400022.0本科
171018杨十九销售部2023-05-1840.0115002300025.0硕士
181019朱二十行政部2021-02-1252.07800620019.0本科
191020秦二十一市场部2022-11-0833.09100880020.0博士

df.shape显示行列数

# 显示数据有 几行几列
df.shape
(20, 10)

df.columns.values获取列名

# 显示数据所有的列名
df.columns.values
array(['员工ID', '姓名', '部门', '入职日期', '年龄', '月薪', '月度业绩', '考勤天数', '学历',
       '在职状态'], dtype=object)

df.info()显示简要信息:

index、列名、每列非空值数量、每列数据类型
df占用内存

# 显示 DataFrame 的简要信息,包括列名、数据类型、非空值数量等
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   物业编号    9 non-null      float64
 1   街道门牌号   8 non-null      float64
 2   街道名称    10 non-null     object 
 3   是否自住    9 non-null      object 
 4   卧室数量    8 non-null      object 
 5   浴室数量    9 non-null      object 
 6   房屋面积    9 non-null      object 
dtypes: float64(2), object(5)
memory usage: 688.0+ bytes

df.describe()展示数据统计量

函数主要展示每个数值列的计数、平均值、标准差、最小值、第25百分位、中位数、第75百分位和最大值。
percentiles:指定要包括的其他百分位数,例如percentiles=[.25, .5, .75]将返回第一、第二和第三四分位数。
include:指定要包括的数据类型,默认为’all’,可以设置为’all’, ‘nums’, 或 ‘object’。
exclude:指定要排除的数据类型。

df.describe(include='all')

物业编号街道门牌号街道名称是否自住卧室数量浴室数量房屋面积
count9.000000e+008.000000109899
uniqueNaNNaN103557
topNaNNaN和平路31950
freqNaNNaN15342
mean1.000056e+08194.875000NaNNaNNaNNaNNaN
std3.205897e+0337.471656NaNNaNNaNNaNNaN
min1.000010e+08104.000000NaNNaNNaNNaNNaN
25%1.000030e+08200.000000NaNNaNNaNNaNNaN
50%1.000060e+08205.000000NaNNaNNaNNaNNaN
75%1.000080e+08213.500000NaNNaNNaNNaNNaN
max1.000100e+08219.000000NaNNaNNaNNaNNaN

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值