这里说一下数据分析的工具简介:
这里再mark两本书《谁说菜鸟不会数据分析》,《亚马逊跨境电商数据化》
使用python进行excel数据处理
pycharm一般大型工程时使用,jupyter notebook就平时数据分析使用,可以分步执行代码
Excel文件和csv文件的区别是什么:
1 excel文件的底层是使用tab来进行数据的分割,csv使用的是逗号来分割
2 在使用excel来打开csv文件时,千万不要点击新增sheet页,这会导致数据丢失
使用函数时忘记其内部参数怎么办,选中函数,使用快捷方式shift+tab就可以查看。
pandas的数据类型
series和dataframe
这里的索引是0,1,2,如果想要自己设置索引,在后面加入index即可
在工作中,我们可能会需要只简单查看前5行或者末尾几行,这时候怎么办呢?
当我们想查看数据的详情时,可以使用info
数据的描述
看一下值
查看数据的大小和维度
DataFrame的访问操作
我们想要访问其中某一列或几列的数据该怎么做?
这里可以看出,我们可以依据列名来访问数据,而列名也可以通过上图的方法获得。
对于已知列表,想要依据某个条件来筛选数据,应该怎么做?
在pandas当中,&和|分别表示and和or,而筛选时不要忘记是表名套表名。
前面讲了抽取某列数据的方法,那么某行数据怎么抽取呢,同时抽某行某列怎么做呢
不难看出这里多了一个loc,另外都是中括号里套中括号
然后就是范围性质的行列抽取,这里其实就是多用了一个冒号
这里是对loc的一个小总结,并且指出了loc和iloc的区别
处理loc以外还有at这么一个功能语句,不过at是用来抽取单个值的,同意的前面加上字母“i”之后就只可以识别索引数字了。
接下来说一下数据合并的知识,合并多个sheet或者合并多个excel表格的数据可能会经常用到,这里使用的是concat函数
及时将处理好的文件输出保存
接下来说一下字典数据的增删改查
首先先增加一行爱党,这要如何处理,loc先是行,这个4其实就是索引,后面再加上数据
然后是增加一列增加一列其实很简单,直接定义一个之前未有的列名即可
数据的删除也很简单,使用drop可以直接删去对应索引的数据
加上一个inplace可以控制是否将其作用到原数据上
那么如何删去一列数据呢,其实与上面也很类似。只是这里需要加上一个axis参数。