这里不再讲解python的基础部分,直接回顾一下python的pandas库和numpy库,再学习一下办公自动化和爬虫,什么?你说matplotlib可视化库?拜托,我有BI工具,谁还会用python的可视化啊。
Python在数据处理和准备???直做得很好,但在数据分析和建模??就差?些。pandas帮助填补了这?空?,使您能够在Python中执?整个数据分析?作流程,?不必切换到更特定于领域的语?,如R(小声逼逼)。
第一部分 数据结构
第?节 Series
?列表?成 Series时,Pandas 默认?动?成整数索引,也可以指定索引
第?节 DataFrame
DataFrame是由多种类型的列构成的?维标签数据结构,类似于 Excel 、SQL 表,或 Series 对象构成的字典。
=创建一个二维表格,既有行索引又有列索引。(index表示行。columns表示列)
==上面就是简单说一下这两个数据结构的创建
第二部分 数据查看
查看DataFrame的常?属性和DataFrame的概览和统计信息
=创建一个随机的150,3的二维数组,行索引默认,列索引就用a,b,c
再查看开头5个,末尾5个,描述性统计
==这些是python查看数据信息的基本函数,并且挺常用的,特别是最后两个。
第三部分 数据输入与输出
第一节 csv
=创建一个0-50随机的50,5的二维数组,列名为1,2,3,4,5.
=将其保存csv到当前路径下,分割符为;,保存行和列的索引
=按上述条件加载
==注意一下,这里面保存文件的参数,保存时是可以选择是否保存索引的,而加载时,是可以选择索引列的,这些不用硬背,用多了就会了,忘了就回来看一看。
第?节 Excel
==多了一个sheet name
第三节sql
注意这里要使用sql的话,是需要装一个包的,上面写了。
第四部分 数据选取
第一节 获取数据
第二节 标签选择
第三节位置选择
以上三个都是简单的取数,前面的文章有讲过。
第四节 Boolean索引
第五节 赋值操作
以上都是基础操作,但不能因为基础就随意看看,最好是自己练习练习,时间不多,这里就不单独写一篇作业集了。
第五部分数据集成
pandas 提供了多种将 Series、DataFrame 对象组合在?起的功能
第?节 concat数据串联
=创建两个数组,按行叠加
==在进行数据合并的时候,可以使用concat这个函数,注意这个函数内部的参数除了要和并的两个表以外还有一个axis,这个是合并的维度 ,0的时候是按行,1的时候是按列。
第?节 插?
第三节 Join SQL?格合并
数据集的合并(merge)或连接(join)运算是通过?个或者多个键将数据链接起来的。这些运算是关系型数据库的核?操作。pandas的merge函数是数据集进?join运算的主要切?点。
注意,这里的合并数据的方法,使用的merge函数,其内部的参数有两个表,然后how,on分别是连接方式和连接字段。
第六部分 数据清洗
=创建数据,然后查找其重复值,并去除,
=然后过滤空值,删除空数据,填充空数据为0
=删除某行和某列
这一部分感觉非常重要,也是我们最常用的地方,首先是重复数据,然后是空数据处理,然后是指定行列的去除。
注意重复数值那里两个duplicate是不同的,一个加d一个加s;删除行列必须要标注axis的取值。
注意pandas的dataframe在创建时可以是3维的数据,index并不是列名,在用filter时需要使用axis来判断行或者列。
异常值过滤这一套操作还是很秀的。