用途
确认变量间的因果关系,即x导致y
因果关系识别困难的原因
1.可能存在逆向因果关系或者双向因果关系
2.遗漏变量对当前变量的影响
扰动项可以很好的避免上述问题,计量经济学的精髓就在于扰动项。
经济学通常无法做控制试验,一般都是观测数据(调查问卷,统计局等)
所有的经济学变量原则上都是随机变量。
数据类型:
1.横截面数据,指的是多个经济个体的变量在同一时点上的取值。
2.时间序列数据,指的是某个经济个体的变量在不同时点上的取值。
3.面板数据,指的是多个经济个体在不同时点上的取值。
stata常用命令
.clear清空数据集
.use E:\delta ,clear 打开数据集,其中逗号为选择项
变量名建议使用小写字母
.describe,缩写d可以审视数据
.list s 查看s的具体数据
.set more off连续滚屏显示命令运行结果
.set more on 回复分页显示结果
.list s in 1/5只查看前五个数据
.list s if s>16 查看s>16的所有数据
.drop if s >16 删除s>16的数据
.keep if s>16 保留s>16数据
.sort s 按照s变量升序排列
.gsort -s按照变量的降序排列
画图
.histogram s width(1) freqence w表示组宽设置为1,freq表示将纵坐标定为频数,默认为密度。
.scatter s lnw画两个变量之间的散点图
.help 命令 可以查看帮助文件
.gen n = _n定义变量n表示第n个观测值
.scatter s lnw,mlabel(n)标注作用
.kdensity lnw,normal normop(lpattern(dash))核密度估计,normal表示画正态分布的密度函数作为对比,normop表示将正态密度用虚线来画,lpattern表示线条类型。
two kdensity lnw || kdensity lnw if s==16 画两个图进行对比
统计分析
.summarize s ,detail查看s变量的统计特征,如样本容量,标准差等等 detail查看详细
.tabulate s 经验累积分布函数,累积百分比,频数等参数
.pwcorr lnw s expr, sig star(.05)两两相关,sig表示显示相关系数的显著性水平,star表示给所有显著性水平小于或等于5%的相关系数打上星号。
.normal(X),normalden(X)分别表示累积分布函数和标准正态的密度函数,normalden(x,m,s)m为期望,s为标准差
.twoway function y = normalden(x),range(5,5) xline(0) ytitle(概率密度)表示在横轴区间(-5,5)上画图,在x=0处画一条直线,function表示后面将以函数的形式书写
卡方分布:chi2den(k,x)卡方分布的概率密度;chi2(k,x)表示累积分布函数
t分布:tden(k,t),t(k,t)
F分布:Fden(k1,k2,x),F(k1,k2,x)
生成新变量
.generate lns = log(s)生成教育年限的对数函数
在计量经济学中,常使用虚拟变量,即取值只能为0或者1的变量。
.gen college = (s>=16),如果此事为真,则取值为1,否则取值为0
.rename college col 重命名命令
.replace college = (s>=15)重新定义
对于较长的变量名,输入变量名较麻烦,三个方法
1.变量窗口双击需要的变量
2.对s1,s2,s3这三个变量一起引用则需要s1-s3即可表示
3.使用星号来简化变量名的书写,例如.drop s*表示删除掉内存中所有以s开头的变量
计算器的功能
.display expression 计算功能
调用命令和终止命令
1.命令窗口pgup pgdn
2.在历史命令单击旧命令,进入编辑;双击执行
Ctrl+break终止命令
日志
file->log->begin定义日志文件
.log using today 使用today文件名创建日志
.log off暂时关闭日志
.log on恢复使用日志
.log close 彻底退出日志
命令库的更新
如果发现极少数的命令无法运行,则可以在命令窗口输入.update all
1.http://ideas.reoec.org/s/boc/bocode.html
.ssc install newcommand所有下载与安装自动完成
2.把下载的相关文件放入指定的ado\plus中
直接使用.sysdir查看路径
.search keyword搜索估计方法
.findit keyword搜索范围更广
自学网站
Stata UCLA即可找到此网站
Stata十八讲
Stata手册
微积分,线性代数,概率论基础知识补充
正态分布的偏度为0,峰度为3
多维正态的概念
矩的概念。
二次型,协方差矩阵的运用
E(AX) = A E(X)
Var(X) = E(XX')-E(X)[E(X)]'
Var(AX) = A Var(X) A'
迭代期望定律:E(Y) = EX(E(Y|X)),即无条件期望等于条件期望的加权平均
如果是离散变量,则有E(Y) = sum(P(X)*E(Y|X))
均值独立:如果条件期望E(Y|X)存在,但不依赖于X。均值独立不是一个对称关系。E(Y|X) = E(Y)
如果X与Y相互独立,则相互均值独立。
相互独立-》均值独立-》线性不相关,反之不然
t分布的平方为F分布
均方误差MSE的概念