1.查找帮助文件的help命令和search命令
- 如果知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。
- 如果想知道在stata下做某个估计或某种计算,而不知道具体该如何实现,就需要用search命令了。使用的方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。
2. do文件相关命令
每次操作的代码最好能用stata的do文件编辑器记下。因为记录下以往工作的do文件将便于我们后期重复此类型的数据操作,减少了“重复造轮子”。在stata窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出现“bring do-file editor to front”,点击它就会出现do文件编辑器。
为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。
- capture clear (清空内存中的数据)
- capture log close (关闭所有打开的日志文件)
- set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)
- set matsize 4000 (设置矩阵的最大阶数。
- cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)
- log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)
- use (文件名),clear (打开数据文件。)
(文件内容) - log close (关闭日志文件。)
- exit,clear (退出并清空内存中的数据。)
3.原始数据
实际进入实证工作前,我们得到的数据大都是原始数据,这些数据拿到之后不能马上就进行分析,还是进行处理,这主要因为原始数据可能会有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数据造成麻烦。因此,拿到原始数据后,往往需要根据需要重新生成新的数据库,并且只使用这个新库处理数据。这部分工作非常重要。
假设我们清楚地知道所需的变量,现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。
检查数据的重要命令包括codebook,su,ta,des和list。其中,
- codebook提供的信息最全面,缺点是不能使用if条件限制范围。
- su空格加变量名报告相应变量的非缺失的观察个数,均值,标准差,最小值和最大值。
- ta空格后面加一个(或两个)变量名是报告某个变量(或两个变量二维)的取值(不含缺失值)的频数,比率和按大小排列的累积比率。
- des后面可以加任意个变量名,只要数据中有。它报告变量的存储的类型,显示的格式和标签。标签中一般记录这个变量的定义和单位。list报告变量的观察值,可以用if或in来限制范围。出了ta命令,其他命令都可以后面不加任何变量名,报告的结果是正在使用的数据库中的所有变量的相应信息。