书城管理中国股市个体投资者行为实证研究
6332800000005

第5章 数据库描述及处理

本书共使用了三个大型数据库,并根据各章节实证问题的需要对数据库进行了处理,用于统计、计算所需要的有关指标。如果没有特殊说明,本书所有表格的数据,都是基于这三个数据库的数据统计、计算及回归而产生,所有的回归分析都是使用Eviews软件。

1.行情数据库。

该数据库是深沪两市所有A股自上市以来的所有交易信息,包括:每个交易日的开盘价、收盘价、最高价、最低价和成交数量、成交金额等,还包括所有的除权信息和分红信息。该数据库来自上海万得(Wind)资讯科技有限公司。

数据库处理:对股票行情数据,我们采用后向复权法将股票价格复权(复权期间为1998年2月23日至2004年8月20日)。

2.投资者交易数据库。

该数据库是某证券公司一个营业部自1998年2月至2004年8月的全部交易数据,包括3万多个股东账户和270多万条交易记录。每一条交易记录包括股票账户、交易股票名称和代码、交易数量、交易价格、资金发生量、交易性质等。为了实证研究我国个体投资者的行为,我们对原数据库进行了筛选和剔除:首先我们筛选出深沪两市的A股交易记录;然后筛选资金余额和持有股票市值的和大于50万元人民币的账户和单笔交易金额大于20万元的账户,将所筛选出来的账户的所有交易记录剔除;最后我们剔除所有的申购、配股和分红记录。

因此,本书对个体投资者行为进行实证分析,所运用的交易数据库为某证券公司营业部共10154个股东账户自1998年2月23日至2004年8月20日的交易数据库。股票交易数据库是投资者每次股票交易的信息,包括:交易日期、股东账号、交易类别、股票代码、业务标志、成交数量、成交价格、成交金额、成交时间、股票类别等。

数据处理:利用行情数据库中的复权信息,对交易数据库中所有的股票交易价格进行后向复权调整,使得交易数据库中股票的交易价格具有可比性。

3.股本规模数据库。

该数据库是关于所有股票各年股本规模(size)的数据库,也是来自上海万得(Wind)资讯公司。该数据库包括所有股票自上市以来各年底统计的总股本、流通股本数量。由于中国股票市场股权设置的二元结构,本书根据各股票流通股本数量对各股票进行分类。根据各年底股票流通股本规模将其分成四类,分类标准为小于等于5000万股(规模1)、大于5000万股并小于等于10000万股(规模2)、大于10000万股并小于等于20000万股(规模3)、大于20000万股(规模4)(其中有些股票由于增发、送配股等原因在各年份的流通股本规模可能会发生变化,因此,其有可能在不同的年份统计在不同的规模之内)。

4.市场态势数据库。

本书为了研究市场态势对投资者交易行为的影响,从整体交易数据库中选取了四个时间区间,来作为上涨行情和下跌行情样本的统计区间。按照该时间区间,将交易数据库分成四个数据库,分别用于相关的统计。