书城管理中国股市个体投资者行为实证研究
6332800000015

第15章 研究方法及数据

5.2.1 研究方法

在社会活动中,人们常常遇到多重选择决策问题,如在选举中决定投哪个候选人的票、在交通过程中选择何种出行路线等。当寻求建模的数据是离散的、而非连续的时候,常规的回归模型并不适宜于此类决策选择的建模,因此,以效用为基础的分类选择模型就被广泛引入。依据因变量的数量,分类选择模型可分为二元选择模型(Binary Choice Model)和多元选择模型(Multiple Choice Model)。常用的分类选择模型包括:Probit模型、Logit模型和Extreme-value模型。最常用的模型为Logit模型,我们的分析就是基于Logit模型。

Logit模型采用的是逻辑概率分布函数(cumulative logistic probability function),它的具体形式为:

对于给定的Xi,Pi是个体做出某一特别选择的概率。

这个回归方程中的因变量是做某一特别选择的机会比(odds ratios)的对数。Logit模型的一个重要优点是它把在(0,1)上预测概率的问题转化为在实数轴上预测一个事件发生的机会比的问题。

对上式进行估计,我们假定对Xi有Ni个观测数据,且有ni个样本与因变量赋值为1相对应,则我们计算:

并将它看做对应于Xi的真实Pi的估计值。如果Ni相当大,P ^i将是Pi的良好估计。可以证明,如果Ni相当大并且Xi的每一次观察都是独立的(并且服从二项概率分布),则回归方程的随机干扰项εi~N[0,1NiPi(1-Pi)]。回归方程存在异方差性,无法使用普通最小二乘法(OLS)对方程进行回归,而“极大似然估计法”(Maximum likelihood method)可以用来进行估计。

Logit模型中的回归系数的解释:斜率系数β给出X每单位变化的Z的变化,就是说,自变量X每单位的变化,引起赋值为1的选择概率相对于赋值为0的选择的概率比的变化,而不能将其简单地认为是赋值为1的选择的概率的变化。截距α是当解释变量X取值为0时,有利于赋值为1的选择的对数-机会比,像对大多数的截距所做的解释那样,这种解释不一定有什么实际意义。

基于以上方法,我们建立回归模型如下:

Yiα βCRi εi(5-6)

其中,Yi为因变量(取值1或0),CRi为股票i的历史收益率。我们利用Eviews软件的二元Logit模型进行。

5.2.2 样本数据处理及有关指标的计算方法

(1)汇总每个账户股票的买入和出售记录及当天的股票余额记录:包括股东账号、日期、股票名称、交易价格、交易数量等;将没有对应买入记录的卖出记录剔除,然后根据买入记录和卖出记录构建投资者每个卖出交易日的持有股票组合记录;

(2)用二元变量y表示投资者的卖出(y1)和对应决策(持有或买入)(y0);

在卖出对持有决策的研究中,在卖出股票的每一个交易日,检查该投资账户股票组合中的所有股票。在该交易日,若投资者卖出股票,则对应的变量y赋值为1,而对该交易日仍然持有的股票,y的值为0,对于既有卖出也有持有的股票只统计其卖出交易;

在卖出对买入决策中,对交易数据库中的每一笔交易(买入或卖出)进行统计并赋值,卖出股票的变量y赋值为1,买入股票时y的值为0,对于既有卖出也有买入的股票分别统计;

(3)影响投资者卖出、持有(或买入)决策的变量为股票的收益率。对于每一位投资者,以其发生交易的当天为基准,记为0天,前1天记为-1天,以此类推,共计算所统计股票0、-1、-2、-3、-4天的市场收益率,同时计算过去一周(-5,-1)、一个月(-20,-6)、三个月(-60,-21)的累计收益率。收益率的计算方法如下:

0、-1、-2、-3、-4:收益率=收盘价-开盘价

开盘价(5-7)

过去期间累积回报定义为:以Rit代表第i种股票第t日回报,Pit代表第i种股票第t日股价,Pit-1代表第i股票t-1日股价,在本书中我们用股票的收盘价进行计算,如下所示:

Rit(Pit-Pit-1)/Pit-1(5-8)

CR(-m,-n)t-m

t-nRit(5-9)

(4)计算出股票收益率后,将其分为正、负两类,然后用所建模型进行回归估计。