「王小鲁:直面收入分配恶化 不能躺在虚假数据上分析」正文
近日,国家统计局网站上连续登出了王有捐、施发启两位统计官员对我的灰色收入研究报告的商榷(注:下称“研究报告”。该报告题为《灰色收入与国民收入分配》,全文载于中信出版社《比较》第48辑;为中国经济体制改革研究会课题)。随后,他们两位又共同署名,在统计局网站上发表了另一篇文章,表示愿意继续就此问题进行研究,并表示国家统计局准备采取措施来改善居民收入统计中的少报、漏报问题。
他们对我的研究报告进行公开讨论,以及关于改善居民收入统计的表态,是一种积极的态度,我非常欢迎。但这方面的讨论,并不仅限于统计数据的真实性问题,而是进一步关系到如何认识我国当前的收入分配状况、如何应对当前突出的社会矛盾、如何推进改革来解决这些矛盾。我在这方面的研究,也是基于这个出发点而进行的。但搞清真实情况、获得可信数据,是必要的前提。
因此,有必要把双方争议的一些问题搞清楚。本文对他们的商榷做一个回答,意在促使有关收入分配状况的研究更加深入,为解决这些问题提供条件。
1、现行居民收入统计是否真实反映收入分配现状
王有捐、施发启的文章都同意目前的居民收入统计调查“存在漏报和少报的问题”,“高收入群体也较少进入调查样本”;因此居民收入统计“可能存在低估的情况”。两位也认为笔者的研究报告“在估算我国居民实际收入方面进行了有益的探索,尤其在获取基础数据和推算宏观数据方面值得参考和借鉴”。“其采用居民家用汽车、商品住宅、出境旅游、银行存款等外部相关数据对我国常规住户调查居民收支数据进行验证的方法为我们提供了不同的思路和模式,值得借鉴”。在这些方面,我们有一定的共同认识。
但施、王前两文的重点,是批评我们的调查样本比国家统计局的调查样本量“明显偏小”、没有采取统计局所采用的随机抽样方法,因此“结果是不可靠的”,“估算结果明显偏高”。
如果结果“不可靠”,会有偏高和偏低两种可能。为什么是偏高而不是偏低?怎样算出来“明显偏高”?高多少?两位商榷者并没有做出解释,看来还是根据现有统计数据来判断的,就是说,似乎现有的收入统计仍然是可靠的,即便有偏差也不大。而笔者对高收入居民收入的估算“明显偏高”,也是相对于统计数据而言。这不仅与两位关于统计数据“可能存在低估”的说法有矛盾,而且涉及到一个关键问题:现行统计究竟是否反映了高收入群体的真实收入状况?这是需要搞清楚的。
长期以来,我国收入分配差距持续扩大,特别是灰色收入大量存在,严重影响了收入分配状况。但这些问题并没有从统计上如实反映出来,特别是对高收入居民的收入统计严重脱离实际,不仅低估了收入差距扩大的严重性,也造成不同统计数据间的严重冲突。下面是几个例子。
其一,据国家统计局公布的城乡居民人均收入和城乡人口数推算,2008年全国居民可支配收入总额不足13万亿元,而同样来自国家统计局的资金流量表数据,却显示住户可支配收入总额为18.2万亿元。后者是根据经济普查得出的,应该比较全面。但这就证明居民住户收入统计至少遗漏了5.3万亿元,漏掉了居民收入的近30%。类似情况已存在多年。如此严重的遗漏,还能认为是基本可靠吗?这一问题,《第一财经日报》在8月30日发表的《居民收入统计局两套数据打架5.3万亿元差距待解》一文中已有论述。
其二,与其他宏观统计数据比较,会发现遗漏远不止5.3万亿元。以2008年数据算,全国居民储蓄总额(收入减去消费)在2008年为3.5万亿元,而当年仅城乡居民在金融机构的储蓄存款就增加了4.5万亿元,加上居民当年购买商品住宅支出(扣除银行贷款),在股市、债市和实体经济的投资,手持现金等,实际的居民储蓄应该在11万亿元~11.5万亿元之间(未计算居民在国外的存款和投资),是按居民收入统计数据计算的3.5万亿元储蓄的3倍以上。上述计算依据的都是国家统计局公布的数据,这类数据冲突近些年来一直存在。
其三,按人均可支配收入水平算,根据统计,2008年城镇居民人均收入只有1.57万元;其中10%的最高收入家庭,人均也只有4.36万元。这样的人均收入是如何支撑当年2万多亿元商品住宅销售的?是怎样把房价炒上天的?就算只有10%的最高收入家庭能够买得起房,这部分人的当年收入合计只有2.3万亿元,在买了2.1万亿元的商品住宅之后,他们吃什么?喝什么?拿什么钱买汽车?拿什么钱出国旅游?新存入银行的4.5万亿元私人存款又是哪来的?
2008年,中国私人小汽车增加了560万辆,保有量超过2800万辆,而城镇10%的最高收入家庭总共不过2000万户。据悉,价值数百万的世界顶级豪华轿车劳斯莱斯,在中国的销量已占全球第三,仅次于美、英。
2008年,中国居民因私出国出境4013万人次,超过了同年美国出国人数(4002万人次)。据日本官方统计,2009年仅访日的中国游客有110万人次,在日本境内人均花费11.7万日元,而美国游客在日本人均花费仅2.5万日元(2010年8月24日《参考消息》)。根据统计,中国城镇居民的人均收入只相当于美国人均收入的1/15,10%最富城镇家庭的人均收入也不到美国人均收入的1/5,怎么可能支撑这样的高消费,统计上解释得通吗?
据悉,2008年内地流入澳门的赌资就高达数百亿元。如果将其分摊给2000万个最高收入家庭,每户也有几千元。这些钱又来自何处?
仅此几例,足以说明关于高收入居民收入状况的统计数据已严重脱离实际。这种情况不改变,会掩盖实情,误导决策,带来严重后果。所以统计部门和经济学者的共同责任,是面对现实,搞清情况,不能继续满足于统计调查“样本量大”、“方法科学”等表面文章,回避这些尖锐的问题。
2、怎样评价抽样调查的可靠性?
施、王两文质疑研究报告的两个最主要理由,就是统计局住户调查样本量大,所采用的分层随机抽样方法“有着较严密的科学依据”;而我们的调查样本小得多,没有采取与统计局相同的抽样方法,对样本的选择“存在主观性”,因此缺乏可信度。但这些评论回避了两个最重要的问题。
第一,样本量大小,并不决定样本是否无偏。只有当不存在系统性偏差时,大样本才在精确度上更占优势。与2亿城镇居民家庭相比,统计局6.5万个住户样本也只占万分之三。但这个样本目前的问题,并不在于样本量大小,而在于大量遗漏高收入户。首先,由于在抽样过程中频繁遇到高收入居民拒访,而替换的样本不可能保证同样的收入水平。这就必然导致样本覆盖面的系统性偏差。在这种缺陷未被纠正的情况下,样本量再大,也不能提高其可信性。
第二,抽样方法的“科学性”,不能弥补数据失真导致的非抽样误差。目前统计局样本的收入数据,根据的是样本户的填报。而我们在调查中发现,如果没有有效措施,70%的高收入户有低报收入的倾向,而且报出的收入与他们的真实收入平均相差几倍。但在此之前,我们未曾听说统计局针对低报收入采取过措施。
王有捐先生在文章中说:“65000户样本量对全国和分省(区、市)有较高的代表性,在置信度为95%时,主要收支指标的抽样误差(不含漏报、少报等产生的非抽样误差)在5%以内。”但现在的主要问题恰恰出在“漏报、少报等产生的非抽样误差”。避开这个主要问题,抽样误差再小也没有意义。就像医生给病人开错了药,药品质量再好也不解决问题。对于抽样调查的评价,首先应该是结果的真实性,而不能满足于理论上的“科学性”。
我们的研究项目在抽样和推算方法上所做的探索,正是针对高收入样本容易遗漏和收入数据不真实这两个关键问题。我们如果采取与统计局同样的随机抽样方法,也难免同样的系统性偏差。因此我们针对不同收入区间设立了样本配额,以确保不遗漏高收入样本;同时借鉴了社会学的调查方法,通过各地的专业调查人员直接以他们熟悉的人群(亲属、朋友、同事、邻里)为调查对象来收集各项收入支出信息。由于调查人员基本了解调查对象的家庭经济状况,并存在一定的信任关系,使严重低报收入的情况大大减少。
提到社会学调查方法,不能不提到我国老一辈社会学家费孝通和他的著作《江村经济》。这本书是他对自己姐姐居住村庄的乡亲邻里进行调查的成果,成为一部解剖中国乡村经济有代表性、影响深远的著作。没有听说谁批评他的调查“样本太小”,“没有采用随机抽样方法”,因此“不科学”。这首先是因为信息的真实性和所反映问题的代表性。而这些并不是所有的大样本随机抽样调查都能做到的。国际抽样调查权威Kish在他的著作中,也没有不适当地强调抽样方法的“科学性”,反而把它看做“‘自己创造的艺术’和它的科学性的结合”(Kish:《抽样调查》,中文版1997)。
在我们的调查中,为进一步降低敏感度,我们采取了匿名调查的方式,提供了信息保密和仅用于研究目的的承诺;在问卷设计上采取了先问消费、后问收入,先问分项、后问合计,不追问收入具体来源等调查方法。调查前,对各地调查人员进行了培训。调查后,对收到的问卷进行了严格的质量和逻辑检验,剔除了相当数量不合格问卷。所有这些措施,都是为了保证数据的真实性。这使我们得到的调查数据避免了严重的系统性偏差。
由于在特定条件下采取了这种非常规调查方法,我们深知虽然得到的数据比较可信,但样本分布并不代表城镇居民的总体分布,不能用来做总体推断。我们所采用的恩格尔系数法,就是在这种情况下所找到的一个解决问题的方法。由于基础数据的可信性和样本在不同地区、不同收入层次、不同职业身份的居民群体间分布的广泛性,我们能够用它获取收入水平与恩格尔系数以及其他参数间的真实关系,并基于这种关系来对一定居民群体的收入水平进行推算。
这一方法得到的结果,并不是一个总体推断,而是在统计局分组样本的基础上,利用统计局数据中可信度较高的变量(一个主要变量是恩格尔系数)来推算其真实收入水平,以校正其原来失真的数据。这一方法和总体推断方法得到的结果非常不同。这在报告中有详细的数据比较和说明。而施、王两位一直强调我们是在做“总体推断”,说“不是直接推断也是间接推断”,是很不客观的。他们所批评的“没有采用随机抽样方法”,也并不构成我们这项研究的缺点,反而是在有限条件下能找到的一个验证统计数据失真的有效解决方法。
当然也要说明,这项研究的目的,是对统计数据的偏差进行检验并作出近似推算,而不是要代替常规统计。作为一个民间研究机构,我们不可能拥有像国家统计局那样庞大的统计机构和遍布全国的调查队伍,不可能进行能与之相比的大规模调查。但我们充分相信,所得到的高收入群体收入水平的推算结果,远比现有的统计数据更真实,也能够为改善统计数据提供一个参考。
3、关于对研究报告的误读和错误解释
施、王两文,除了对我们的调查样本量和抽样方法进行批评外,还提出了另外几个理由说明研究报告的推算结果不可靠。但这几个理由都有商榷的必要。
1.王有捐文章说,我们的调查方法是通过“亲戚再找亲戚,朋友再找朋友”的“滚雪球”方法,不适合用来“推断总体”。
前面已经说得很清楚,我们并没有用自己的样本来“推断总体”。同时,我们的调查也根本不是王有捐先生所说的“滚雪球”方法。所有的调查都是由经过培训的各地调查员直接访问其熟悉的人群所产生,并没有经过任何中转。如果认真读过报告全文,应该不会产生这样武断的误解。
2.王有捐先生质疑我们的调查方法:“试想,这些不愿意向统计局调查员透露自己实际收入的高收入人群会仅因为调查员是熟人就如实相告?”显然是在暗示我们的调查方法可能也低估了高收入人群的收入水平。然而他却以此为理由证明我们的“估算结果有过高之嫌”,这显然是自相矛盾的。
王有捐文章还说,我们在问卷中询问住户是否愿意透露真实收入信息,是具有“明显的倾向性”、“诱导性”,却没有说出倾向何在。而且问卷中这个问题只作为参考信息,并不改变任何原始收入数据和推算数据。以此来说明我们的推算过高,是说不通的。
3.王有捐说,研究报告在使用外部数据时“不严谨”,把居民储蓄算高了。
其一,是说报告没有区分居民存款和公款私存。实际上从实行存款实名制后,公款私存的情况少多了。仍然存在的公款私存,一般无非是化“大公”为“小公”,把公款变成某些单位人员小团体的消费资金,实际上就是灰色收入的一个来源。那么这还能算是“公款”吗?
其二,是说报告没有区分居民购房和单位购房。