一般线性回归看似简单,有时并非想像中那么简单。你会发现,无截距线性回归的R 2 和F值总是高于有截距线性回归,换种说法,同一数据集,使用无截距线性回归的拟合度均高于截距线性回归。但是,无截距拟合直线的误差平方和却高于截距拟合直接。也就是说,无截距直线的拟合度高,误差反而高。如何会出现这种情况? 问题的关键在于平方和计算方法。这些解释可以参考下面的网页,笔者在这里不详述。 Why are R 2 and F so large for models without a constant? 从上面可知, 线性回归是否保留截距主要取决于本学科专业知识,而非纯粹统计知识。 但有时候,回归模型是数据驱动的或纯经验性的,这时是否保留截距就不好确定。从这里也获得一条信息, 决定系数不是表示拟合度的最佳指标,有时会欺骗我们。在考虑决定系数的同时,再看看RMSE、残差等指标来判断拟合度可能更好点。