Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

I’d like to describe of article by Harrell who has developed c index. As denoted by developer, c index is not so sensitive for detecting small difference in discriminating between two models. Such penalized maximum likelihood estimation as AIC may be more useful for detecting them.

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

Frank E. Harrell Jr, Kerry L. Lee and Daniel B. Mark

STATISTICS IN MEDICINE, VOL. 15, 361-387 (1996)

SUMMARY

Multivariable regression models are powerful tools that are used frequently in studies of clinical outcomes. These models can use a mixture of categorical and continuous variables and can handle partially observed (censored) responses. However, uncritical application of modelling techniques can result in models that poorly fit the dataset at hand, or, even more likely, inaccurately predict outcomes on new subjects. One must know how to measure qualities of a model’s fit in order to avoid poorly fitted or overfitted models. Measurement of predictive accuracy can be difficult for survival time data in the presence of censoring. We discuss an easily interpretable index of predictive discrimination as well as methods for assessing calibration of predicted survival probabilities. Both types of predictive accuracy should be unbiasedly validated using bootstrapping or cross-validation, before using predictions in a new data series. We discuss some of the hazards of poorly fitted and overfitted regression models and present one modelling strategy that avoids many of the problems discussed. The methods described are applicable to all regression models, but are particularly needed for binary, ordinal, and time-to-event outcomes. Methods are illustrated with a survival analysis in prostate cancer using Cox regression.

1. INTRODUCTION

Accurate estimation of patient prognosis is important for many reasons. First, prognostic estimates can be used to inform the patient about likely outcomes of her disease. Second, the physician can use estimates of prognosis as a guide for ordering additional tests and selecting appropriate therapies. Third, prognostic assessments are useful in the evaluation of technologies; prognostic estimates derived both with and without using the results of a given test can be compared to measure the incremental prognostic information provided by that test over what is provided by prior information.’ Fourth, a researcher may want to estimate the effect of a single factor (for example, treatment given) on prognosis in an observational study in which many uncontrolled confounding factors are also measured. Here the simultaneous effects of the uncontrolled variables must be controlled (held constant mathematically if using a regression model) so that the effect of the factor of interest can be more purely estimated. An analysis of how variables (especially continuous ones) affect the patient outcomes of interest is necessary to ascertain how to control their effects. Fifth, prognostic estimation is useful in designing randomized clinical trials. Both the decision concerning which patients to randomize and the design of the randomization process (for example, stratified randomization using prognostic factors) are aided by the availability of accurate prognostic estimates before randomization.* Lastly, accurate prognostic models can be used to test for differential therapeutic benefit or to estimate the clinical benefit for an individual patient in a clinical trial, taking into account the fact that low-risk patients must have less absolute benefit (lower change in survival probability.

To accomplish these objectives, analysts must create prognostic models that accurately reflect the patterns existing in the underlying data and that are valid when applied to comparable data in other settings or institutions. Models may be inaccurate due to violation of assumptions, omission of important predictors, high frequency of missing data and/or improper imputation methods, and especially with small datasets, overfitting. The purpose of this paper is to review methods for examining lack of fit and detection of overfitting of models and to suggest guidelines for maximizing model accuracy. Section 2 covers initial steps such as imputation of missing data, pre-specification of interactions, and choosing the outcome model. Section 3 has an overview of the need for data reduction. In Section 4, we discuss the process of checking whether a hypothesized model fits the data. In Section 5, measures of predictive accuracy are covered. These are not directly related to lack of fit but rather to the ability of the model to discriminate and be
well calibrated when applied prospectively. Section 6 covers model validation and demonstrates advantages of resampling techniques. Section 7 provides one modelling strategy that takes into account ideas from earlier sections and lists some miscellaneous concerns. Most of the methods presented here can be used with any regression model. Section 8 briefly describes some statistical software useful in carrying out the strategy summarized in Section 7. Section 9 has a detailed case study using a Cox regression model for time until death in a clinical trial studying prostate cancer.

2. PRELIMINARY STEPS

  1. Interactions between treatment and the severity of disease being treated. Patients with little disease have little opportunity to receive benefit.
  2. Interactions involving age and risk factors. Old subjects are generally less affected by risk factors. They have been robust enough to survive to their current age with risk factors present.
  3. Interactions involving age and type of disease. Some diseases are incurable and have the same prognosis regardless of age. Others are treatable or have less effect on younger patients.
  4. Interactions between a measurement and the state of a subject during a measurement. For example, left ventricular function measured at rest may have less predictive value and thus have a smaller slope versus outcome than function measured during stress.
  5. Interactions between calendar time and treatment. Some treatments evolve or their effectiveness improves with staff training.
  6. Interactions between quality and quantity of a symptom.

3. DATA REDUCTION

4. VERIFYING MODEL ASSUMPTIONS: CHECKING LACK OF FIT

4.1. Linearity assumption

4.2. Additivity assumption

4.3. Distributional assumption

5. QUANTIFYING PREDICTIVE ACCURACY

  1. To quantify the utility of a predictor or model to be used for prediction or for screening to identify subjects at increased risk of a disease or clinical outcome.
  2. To check a given model for overfitting (fitting noise resulting in unstable regression coefficients) or lack of fit (improper model specification, omitted predictors, or underfitting). More will be said about this later.
  3. To rank competing methods or competing models.

The measures discussed below may be applied to the assessment of a predictive model using the same sample on which the model was developed. However, this assessment is seldom of interest, as only the most serious lack of fit will make a model appear not to fit on the sample for which it was tailor-made. Of much greater value is the assessment of accuracy on a separate sample or a bias-corrected estimate of accuracy on the training sample. This assessment can detect gross lack of fit as well as overfitting, whereas the apparent accuracy from the original model development sample does not allow one to quantify overfitting. Section 6 discusses how the indexes described below may be estimated fairly using a validation technique.

5.1. General notions

In the simplest case, when the response being predicted is a continuous variable that is measured completely (as distinct from censored measurements caused by termination of follow-up before all subjects have had the outcome of interest), one commonly used measure of predictive accuracy is the expected squared error of the estimate. This quantity is defined as the expected squared difference between predicted and observed values, that is, the average squared difference between predicted and observed values if the experiment were repeated infinitely often and new estimates were made at each replication. The expected squared error can also be expressed as the square of the bias of the estimate plus the variance of the estimate. Here bias refers to the expected value of the estimate minus the quantity being estimated, such as the mean blood pressure. The expected squared error is estimated in practice by the usual mean squared error.

There are two other terms for describing the components of predictive accuracy: calibration and discrimination. Calibration refers to the extent of bias. For example, if the average predicted mortality for a group of similar patients is 0.3 and the actual proportion dying is 0.3, the predictions are well calibrated. Discrimination measures a predictor’s ability to separate patients with different responses. A weather forecaster who predicts a 015 chance of rain every day of the year may be well calibrated in a certain locality if the average number of days with rain is 55 per year, but the forecasts are uninformative. A discriminating forecaster would be one who assigns a wide distribution of predictions and whose predicted risks for days where rain actually occurred are larger than for dry days. If a predictive model has poor discrimination, no adjustment or calibration can correct the model. However, if discrimination is good, the predictor can be calibrated without sacrificing the discrimination (see Section 6 for a method for calibrating predictions without needing more data). Here, calibrating predictions means modifying them, without changing their rank order, such that the predictions are perfectly calibrated. van Houwelingen and le Cessie present extensive information on predictive accuracy and model validation.

5.2. Continuous uncensored outcomes

Discrimination is related to the expected squared error and to the correlation between predicted and observed responses. In the case of ordinary multiple linear regression, discrimination can be measured by the squared multiple correlation coefficient R^2, which is defined by

 R^2 = 1 - (n - p)MSE/(n - 1)S^2_\gamma \cdots (1)

where n is the number of patients, p is the number of parameters estimated, MSE is the mean squared error of prediction (\sum^n_{i=1} (Y_i - \hat{y}_i)^2/(n - p),\ \hat{Y} = predicted Y), and S^2_{\gamma} is the sample variance of the dependent variable. When R^2 = 1, the model is perfectly able to separate all patient responses based on the predictor variables, and MSE = 0.

For a continuous uncensored response Y, calibration can be assessed by a scatter plot of \hat{Y} (predicted Y) versus Y, optionally using a non-parametric smoother to make trends more evident.

5.3. Discrete or censored outcomes

When the outcome variable is dichotomous and predictions are stated as probabilities that an event will occur, calibration and discrimination are more informative than expected squared error alone in measuring accuracy.

One way to assess calibration of probability predictions is to form subgroups of patients and check for bias by comparing predicted and observed responses (reference 29, pp. 140-145). For example, one may group by deciles of predicted probabilities and plot the mean response (proportion with the outcome) versus the mean prediction in the decile group. However, the groupings can be quite arbitrary. Another approach is to use a smoother such as the ‘super smoother’ or a ‘scatterplot smoother’ to obtain a non-parametric estimate of the relationship between \hat{Y} and Y. Such smoothers work well even when Y is binary. The resulting smoothed function is a nonparametric calibration or reliability curve. Smoothers operate on the raw data (Y, \hat{Y}) and do not require grouping \hat{Y}, but they do require one to choose a smoothing parameter or bandwidth.

As an example, consider a 7-variable binary logistic regression model to predict the probability that a certain disease is present. (snip)

5.4. Shrinkage

Shrinkage is the flattening of the plot of (predicted, observed) away from the 45° line, caused by overfitting. It is a concept related to regression to the mean. One can estimate the amount of shrinkage present (using external validation) or the amount likely to be present (using bootstrapping, cross-validation or simple heuristics). A shrinkage coefficient can be used to quantify overfitting or one can go a step further and use the coefficient to re-calibrate the model. Shrinkage can be defined as a multiplier \gamma of X\hat{\beta} (excluding intercept(s)) needed to make \gamma X\hat{\beta} perfectly calibrated for future data. The heuristic shrinkage estimator of van Houwelingen and le Cessie (see also reference 40) is

\displaystyle \hat{\gamma} = \frac{model\ \chi^2 - p}{model\ \chi^2} \cdots (2)

where p is the number of regression parameters (here excluding any intercept(s)) but including all non-linear and interaction effects) and the model \chi^2 is the total likelihood ratio \chi^2 statistic (computed using the full set of p parameters) for testing whether any predictors are associated with Y. For linear regression, van Houwelingen and le Cessie’s heuristic shrinkage estimate reduces to the ratio of the adjusted R^2 to the ordinary R^2 (derivable from reference 34, Eq. 70).

(snip)

Bootstrapping and cross-validation may also be used to estimate shrinkage factors. As mentioned above, shrinkage estimates are useful in their own right for quantifying overfitting, and they are also useful for ‘tilting’ the predictions so that the (predicted, observed) plot does follow the 45° line, by multiplying all of the regression coefficients by \hat{y}. However, for the latter use it is better to follow a more rigorous approach such as penalized maximum likelihood estimation, which allows the analyst to shrink different parts (for example, non-linear terms or interactions) of the equation more than other parts.

5.5. General discrimination index

Discrimination can be defined more uniquely than calibration. It can be quantified with a measure of correlation without requiring the formation of subgroups or requiring smoothing.

When dealing with binary dependent variables or continuous dependent variables that may be censored when some patients have not suffered the event of interest, the usual mean squared error-type measures do not apply. A c (for concordance) index is a widely applicable measure of predictive discrimination – one that applies to ordinary continuous outcomes, dichotomous diagnostic outcomes, ordinal outcomes, and censored time until event response variables. This index of predictive discrimination is related to a rank correlation between predicted and observed outcomes. It is a modification of the Kendall-Goodman-Kruskal-Somers type rank correlation index and was motivated by a modification of Kendall’s τ by Brown et al. and Schemper.

The c index is defined as the proportion of all usable patient pairs in which the predictions and outcomes are concordant. The c index measures predictive information derived from a set of predictor variables in a model. In predicting the time until death, c is calculated by considering all possible pairs of patients, at least one of whom has died. If the predicted survival time is larger for the patient who lived longer, the predictions for that pair are said to be concordant with the outcomes. If one patient died and the other is known to have survived at least to the survival time of the first, the second patient is assumed to outlive the first. When predicted survivals are identical for a patient pair, 0.5 rather than 1 is added to the count of concordant pairs in the numerator of c. In this case, one is still added to the denominator of c (such patient pairs are still considered usable). A patient pair is unusable if both patients died at the same time, or if one died and the other is still alive but has not been followed long enough to determine whether she will outlive the one who died.

Instead of using the predicted survival time to calculate c, the predicted probability of surviving until any fixed time point can be used equivalently, as long as the two estimates are one-to-one functions of each other. This holds for example if the proportional hazards assumption is satisfied.

For predicting binary outcomes such as the presence of disease, c reduces to the proportion of all pairs of patients, one with and one without the disease, in which the patient having the disease had the higher predicted probability of disease. As before, pairs of patients having the same predicted probability get 0.5 dded to the numerator. The denominator is the number of patients with disease multiplied by the number without disease. In this binary outcome case, c is essentially the Wilcoxon-Mann-Whitney statistic for comparing predictions in the two outcome groups, and it is identical to the area under a receiver operating characteristic (ROC) curve. Liu and Dyer advocate the use of rank association measures such as c in quantifying the impact of risk factors in epidemiologic studies.

The c index estimates the probability of concordance between predicted and observed responses. A value of 0.5 indicates no predictive discrimination and a value of 1.0 indicates perfect separation of patients with different outcomes. For those who prefer instead a rank correlation coefficient ranging from – 1 to + 1 with 0 indicating no correlation, Somers’ D rank correlation index is derived by calculating 2(c – 0.5) . Either c or the rank correlation index can be used to quantify the predictive discrimination of any quantitative predictive method, whether the response is continuous, ordinal, or binary.

Even though rank indexes such as c are widely applicable and easily interpretable, they are not sensitive for detecting small differences in discrimination ability between two models. This is due to the fact that a rank method considers the (prediction, outcome) pairs (0.01, 0), (0.9, 1) as no more concordant than the pairs (0.05, 0), (0.8, 1). A more sensitive likelihood-ratio \chi^2-based statistic that reduces to R^2 in the linear regression case may be substituted. Korn and Simon have a very nice discussion of various indexes of accuracy for survival models.

6. MODEL VALIDATION METHODS

  1. Develop the model using all n subjects and whatever stepwise testing is deemed necessary. Let D_{app} denote the apparent\ D from this model, i.e., the rank correlation computed on the same sample used to derive the fit.
  2. Generate a sample of size n with replacement from the original sample (for both predictors and the response).
  3. Fit the full or possibly stepwise model, using the same stopping rule as was used to derive D_{app}.
  4. Compute the apparent D for this model on the bootstrap sample with replacement. Call it D_{boot}.
  5. . ‘Freeze’ this reduced model, and evaluate its performance on the original dataset. Let D_{orig} denote the D.
  6. The optimism in the fit from the bootstrap sample is D_{boot} - D_{orig}.
  7. Repeat steps 2 to 6 100-200 times.
  8. Average the optimism estimates to arrive at 0.
  9. The bootstrap corrected performance of the original stepwise model is D_{app} - 0. This difference is a nearly unbiased estimate of the expected value of the external predictive discrimination of the process which generated D_{app}. In other words, D_{app}- 0 is an honest estimate of internal validity, penalizing for overfitting.
  1. Develop the model using all subjects.
  2. Compute cut points on predicted survival at 2 years so that there are m patients within each interval (m= 50 or 100 typically).
  3. For each interval of predicted probability, compute the mean predicted 2-year survival and the Kaplan-Meier 2-year survival estimate for the group.
  4. Save the apparent errors – the differences between mean predicted and Kaplan-Meier survival.
  5. Generate a sample with replacement from the original sample.
  6. Fit the full model.
  7. Do variable selection and fit the reduced model.
  8. Predict 2-year survival probability for each subject in the bootstrap sample.
  9. Stratify predictions into intervals using the previously chosen cut points.
  10. Compute Kaplan-Meier survival at 2 years for each interval.
  11. Compute the difference between the mean predicted survival within each interval and the Kaplan-Meier estimate for the interval.
  12. Predict 2-year survival probability for each subject in the original sample using the model developed on the sample with replacement
  13. For the same cut points used before, compute the difference in the mean predicted 2-year survival and the corresponding Kaplan-Meier estimates for each group in the original sample.
  14. Compute the differences in the differences between the bootstrap sample and the original sample.
  15. Repeat steps 5 to 14 100-200 times.
  16. Average the ‘double differences’ computed in step 14 over the 100-200 bootstrap samples. These are the estimates of over-optimism in the apparent error estimates.
  17. Add these over-optimism estimates to the apparent errors in the original sample to obtain bias-corrected estimates of predicted versus observed, that is, to obtain a bias- or overfitting-corrected calibration curve.

7. SUMMARY OF MODELLING STRATEGY

  1. Assemble accurate, pertinent data and as large a sample as possible. For survival time data, follow-up must be sufficient to capture enough events as well as the clinically meaningful phases if dealing with a chronic disease.
  2. Formulate focused clinical hypotheses that lead to specification of relevant candidate predictors, the form of expected relationships, and possible interactions.
  3. Discard observations having missing Y after characterizing whether they are missing at random. See reference 62 for a study of imputation of Y when it is not missing at random.
  4. If there are any missing Xs, analyse factors associated with missingness. If the fraction of observations that would be excluded due to missing values is very small, or one of the variables that is sometimes missing is of overriding importance, exclude observations with missing values. Otherwise impute missing Xs using individual predictive models that take into account the reasons for missing, to the extent possible.
  5. If the number of terms fitted or tested in the modelling process (counting non-linear and cross-product terms) is too large in comparison with the number of outcomes in the sample, use data reduction (ignoring Y) until the number of remaining free variables needing regression coefficients is tolerable. Assessment of likely shrinkage (overfitting) can be useful in deciding how much data reduction is adequate. Alternatively, build shrinkage into the initial model fitting.
  6. Use the entire sample in the model development as data are too precious to waste. If steps listed below are too difficult to repeat for each bootstrap or cross-validation sample, hold out test data from all model development steps which follow.
  7. Check linearity assumptions and make transformations in Xs as needed.
  8. Check additivity assumptions and add clinically motivated interaction terms.
  9. Check to see if there are overly-influential observation. Such observations may indicate overfitting, the need for truncating the range of highly skewed variables or making other pre-fitting transformations, or the presence of data errors.
  10. Check distributional assumptions and choose a different model if needed (in the case of Cox models, stratification or time-dependent covariables can be used if proportional hazards is violated).
  11. Do limited backwards step-down variable selection. Note that since stepwise techniques do not really address overfitting and they can result in a loss of information, full model fits (that is, leaving all hypothesized variables in the model regardless of P-values) are frequently more discriminating than fits after screening predictors for significance. They also provide confidence intervals with the proper coverage, unlike models that are reduced using a stepwise procedure, from which confidence intervals are falsely narrow. A compromise would be to test a pre-specified subset of predictors, deleting them if their total \chi^2 < 2 \times d.f.[/latex]. If the [latex]\chi^2[/latex] is that small, the subset would likely not improve model accuracy.
  12. This is the ‘final’ model.
  13. Validate this model for calibration and discrimination ability, preferably using bootstrapping. Steps 7 to 11 must be repeated for each bootstrap sample, at least approximately. For example, if age was transformed when building the final model, and the transformation was suggested by the data using a fit involving age and age, each bootstrap repetition should include both age variables with a possible step-down from the quadratic to the linear model based on automatic significance testing at each step.
  14. If doing stepwise variable selection, present a summary table depicting the variability of the list of ‘important factors’ selected over the bootstrap samples or cross-validations. This is an excellent tool for understanding why data-driven variable selection is inherently ambiguous.
  15. Estimate the likely shrinkage of predictions from the model, either using equation (2) or by bootstrapping an overall slope correction for the prediction. Consider shrinking the predictions to make them calibrate better, unless shrinkage was built-in. That way, a predicted 0.4 mortality is more likely to validate in a new patient series, instead of finding that the actual mortality is only 0.2 because of regression to the mean mortality of 0.1.

8. SOFTWARE

9. CASESTUDY

10. SUMMARY

Methods were described for developing clinical multivariable prognostic models and for assessing their calibration and discrimination. A detailed examination of model assumptions and an unbiased assessment of predictive accuracy will uncover problems that may make clinical prediction models misleading or invalid. The modelling strategy presented in Section 7 provides one sequence of steps for avoiding the pitfalls of multivariable modelling so that its many advantages can be realized.

REFERENCES:
How to calculate Harrell’s c-index to evaluate multivariate model with EXCEL VBA?
Frank E. Harrell Jr, et al: Evaluating the Yield of Medical Tests. JAMA. 1982; 247 (18): 2543 – 2546
Korn, E. L. and Simon, R. Measures of explained variation for survival data, Statistics in Medicine 9(5), 487–503 (1990)

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

 c index についての詳細な論文を見つけたので部分的に訳しておきます.太字で示したように,c index は二つのモデル間の微小な差異を検出するには向いていないことが考案者自身によって記述されています.AIC などの他の指標がより妥当かと思われます.

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

Frank E. Harrell Jr, Kerry L. Lee and Daniel B. Mark

STATISTICS IN MEDICINE, VOL. 15, 361-387 (1996)

要約

 多変量回帰モデルは有力なツールであり,臨床転帰の研究においてしばしば用いられる手法である.これらのモデルは名義変数と連続変数を混在して用いることができ,一部に観察される打切反応を扱うことができる.しかしながらモデリング手法の無批判な適用は適合不足なモデルをもたらす結果となり得るばかりか,新しい対象に対して不正確な転帰を予測する可能性がさらに高い.適合不足なモデルや過剰適合モデルを避けるためには,モデルの適合度を計測する手法を知らねばならない.適合度の正確性を計測することは打切例のある生存期間データにとっては困難になり得る.我々は予測生存確率の補正評価の手法と同じくらい容易に解釈可能な予測識別の指標について議論した.両者の予測正確性はブートストラップ法かクロスバリデーション法で偏りなく検証されるべきであり,新しいデータセットにおいて予測する前に行われるべきである.我々はいくつかのハザードの適合不足や過剰適合の回帰モデルについて議論し,議論されてきた多くの問題を避ける 1 つのモデリング戦略を提供する.ここで述べる手法は全ての回帰モデルに適用可能であり,一部の 2 値の順序尺度かつ時間イベント転帰にも必要である.Cox 回帰を用いた前立腺癌における生存分析の手法を示す.

1. 導入

 患者予後の正確な推定は多くの理由から必要である.第一に,予後の推定は,疾病について可能性のある転帰について患者自身に知らせられることである.第二に医師はその予後推定を用いて追加の検査を指示し適切な治療を選択できることである.第三に予後の評価は技術の評価に有用である.すなわち,与えられたテストの結果があってもなくても,由来する予後推定値は増加する予後の情報の計測,事前情報により提供されるテストによるが,と比較することが可能である.第四に研究者というものは一つの因子,例えば治療介入など,の多くの調整できない交絡因子が観察される観察研究における予後に対する効果を推定したがるものである.ここで,例えば回帰モデルを用いる際には数学的に定数に保持するなどして,制御されていない変数の同時効果を調整しなくてはならず,それにより関心のある因子の効果はより純粋に推定されるようになる.関心のある患者予後に,変数,特に連続変数がどう影響するかの解析は,それらがどう影響するのか確かめる必要がある.第五に,予後を推定することは無作為化比較試験をデザインするのに有用である.どの患者を無作為化するかの決定及び無作為化の仮定,例えば予後因子を用いる層別化無作為化など,のデザインの両者は無作為化前の正確な予後推定値の可用性により支援される.最後に,正確な予後モデルは,臨床研究における個々の患者にとって,低リスクの患者は絶対的に少ない利益を得なければならない(生存率にとって変化が少ない)という事実を考慮して,異なる治療法による利益の研究や臨床的な利益の推定に用いることができる.

 これらの目的を成し遂げるには,解析は予後モデルを創造しなくてはならない.元になるデータに存在するパターンを正確に反映し,他の設定や他の施設で比較可能なデータに適用した際に役立つようなモデルを.多くのモデルは以下の理由で不正確かもしれない.つまり仮定の違反,重要な予測の欠如,高頻度のデータ損失およびまたは不適切な補完方法,そして特にデータセットが小さすぎること,過剰適合など.この論文ではモデルの適合不足や過剰適合を検査する手法をレビューし,モデルの正確性を最大化するガイドラインを提案することを目的とする.2 章では初期のステップ,つまり損失データの補完,相互作用の予備仕様,および転帰モデルの選択についてをカバーする.3 章ではデータ縮減の必要性について概要を述べる.4 章では仮説モデルがデータに適合するかを検証する過程について議論する.5 章では予測精度の計測をカバーする.これらは直接には適合の欠如には関連しないが,むしろモデルを識別する能力や,前向きに適用された時によく較正されていることに関連する.6 章ではモデルの検証と再サンプリング法の利点を提示することをカバーする.7 章では前章で述べた考えやその他の懸念事項を考慮に入れた一つのモデリング戦略を提供する.ここで提示する大部分の手法はいかなる回帰モデルにも用いることができる.8 章では手短にいくつかの統計ソフトが 7 章で要約した戦略を実行するのに有用であることについて述べる.9 章では詳細なケーススタディを提示する.Cox 回帰モデルを用いて死亡に至る時間を調査した前立腺癌の臨床研究である.

2. 予備段階

  1. 治療と治療している疾患の重症度との相互作用.軽症の疾病の患者は利益を受ける機会に乏しい.
  2. 年齢やリスク因子が関与する相互作用.高齢の被験者はリスク因子に影響されにくい.
  3. 年齢と疾患の型の関与する相互作用.ある疾病は不治であり年齢は無関係に予後は同じである.
  4. 測定中の被験者の状態と測定値との相互作用.例えば,運動負荷中に比較して,安静時の左室機能は指標としての価値は少なく,より小さな傾斜を持つにすぎないだろう.
  5. 暦時間と治療法との相互作用.いくつかの治療法は進化したり,職員の訓練によりその効果が改善したりする.
  6. 症状の質と量との相互作用.

3. データの縮約

4. 検証モデルの仮定:適合不足の確認

4.1. 線形性の仮定

4.2. 加法性の仮定

4.3. 分布の仮定

5. 予測精度の定量

 予測精度の測定には少なくとも三つの用途がある.

  1. 疾病のリスクや臨床転帰のある被験者を同定するための予測やスクリーニングに用いる指標やモデルの有用性の定量.
  2. 与えられたモデルの過剰適合や適合不足の確認.過剰適合とはノイズに適合した結果,回帰係数が不安定化すること.適合不足とは不適切なモデル指定や予測因子の欠如,アンダーフィッティングのこと.これについては更に後述する.
  3. 競合する方法や競合モデルをランク付けする.

 下記で議論する測定法はモデル開発に用いたのと同じサンプルを用いた予測モデルの評価に適用できるかもしれない.しかしながら,この評価法は滅多に対象とはならない.というのは,最も深刻な適合不足モデルしかテーラーメードのサンプルに適合しないように見えるからである.非常に大きな値は分離サンプルの精度の評価または学習データの精度のバイアスを補正した推定値である.この評価は過剰適合同様に適合不足の総量を検出する一方で,元のモデルの開発するサンプルからの見かけの精度は過剰適合を定量化することには従わない.6 章においては,以下に述べる指標がいかにして検証技術を用いて相当に推定されたかを議論する.

5.1. 一般概念

 最もシンプルな事例においては,予測された反応が連続変数であり完全に測定されている時,つまりすべての被験者が関心のある転帰を取る前に経過観察を終了する打切とは異なる時,一般に用いられる予測精度は推定量の 期待二乗誤差 である.この量は,十分な回数の試行が繰り返され,その都度新しい期待値が生成されるなら,期待値と観測値との誤差の自乗の期待値,つまり予測値と観測値との平均平方差として定義される.この期待二乗誤差はまた推定量の 偏り と推定量の 分散 の和としても表現される.ここで偏りは推定量と推定された量の差の期待値のことである.例えば平均血圧などのように.期待二乗誤差は通常の平均平方誤差による実践で推定される.

 予測精度の要素を記述するにあたり,他に二つの項目がある.較正判別 である.較正は偏りの程度を指す.例えば,同様の患者群の死亡率の平均が 0.3 であり,実際の死亡率が 0.3 の場合はその予測はよく較正されているという.判別とは患者を異なる反応に分離する識別能力のことである.ある気象予報士がある年の毎日の雨の確率を 0.15 と予報したら,特定の地域において年間の平均降雨日数が 55 日ならよく較正されているかも知れないが,その予報士は役に立たない.判別できる予報士とは予報の分布を広く割り付けられ,その実際に雨の降るという予報リスクが晴れの日よりも大きいものである.仮に判別の貧弱な予測モデルなら,調整や較正はモデルを全く補正できない.しかしながら,判別が良ければその予測因子は識別能力を犠牲にすることなく較正可能である.追加データなしでの予測の較正の方法については 6 章を参照のこと.ここで,予測の較正とは,それらを修飾し,それらの順位を変更することなく,その予測が完全に較正されることを意味する.van Houwelingen および Cessie は予測精度とモデル検証の追加情報を示している.

5.2. 連続非打切例の転帰

 判別は期待自乗誤差に関連し,予測値と観測された反応との相関に関連する.通常の重回帰分析においては,判別は重回帰係数 R^2 により計測される.その定義は以下である.

 R^2 = 1 - (n - p)MSE/(n - 1)S^2_\gamma \cdots (1)

ここで n は患者数,p は推定パラメータ数,MSE は予測の平均自乗誤差 \sum^n_{i = 1}(Y_i - \hat{Y}_i)^2/(n - p),\ \hat{Y} = prediced\ Y, S^2_{\gamma} は従属変数の標本分散である.R^2 = 1 の時,そのモデルは予測変数に基づいて患者を完全に分離することができ,MSE = 0 となる.

 連続で打切のない反応 Y にとって,較正は \hat{Y} (予測 Y 値)と Y の散布図により評価でき,必要に応じて傾向をより明確にするためノンパラメトリック法を滑らかに用いることもできる.

5.3. 離散的または打切の転帰

 転帰変数が二値であり,予測変数があるイベントの起きる確率として記述されている場合,較正と判別は期待自乗誤差よりも多くの情報を有する.

 確率の予測の較正を評価する方法の一つは患者のサブグループを作り,予測値と観測値の偏りを調べることである.参考文献 29 の 140-145 ページを参照のこと.例えば,予測確率により十等分し,十等分した各群での平均予測に対する平均反応(転帰による割合)をプロットすれば良い.しかしながら,その群別はかなり任意である.他の方法としては ‘super smoother’ や ‘scatterplot smoother’ などの平滑化を用いることで \hat{Y}Y との間の相関のノンパラメトリック推定を得ることである.このような平滑化は Y が二値の時でもよく働く.その結果の平滑化機能はノンパラメトリックな較正または信頼できる曲線である.平滑化は生データ (\hat{Y},\ Y) を処理し \hat{Y} の群別を要しない.しかし一つの平滑化パラメータを選択するための群別または帯域幅を要する.

 一つの例として 7 変数の二値ロジスティック回帰モデルを考えてみよう.(以下略)

5.4. 縮小推定

 縮小推定 とは過剰適合に起因する 45 ° 線から離れた(予測値,観測値)の散布図を平坦化することである.それは平均値への回帰に関連する概念である.(外部検証により)縮小する存在の量や,(ブートストラップ法やクロスバリデーション法,シンプルなヒューリスティック法により)存在しそうな量を推定することができる.縮小係数は過剰適合の定量や,モデルを再較正する係数を用いて更に一歩先を行くために用いられる.縮小推定は次のように定義される.すなわち, X\hat{\beta} (切片を除く)の乗数 \gamma であり \gamma X\hat{\beta} を将来のデータに備えて完全に較正するためのものである.van Houwelingen および Cessie によるヒューリスティック縮小推定量は以下の式である.参考文献 40 を参照のこと.

\displaystyle \hat{\gamma} = \frac{model\ \chi^2 - p}{model\ \chi^2} \cdots (2)

ここで p は回帰パラメーター数(この場合いかなる切片も除かれているが全ての非線形および相互作用を含める)とであり,モデル \chi^2 は(p 個のパラメータ全セットを用いて計算した)総尤度比 \chi^2 統計値であり,いかなる予測因子が Y に関連するかをテストする.線形回帰にとって,van Houwelingen および Cessie のヒューリスティック縮小推定量は,調整済み R^2 の通常の R^2 に対する比を削減する.参考文献 34 を参照のこと.

(中略)

 ブートストラップ法とクロスバリデーション法もまた縮小因子の推定に用いられる.上記のように,縮小推定量は過剰適合の正しい定量にとって有用であり, \hat{y} による全ての回帰係数を乗算することで,予測を『傾けて』(予測値,観測値)の点を 45 ° 線に載せるのに有用である.しかしながら,後者の用法にとっては,罰則付き最尤推定などのような,より厳格な適用に従ったほうが良い.それにより解析者は方程式の他の部分より異なる部分(例えば非線形項や相互作用項)を縮小できる.

5.5. 一般的な識別指標

 判別は較正よりもっとユニークに定義できる.サブグループ形成を要求したりや平滑化を要求したりすることなしに相関を計測することで定量できる.

 2 値の従属変数や連続変数,時に関心のあるイベントを経験せず患者の打切が発生することもあるのだが,を取り扱う際には,通常の平均値を二乗した誤差型の測定は適用されない.c index (concordance index) が広く適用される予測判定を計測する方法である.通常の連続変数,二分法の診断転帰,通常の転帰,そしてイベント反応変数までの打切時間に適用可能である.この予測判定指標は予測と実際に観測された転帰の間の順位相関に関連する.これは Kendall-Goodman-Kruskal-Somers 型の順位相関インデックスの変法であり,Kendall の τ が Brown らおよび Schemper により修正されて動機づけられたものである.

 c index は全ての患者ペアのうち,予測と転帰の一致した割合として定義される.c index はモデル中の予測変数のセットから由来する予測情報を測定する.少なくとも一人が死亡するまでの死亡に至るまでの時間を予測し,あらゆる患者ペアを考慮して c は計算される.生存期間がより長いと予測された患者が実際にも長く生存した場合,そのペアにとって予測は転帰と一致したと言える.一人の患者が死亡して,もう一人が少なくとも最初の一人の生存期間まで生存した場合は,二人目は一人目より長生きしたと前提を置くことにする.患者ペアの予測生存期間が同じ場合は 1 ではなく 0.5 を c の分子である一致ペア数に加える.この場合,c の分母に 1 を加える.そのような患者ペアも使用可能とみなす.次のような患者ペアは使用できない.つまり両名の患者とも同時に死亡した場合,また片方が死亡しもう一方が生存しているが,生存している方が死亡した方より長生きするか定義するのに十分な時間が経っていない場合である.

 c を計算するのに予測生存期間を用いる代わりに,ある固定時間に至るまでの予測生存確率を同等に用いることができる.十分に長い期待値は互いに一対一に機能する.これは例えば比例ハザード仮定が満たされていても保持される.

 疾病の有無のような 2 値の予測転帰については c は患者の全ペアの割合,疾病の予測確率が高い患者における疾病の有無の割合を低下させる.従来通り,同じ予測確率を持つ患者ペアの場合,分子に 0.5 を加える.分母は疾病のない数をかけた疾病のある患者数である.この 2 値の転帰の場合,c は基本的に二つの転帰群において予測値を比較する Wilcoxon-Mann-Whitney 統計値であり,受信者特性曲線の曲線下面積に等しい.Liu と Dyer は c indx のような順位相関測定を疫学研究でのリスク因子の影響力の定量に用いるのを支持している.

 c index は予測と観測された反応との間の一致率を推定する.値が 0.5 は全く予測精度がないことを示しており,値が 1.0 は患者予後が完全に分離していることを示している.範囲が -1 から 1 までで値が 0 の際には無相関の順位相関係数の代わりに好む人のためには,Somers’ D index が提供されており,計算式は 2(c - 0.5) である.c index であれその順位相関指標であれ,いかなる定量的予測方法をも,つまり反応が連続,順位,または 2 値であっても,定量化するために用いることができる.

 c index のような順位指標は広く適用可能で容易に解釈できるものの,二つのモデル間の微小な差異を識別する能力においてはそれほど感度は良くない.と言うのは以下の(予測,転帰)のペアの例を考えてみれば分かる.すなわち (0.01, 0) と (0.9, 1) のペアは (0.05, 0) と (0.8, 1) のペアよりも一致率が高い訳ではない.もっと感度の高い尤度比として \chi^2 に基づく統計値は線形回帰事例における R^2 に縮約され,置換されるかもしれない.Korn と Simon は生存モデルの様々な指標の精度について非常に良い議論を行っている.

6. モデル検証方法

  1. n 名の被験者の全ておよび必要とみなされるステップワイズ法を用いてモデルを開発すること.D_{app} をこのモデルからの明白な D を記述するものとする.すなわち,同じサンプルを計算して適合度を導出する順位相関のこと.
  2. 元の標本から(予測因子と反応の両者のための)標本サイズ n を生成する.
  3. D_{app} を導出したのと同じ停止規則を用いてフルモデルまたは可能性のあるステップワイズモデルに適合させること.
  4. このモデルの明白な D を置換するブートストラップ標本で計算すること.それを D_{boot} と呼ぶ.
  5. この縮約モデルを「フリーズ」させ,元のデータセットで性能を評価すること.D_{orig}D を記述させる.
  6. 上記ステップ 2 からステップ 6 を 100 回から 200 回繰り返すこと.
  7. Optimism 推定値が 0 に到達するまで平均すること.
  8. 元のステップワイズモデルの性能を修正したブートストラップは D_{app} - 0 である.この差異は D_{app} を生成したプロセスの外部予測識別の 期待値 のほぼバイアスのない推定値である.
  1. すべての対象を用いてモデルを開発すること.
  2. 各区間内で m 名の患者が存在するような 2 年生存率を予測するカットポイントを計算すること.(典型的には 50 名とか 100 名とか).
  3. 予測確率の各区間について,平均 2 年生存率およびカプランマイヤー 2 年生存推定値を群別に計算すること.
  4. 明白な誤差,つまり予測平均値とカプランマイヤー生存との間の誤差を保存すること.
  5. 元の標本から置換して標本を生成すること.
  6. フルモデルに適合させること.
  7. 変数選択を行い縮約モデルに適合させること.
  8. ブートストラップ標本において各患者ごとに 2 年生存率を予測すること.
  9. 以前選択したカットポイントを用いて区間に予測値を層別化すること.
  10. 各区間の 2 年目のカプランマイヤー生存率を計算すること.
  11. 各区間内の予測平均値と同じ区間内のカプランマイヤー推定値との差異を計算すること.
  12. 置換による標本で発展させたモデルを用いて元の標本における各患者の 2 年生存率を予測すること.
  13. 以前用いた同じカットポイントについて,元の標本での各群で 2 年生存率の予測平均値と対応するカプランマイヤー推定値との差異を計算すること.
  14. ブートストラップ標本と元の標本との差異の差異を計算すること.
  15. ステップ 5 からステップ 14 を 100 回から 200 回繰り返すこと.
  16. ステップ 14 でブートストラップ標本を 100 回から 200 回以上計算した「二重の差異」を平均すること.これらは明白な誤差推定値における over-optimism の推定値である.
  17. これらの over-optimism 推定値を元の標本の明白な誤差に加え,バイアスを補正した推定値を得ること.それにより観察による推定値に対して,予測されたバイアスを補正した推定値が得られる.つまりバイアスや過剰適合を補正した較正曲線を得られる.

7. モデリング戦略の概要

  1. 正確で適切で可能な限り多数のサンプルを組み立てること.生存期間データについては,慢性疾患を扱う場合には臨床的に意味のある段階のイベントを十分に補足するための経過観察期間が十分でなくてはならない.
  2. 該当する候補予測,予想される関係の形式および考えられる相互作用の仕様に至るフォーカスした臨床仮説を定式化すること.
  3. 無作為に欠損しているかどうか特徴づけられた後の欠損した Y を有する観察は捨てること.参考文献 62 には無作為に欠損していない時の Y の補完についての研究を示してある.
  4. Xs がいくつか欠損する場合,欠測と関連する因子を解析すること.欠損値により除外されていた観測の割合が非常に小さいなら,または時に欠損する変数が最優先の重要性を持つなら,欠損値を持つ観測を除外すること.そうでなければ,欠損の理由を考慮した個別の予測モデルを用いる欠損の Xs を転嫁すること.
  5. (非線形および外積条件を数える)モデリングの過程において,サンプルにおける転帰の数と比較して適合または検証する項目の数が多すぎる場合には,回帰係数を要する残存自由変数の数が許容できるまでデータを縮減(Y を無視)すること.可能性の高い縮小(過剰適合)を評価することは,どれだけのデータ縮約が適切かを決定する際に役立つだろう.あるいは,最初のモデル適合に縮小を構築すること.
  6. データを浪費するにはあまりにも貴重なので,モデル構築には全標本を使うこと.下記のステップがブートストラップやクロスバリデーションにとって困難であれば,下記の全てのモデル開発ステップにテストデータを差し出すこと.
  7. 線形性の仮定を確認し,必要なら変数変換を施すこと.
  8. 加法性の仮定を確認し,臨床的に意欲的な相互作用項を加えること.
  9. 過度に影響のある観測値があるか否か見て確認すること.そのような観測値は過剰適合,つまり高度に偏った変数の範囲の切り捨ての必要性か,またはデータの誤差を示唆するものである.
  10. 分布の仮定を確認し,必要なら異なるモデルを選択すること.(Cox モデルにおいて比例ハザード性に違反する場合は層別化や時間依存性変数が用いられる)
  11. ステップダウン変数選択の後方制約を行うこと.ステップワイズ法は過剰適合を真にaddressせず情報の損失に至るため,フルモデル適合が(つまりP 値に関係ないモデルでは全ての仮説変数を残す),有意性の指標のスクリーニング後の適合よりも,しばしばより特異的である.それらはまた適切な適用範囲を持つ信頼区間を提供するものであり,ステップワイズ処理を用いて縮減されたモデル,その信頼区間は狭いのは偽りであるが,そのようなモデルとは異なる.仮にそれらの全 \chi^2 < 2 \times d.f.[/latex] ならそれらを削除しながら,妥協は予め指定された指標のサブセットのテストになるだろう.仮にその [latex]\chi^2[/latex] が小さいならそのサブセットはモデルの正確性を改善しないだろう.
  12. ここで『最終モデル』となる.
  13. 較正および識別能力のためこのモデルを検証すること.ブートストラップ法を用いるのが望ましい.ステップ7からステップ11までを各々のブートストラップ標本に対して繰り返さなければならない.もし年齢が最終モデル構築の際に変換されたなら,そしてその変換が年齢と年齢とに関連する適合に用いるデータから示唆されたなら,各々のブートストラップ反復は可能性のある,各段階において2次方程式から線形モデルベースの自動有意性検定へのステップダウンを伴う年齢変数の両者を含んでいなければならない.
  14. 仮にステップワイズ変数選択を行うなら要約表を提示すること.要約表にはブートストラップ法やクロスバリデーション法で選択した『重要な因子』のリストの変動が示されている.これはデータ由来の変数選択がなぜ本質的に曖昧なのかを理解するのに優れたツールである.
  15. 予測式のための相関係数の全体の傾斜を,数式 (2) を使うかまたはブートストラップ法で,そのモデルから可能性の高い予測の縮約を推定すること.縮約が内蔵されていない限り予測式を縮約するよう考慮すること.それにより較正が改善する.そのように,予測された死亡率 0.4 は新しい患者シリーズにおいて検証されているようだ.平均死亡率の回帰は 0.1 であるところ実際の死亡率は 0.2 に過ぎないのだが.

8. ソフトウェア

9. ケーススタディ

10. 要約

 臨床的多変量予後モデルを開発しその較正と識別を評価する手法について述べた.詳細なモデル仮定の例および偏りのない予測精度の評価は,紛らわしく無効の臨床的予測モデルを作り出すような問題を発見するだろう.7 章に示したモデリング戦略は多変量モデリングのピットフォールを避けるステップの一つを提供し,それにより多くの進歩が確認されるだろう.

参照:
多変量モデル評価法のc-indexをEXCEL VBAで計算する
Frank E. Harrell Jr, et al: Evaluating the Yield of Medical Tests. JAMA. 1982; 247 (18): 2543 – 2546
Korn, E. L. and Simon, R. Measures of explained variation for survival data, Statistics in Medicine 9(5), 487–503 (1990)