Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

I’d like to describe of article by Harrell who has developed c index. As denoted by developer, c index is not so sensitive for detecting small difference in discriminating between two models. Such penalized maximum likelihood estimation as AIC may be more useful for detecting them.

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

Frank E. Harrell Jr, Kerry L. Lee and Daniel B. Mark

STATISTICS IN MEDICINE, VOL. 15, 361-387 (1996)

SUMMARY

Multivariable regression models are powerful tools that are used frequently in studies of clinical outcomes. These models can use a mixture of categorical and continuous variables and can handle partially observed (censored) responses. However, uncritical application of modelling techniques can result in models that poorly fit the dataset at hand, or, even more likely, inaccurately predict outcomes on new subjects. One must know how to measure qualities of a model’s fit in order to avoid poorly fitted or overfitted models. Measurement of predictive accuracy can be difficult for survival time data in the presence of censoring. We discuss an easily interpretable index of predictive discrimination as well as methods for assessing calibration of predicted survival probabilities. Both types of predictive accuracy should be unbiasedly validated using bootstrapping or cross-validation, before using predictions in a new data series. We discuss some of the hazards of poorly fitted and overfitted regression models and present one modelling strategy that avoids many of the problems discussed. The methods described are applicable to all regression models, but are particularly needed for binary, ordinal, and time-to-event outcomes. Methods are illustrated with a survival analysis in prostate cancer using Cox regression.

1. INTRODUCTION

Accurate estimation of patient prognosis is important for many reasons. First, prognostic estimates can be used to inform the patient about likely outcomes of her disease. Second, the physician can use estimates of prognosis as a guide for ordering additional tests and selecting appropriate therapies. Third, prognostic assessments are useful in the evaluation of technologies; prognostic estimates derived both with and without using the results of a given test can be compared to measure the incremental prognostic information provided by that test over what is provided by prior information.’ Fourth, a researcher may want to estimate the effect of a single factor (for example, treatment given) on prognosis in an observational study in which many uncontrolled confounding factors are also measured. Here the simultaneous effects of the uncontrolled variables must be controlled (held constant mathematically if using a regression model) so that the effect of the factor of interest can be more purely estimated. An analysis of how variables (especially continuous ones) affect the patient outcomes of interest is necessary to ascertain how to control their effects. Fifth, prognostic estimation is useful in designing randomized clinical trials. Both the decision concerning which patients to randomize and the design of the randomization process (for example, stratified randomization using prognostic factors) are aided by the availability of accurate prognostic estimates before randomization.* Lastly, accurate prognostic models can be used to test for differential therapeutic benefit or to estimate the clinical benefit for an individual patient in a clinical trial, taking into account the fact that low-risk patients must have less absolute benefit (lower change in survival probability.

To accomplish these objectives, analysts must create prognostic models that accurately reflect the patterns existing in the underlying data and that are valid when applied to comparable data in other settings or institutions. Models may be inaccurate due to violation of assumptions, omission of important predictors, high frequency of missing data and/or improper imputation methods, and especially with small datasets, overfitting. The purpose of this paper is to review methods for examining lack of fit and detection of overfitting of models and to suggest guidelines for maximizing model accuracy. Section 2 covers initial steps such as imputation of missing data, pre-specification of interactions, and choosing the outcome model. Section 3 has an overview of the need for data reduction. In Section 4, we discuss the process of checking whether a hypothesized model fits the data. In Section 5, measures of predictive accuracy are covered. These are not directly related to lack of fit but rather to the ability of the model to discriminate and be
well calibrated when applied prospectively. Section 6 covers model validation and demonstrates advantages of resampling techniques. Section 7 provides one modelling strategy that takes into account ideas from earlier sections and lists some miscellaneous concerns. Most of the methods presented here can be used with any regression model. Section 8 briefly describes some statistical software useful in carrying out the strategy summarized in Section 7. Section 9 has a detailed case study using a Cox regression model for time until death in a clinical trial studying prostate cancer.

2. PRELIMINARY STEPS

  1. Interactions between treatment and the severity of disease being treated. Patients with little disease have little opportunity to receive benefit.
  2. Interactions involving age and risk factors. Old subjects are generally less affected by risk factors. They have been robust enough to survive to their current age with risk factors present.
  3. Interactions involving age and type of disease. Some diseases are incurable and have the same prognosis regardless of age. Others are treatable or have less effect on younger patients.
  4. Interactions between a measurement and the state of a subject during a measurement. For example, left ventricular function measured at rest may have less predictive value and thus have a smaller slope versus outcome than function measured during stress.
  5. Interactions between calendar time and treatment. Some treatments evolve or their effectiveness improves with staff training.
  6. Interactions between quality and quantity of a symptom.

3. DATA REDUCTION

4. VERIFYING MODEL ASSUMPTIONS: CHECKING LACK OF FIT

4.1. Linearity assumption

4.2. Additivity assumption

4.3. Distributional assumption

5. QUANTIFYING PREDICTIVE ACCURACY

  1. To quantify the utility of a predictor or model to be used for prediction or for screening to identify subjects at increased risk of a disease or clinical outcome.
  2. To check a given model for overfitting (fitting noise resulting in unstable regression coefficients) or lack of fit (improper model specification, omitted predictors, or underfitting). More will be said about this later.
  3. To rank competing methods or competing models.

The measures discussed below may be applied to the assessment of a predictive model using the same sample on which the model was developed. However, this assessment is seldom of interest, as only the most serious lack of fit will make a model appear not to fit on the sample for which it was tailor-made. Of much greater value is the assessment of accuracy on a separate sample or a bias-corrected estimate of accuracy on the training sample. This assessment can detect gross lack of fit as well as overfitting, whereas the apparent accuracy from the original model development sample does not allow one to quantify overfitting. Section 6 discusses how the indexes described below may be estimated fairly using a validation technique.

5.1. General notions

In the simplest case, when the response being predicted is a continuous variable that is measured completely (as distinct from censored measurements caused by termination of follow-up before all subjects have had the outcome of interest), one commonly used measure of predictive accuracy is the expected squared error of the estimate. This quantity is defined as the expected squared difference between predicted and observed values, that is, the average squared difference between predicted and observed values if the experiment were repeated infinitely often and new estimates were made at each replication. The expected squared error can also be expressed as the square of the bias of the estimate plus the variance of the estimate. Here bias refers to the expected value of the estimate minus the quantity being estimated, such as the mean blood pressure. The expected squared error is estimated in practice by the usual mean squared error.

There are two other terms for describing the components of predictive accuracy: calibration and discrimination. Calibration refers to the extent of bias. For example, if the average predicted mortality for a group of similar patients is 0.3 and the actual proportion dying is 0.3, the predictions are well calibrated. Discrimination measures a predictor’s ability to separate patients with different responses. A weather forecaster who predicts a 015 chance of rain every day of the year may be well calibrated in a certain locality if the average number of days with rain is 55 per year, but the forecasts are uninformative. A discriminating forecaster would be one who assigns a wide distribution of predictions and whose predicted risks for days where rain actually occurred are larger than for dry days. If a predictive model has poor discrimination, no adjustment or calibration can correct the model. However, if discrimination is good, the predictor can be calibrated without sacrificing the discrimination (see Section 6 for a method for calibrating predictions without needing more data). Here, calibrating predictions means modifying them, without changing their rank order, such that the predictions are perfectly calibrated. van Houwelingen and le Cessie present extensive information on predictive accuracy and model validation.

5.2. Continuous uncensored outcomes

Discrimination is related to the expected squared error and to the correlation between predicted and observed responses. In the case of ordinary multiple linear regression, discrimination can be measured by the squared multiple correlation coefficient R^2, which is defined by

 R^2 = 1 - (n - p)MSE/(n - 1)S^2_\gamma \cdots (1)

where n is the number of patients, p is the number of parameters estimated, MSE is the mean squared error of prediction (\sum^n_{i=1} (Y_i - \hat{y}_i)^2/(n - p),\ \hat{Y} = predicted Y), and S^2_{\gamma} is the sample variance of the dependent variable. When R^2 = 1, the model is perfectly able to separate all patient responses based on the predictor variables, and MSE = 0.

For a continuous uncensored response Y, calibration can be assessed by a scatter plot of \hat{Y} (predicted Y) versus Y, optionally using a non-parametric smoother to make trends more evident.

5.3. Discrete or censored outcomes

When the outcome variable is dichotomous and predictions are stated as probabilities that an event will occur, calibration and discrimination are more informative than expected squared error alone in measuring accuracy.

One way to assess calibration of probability predictions is to form subgroups of patients and check for bias by comparing predicted and observed responses (reference 29, pp. 140-145). For example, one may group by deciles of predicted probabilities and plot the mean response (proportion with the outcome) versus the mean prediction in the decile group. However, the groupings can be quite arbitrary. Another approach is to use a smoother such as the ‘super smoother’ or a ‘scatterplot smoother’ to obtain a non-parametric estimate of the relationship between \hat{Y} and Y. Such smoothers work well even when Y is binary. The resulting smoothed function is a nonparametric calibration or reliability curve. Smoothers operate on the raw data (Y, \hat{Y}) and do not require grouping \hat{Y}, but they do require one to choose a smoothing parameter or bandwidth.

As an example, consider a 7-variable binary logistic regression model to predict the probability that a certain disease is present. (snip)

5.4. Shrinkage

Shrinkage is the flattening of the plot of (predicted, observed) away from the 45° line, caused by overfitting. It is a concept related to regression to the mean. One can estimate the amount of shrinkage present (using external validation) or the amount likely to be present (using bootstrapping, cross-validation or simple heuristics). A shrinkage coefficient can be used to quantify overfitting or one can go a step further and use the coefficient to re-calibrate the model. Shrinkage can be defined as a multiplier \gamma of X\hat{\beta} (excluding intercept(s)) needed to make \gamma X\hat{\beta} perfectly calibrated for future data. The heuristic shrinkage estimator of van Houwelingen and le Cessie (see also reference 40) is

\displaystyle \hat{\gamma} = \frac{model\ \chi^2 - p}{model\ \chi^2} \cdots (2)

where p is the number of regression parameters (here excluding any intercept(s)) but including all non-linear and interaction effects) and the model \chi^2 is the total likelihood ratio \chi^2 statistic (computed using the full set of p parameters) for testing whether any predictors are associated with Y. For linear regression, van Houwelingen and le Cessie’s heuristic shrinkage estimate reduces to the ratio of the adjusted R^2 to the ordinary R^2 (derivable from reference 34, Eq. 70).

(snip)

Bootstrapping and cross-validation may also be used to estimate shrinkage factors. As mentioned above, shrinkage estimates are useful in their own right for quantifying overfitting, and they are also useful for ‘tilting’ the predictions so that the (predicted, observed) plot does follow the 45° line, by multiplying all of the regression coefficients by \hat{y}. However, for the latter use it is better to follow a more rigorous approach such as penalized maximum likelihood estimation, which allows the analyst to shrink different parts (for example, non-linear terms or interactions) of the equation more than other parts.

5.5. General discrimination index

Discrimination can be defined more uniquely than calibration. It can be quantified with a measure of correlation without requiring the formation of subgroups or requiring smoothing.

When dealing with binary dependent variables or continuous dependent variables that may be censored when some patients have not suffered the event of interest, the usual mean squared error-type measures do not apply. A c (for concordance) index is a widely applicable measure of predictive discrimination – one that applies to ordinary continuous outcomes, dichotomous diagnostic outcomes, ordinal outcomes, and censored time until event response variables. This index of predictive discrimination is related to a rank correlation between predicted and observed outcomes. It is a modification of the Kendall-Goodman-Kruskal-Somers type rank correlation index and was motivated by a modification of Kendall’s τ by Brown et al. and Schemper.

The c index is defined as the proportion of all usable patient pairs in which the predictions and outcomes are concordant. The c index measures predictive information derived from a set of predictor variables in a model. In predicting the time until death, c is calculated by considering all possible pairs of patients, at least one of whom has died. If the predicted survival time is larger for the patient who lived longer, the predictions for that pair are said to be concordant with the outcomes. If one patient died and the other is known to have survived at least to the survival time of the first, the second patient is assumed to outlive the first. When predicted survivals are identical for a patient pair, 0.5 rather than 1 is added to the count of concordant pairs in the numerator of c. In this case, one is still added to the denominator of c (such patient pairs are still considered usable). A patient pair is unusable if both patients died at the same time, or if one died and the other is still alive but has not been followed long enough to determine whether she will outlive the one who died.

Instead of using the predicted survival time to calculate c, the predicted probability of surviving until any fixed time point can be used equivalently, as long as the two estimates are one-to-one functions of each other. This holds for example if the proportional hazards assumption is satisfied.

For predicting binary outcomes such as the presence of disease, c reduces to the proportion of all pairs of patients, one with and one without the disease, in which the patient having the disease had the higher predicted probability of disease. As before, pairs of patients having the same predicted probability get 0.5 dded to the numerator. The denominator is the number of patients with disease multiplied by the number without disease. In this binary outcome case, c is essentially the Wilcoxon-Mann-Whitney statistic for comparing predictions in the two outcome groups, and it is identical to the area under a receiver operating characteristic (ROC) curve. Liu and Dyer advocate the use of rank association measures such as c in quantifying the impact of risk factors in epidemiologic studies.

The c index estimates the probability of concordance between predicted and observed responses. A value of 0.5 indicates no predictive discrimination and a value of 1.0 indicates perfect separation of patients with different outcomes. For those who prefer instead a rank correlation coefficient ranging from – 1 to + 1 with 0 indicating no correlation, Somers’ D rank correlation index is derived by calculating 2(c – 0.5) . Either c or the rank correlation index can be used to quantify the predictive discrimination of any quantitative predictive method, whether the response is continuous, ordinal, or binary.

Even though rank indexes such as c are widely applicable and easily interpretable, they are not sensitive for detecting small differences in discrimination ability between two models. This is due to the fact that a rank method considers the (prediction, outcome) pairs (0.01, 0), (0.9, 1) as no more concordant than the pairs (0.05, 0), (0.8, 1). A more sensitive likelihood-ratio \chi^2-based statistic that reduces to R^2 in the linear regression case may be substituted. Korn and Simon have a very nice discussion of various indexes of accuracy for survival models.

6. MODEL VALIDATION METHODS

  1. Develop the model using all n subjects and whatever stepwise testing is deemed necessary. Let D_{app} denote the apparent\ D from this model, i.e., the rank correlation computed on the same sample used to derive the fit.
  2. Generate a sample of size n with replacement from the original sample (for both predictors and the response).
  3. Fit the full or possibly stepwise model, using the same stopping rule as was used to derive D_{app}.
  4. Compute the apparent D for this model on the bootstrap sample with replacement. Call it D_{boot}.
  5. . ‘Freeze’ this reduced model, and evaluate its performance on the original dataset. Let D_{orig} denote the D.
  6. The optimism in the fit from the bootstrap sample is D_{boot} - D_{orig}.
  7. Repeat steps 2 to 6 100-200 times.
  8. Average the optimism estimates to arrive at 0.
  9. The bootstrap corrected performance of the original stepwise model is D_{app} - 0. This difference is a nearly unbiased estimate of the expected value of the external predictive discrimination of the process which generated D_{app}. In other words, D_{app}- 0 is an honest estimate of internal validity, penalizing for overfitting.
  1. Develop the model using all subjects.
  2. Compute cut points on predicted survival at 2 years so that there are m patients within each interval (m= 50 or 100 typically).
  3. For each interval of predicted probability, compute the mean predicted 2-year survival and the Kaplan-Meier 2-year survival estimate for the group.
  4. Save the apparent errors – the differences between mean predicted and Kaplan-Meier survival.
  5. Generate a sample with replacement from the original sample.
  6. Fit the full model.
  7. Do variable selection and fit the reduced model.
  8. Predict 2-year survival probability for each subject in the bootstrap sample.
  9. Stratify predictions into intervals using the previously chosen cut points.
  10. Compute Kaplan-Meier survival at 2 years for each interval.
  11. Compute the difference between the mean predicted survival within each interval and the Kaplan-Meier estimate for the interval.
  12. Predict 2-year survival probability for each subject in the original sample using the model developed on the sample with replacement
  13. For the same cut points used before, compute the difference in the mean predicted 2-year survival and the corresponding Kaplan-Meier estimates for each group in the original sample.
  14. Compute the differences in the differences between the bootstrap sample and the original sample.
  15. Repeat steps 5 to 14 100-200 times.
  16. Average the ‘double differences’ computed in step 14 over the 100-200 bootstrap samples. These are the estimates of over-optimism in the apparent error estimates.
  17. Add these over-optimism estimates to the apparent errors in the original sample to obtain bias-corrected estimates of predicted versus observed, that is, to obtain a bias- or overfitting-corrected calibration curve.

7. SUMMARY OF MODELLING STRATEGY

  1. Assemble accurate, pertinent data and as large a sample as possible. For survival time data, follow-up must be sufficient to capture enough events as well as the clinically meaningful phases if dealing with a chronic disease.
  2. Formulate focused clinical hypotheses that lead to specification of relevant candidate predictors, the form of expected relationships, and possible interactions.
  3. Discard observations having missing Y after characterizing whether they are missing at random. See reference 62 for a study of imputation of Y when it is not missing at random.
  4. If there are any missing Xs, analyse factors associated with missingness. If the fraction of observations that would be excluded due to missing values is very small, or one of the variables that is sometimes missing is of overriding importance, exclude observations with missing values. Otherwise impute missing Xs using individual predictive models that take into account the reasons for missing, to the extent possible.
  5. If the number of terms fitted or tested in the modelling process (counting non-linear and cross-product terms) is too large in comparison with the number of outcomes in the sample, use data reduction (ignoring Y) until the number of remaining free variables needing regression coefficients is tolerable. Assessment of likely shrinkage (overfitting) can be useful in deciding how much data reduction is adequate. Alternatively, build shrinkage into the initial model fitting.
  6. Use the entire sample in the model development as data are too precious to waste. If steps listed below are too difficult to repeat for each bootstrap or cross-validation sample, hold out test data from all model development steps which follow.
  7. Check linearity assumptions and make transformations in Xs as needed.
  8. Check additivity assumptions and add clinically motivated interaction terms.
  9. Check to see if there are overly-influential observation. Such observations may indicate overfitting, the need for truncating the range of highly skewed variables or making other pre-fitting transformations, or the presence of data errors.
  10. Check distributional assumptions and choose a different model if needed (in the case of Cox models, stratification or time-dependent covariables can be used if proportional hazards is violated).
  11. Do limited backwards step-down variable selection. Note that since stepwise techniques do not really address overfitting and they can result in a loss of information, full model fits (that is, leaving all hypothesized variables in the model regardless of P-values) are frequently more discriminating than fits after screening predictors for significance. They also provide confidence intervals with the proper coverage, unlike models that are reduced using a stepwise procedure, from which confidence intervals are falsely narrow. A compromise would be to test a pre-specified subset of predictors, deleting them if their total \chi^2 < 2 \times d.f.[/latex]. If the [latex]\chi^2[/latex] is that small, the subset would likely not improve model accuracy.
  12. This is the ‘final’ model.
  13. Validate this model for calibration and discrimination ability, preferably using bootstrapping. Steps 7 to 11 must be repeated for each bootstrap sample, at least approximately. For example, if age was transformed when building the final model, and the transformation was suggested by the data using a fit involving age and age, each bootstrap repetition should include both age variables with a possible step-down from the quadratic to the linear model based on automatic significance testing at each step.
  14. If doing stepwise variable selection, present a summary table depicting the variability of the list of ‘important factors’ selected over the bootstrap samples or cross-validations. This is an excellent tool for understanding why data-driven variable selection is inherently ambiguous.
  15. Estimate the likely shrinkage of predictions from the model, either using equation (2) or by bootstrapping an overall slope correction for the prediction. Consider shrinking the predictions to make them calibrate better, unless shrinkage was built-in. That way, a predicted 0.4 mortality is more likely to validate in a new patient series, instead of finding that the actual mortality is only 0.2 because of regression to the mean mortality of 0.1.

8. SOFTWARE

9. CASESTUDY

10. SUMMARY

Methods were described for developing clinical multivariable prognostic models and for assessing their calibration and discrimination. A detailed examination of model assumptions and an unbiased assessment of predictive accuracy will uncover problems that may make clinical prediction models misleading or invalid. The modelling strategy presented in Section 7 provides one sequence of steps for avoiding the pitfalls of multivariable modelling so that its many advantages can be realized.

REFERENCES:
How to calculate Harrell’s c-index to evaluate multivariate model with EXCEL VBA?
Frank E. Harrell Jr, et al: Evaluating the Yield of Medical Tests. JAMA. 1982; 247 (18): 2543 – 2546
Korn, E. L. and Simon, R. Measures of explained variation for survival data, Statistics in Medicine 9(5), 487–503 (1990)

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

 c index についての詳細な論文を見つけたので部分的に訳しておきます.太字で示したように,c index は二つのモデル間の微小な差異を検出するには向いていないことが考案者自身によって記述されています.AIC などの他の指標がより妥当かと思われます.

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

Frank E. Harrell Jr, Kerry L. Lee and Daniel B. Mark

STATISTICS IN MEDICINE, VOL. 15, 361-387 (1996)

要約

 多変量回帰モデルは有力なツールであり,臨床転帰の研究においてしばしば用いられる手法である.これらのモデルは名義変数と連続変数を混在して用いることができ,一部に観察される打切反応を扱うことができる.しかしながらモデリング手法の無批判な適用は適合不足なモデルをもたらす結果となり得るばかりか,新しい対象に対して不正確な転帰を予測する可能性がさらに高い.適合不足なモデルや過剰適合モデルを避けるためには,モデルの適合度を計測する手法を知らねばならない.適合度の正確性を計測することは打切例のある生存期間データにとっては困難になり得る.我々は予測生存確率の補正評価の手法と同じくらい容易に解釈可能な予測識別の指標について議論した.両者の予測正確性はブートストラップ法かクロスバリデーション法で偏りなく検証されるべきであり,新しいデータセットにおいて予測する前に行われるべきである.我々はいくつかのハザードの適合不足や過剰適合の回帰モデルについて議論し,議論されてきた多くの問題を避ける 1 つのモデリング戦略を提供する.ここで述べる手法は全ての回帰モデルに適用可能であり,一部の 2 値の順序尺度かつ時間イベント転帰にも必要である.Cox 回帰を用いた前立腺癌における生存分析の手法を示す.

1. 導入

 患者予後の正確な推定は多くの理由から必要である.第一に,予後の推定は,疾病について可能性のある転帰について患者自身に知らせられることである.第二に医師はその予後推定を用いて追加の検査を指示し適切な治療を選択できることである.第三に予後の評価は技術の評価に有用である.すなわち,与えられたテストの結果があってもなくても,由来する予後推定値は増加する予後の情報の計測,事前情報により提供されるテストによるが,と比較することが可能である.第四に研究者というものは一つの因子,例えば治療介入など,の多くの調整できない交絡因子が観察される観察研究における予後に対する効果を推定したがるものである.ここで,例えば回帰モデルを用いる際には数学的に定数に保持するなどして,制御されていない変数の同時効果を調整しなくてはならず,それにより関心のある因子の効果はより純粋に推定されるようになる.関心のある患者予後に,変数,特に連続変数がどう影響するかの解析は,それらがどう影響するのか確かめる必要がある.第五に,予後を推定することは無作為化比較試験をデザインするのに有用である.どの患者を無作為化するかの決定及び無作為化の仮定,例えば予後因子を用いる層別化無作為化など,のデザインの両者は無作為化前の正確な予後推定値の可用性により支援される.最後に,正確な予後モデルは,臨床研究における個々の患者にとって,低リスクの患者は絶対的に少ない利益を得なければならない(生存率にとって変化が少ない)という事実を考慮して,異なる治療法による利益の研究や臨床的な利益の推定に用いることができる.

 これらの目的を成し遂げるには,解析は予後モデルを創造しなくてはならない.元になるデータに存在するパターンを正確に反映し,他の設定や他の施設で比較可能なデータに適用した際に役立つようなモデルを.多くのモデルは以下の理由で不正確かもしれない.つまり仮定の違反,重要な予測の欠如,高頻度のデータ損失およびまたは不適切な補完方法,そして特にデータセットが小さすぎること,過剰適合など.この論文ではモデルの適合不足や過剰適合を検査する手法をレビューし,モデルの正確性を最大化するガイドラインを提案することを目的とする.2 章では初期のステップ,つまり損失データの補完,相互作用の予備仕様,および転帰モデルの選択についてをカバーする.3 章ではデータ縮減の必要性について概要を述べる.4 章では仮説モデルがデータに適合するかを検証する過程について議論する.5 章では予測精度の計測をカバーする.これらは直接には適合の欠如には関連しないが,むしろモデルを識別する能力や,前向きに適用された時によく較正されていることに関連する.6 章ではモデルの検証と再サンプリング法の利点を提示することをカバーする.7 章では前章で述べた考えやその他の懸念事項を考慮に入れた一つのモデリング戦略を提供する.ここで提示する大部分の手法はいかなる回帰モデルにも用いることができる.8 章では手短にいくつかの統計ソフトが 7 章で要約した戦略を実行するのに有用であることについて述べる.9 章では詳細なケーススタディを提示する.Cox 回帰モデルを用いて死亡に至る時間を調査した前立腺癌の臨床研究である.

2. 予備段階

  1. 治療と治療している疾患の重症度との相互作用.軽症の疾病の患者は利益を受ける機会に乏しい.
  2. 年齢やリスク因子が関与する相互作用.高齢の被験者はリスク因子に影響されにくい.
  3. 年齢と疾患の型の関与する相互作用.ある疾病は不治であり年齢は無関係に予後は同じである.
  4. 測定中の被験者の状態と測定値との相互作用.例えば,運動負荷中に比較して,安静時の左室機能は指標としての価値は少なく,より小さな傾斜を持つにすぎないだろう.
  5. 暦時間と治療法との相互作用.いくつかの治療法は進化したり,職員の訓練によりその効果が改善したりする.
  6. 症状の質と量との相互作用.

3. データの縮約

4. 検証モデルの仮定:適合不足の確認

4.1. 線形性の仮定

4.2. 加法性の仮定

4.3. 分布の仮定

5. 予測精度の定量

 予測精度の測定には少なくとも三つの用途がある.

  1. 疾病のリスクや臨床転帰のある被験者を同定するための予測やスクリーニングに用いる指標やモデルの有用性の定量.
  2. 与えられたモデルの過剰適合や適合不足の確認.過剰適合とはノイズに適合した結果,回帰係数が不安定化すること.適合不足とは不適切なモデル指定や予測因子の欠如,アンダーフィッティングのこと.これについては更に後述する.
  3. 競合する方法や競合モデルをランク付けする.

 下記で議論する測定法はモデル開発に用いたのと同じサンプルを用いた予測モデルの評価に適用できるかもしれない.しかしながら,この評価法は滅多に対象とはならない.というのは,最も深刻な適合不足モデルしかテーラーメードのサンプルに適合しないように見えるからである.非常に大きな値は分離サンプルの精度の評価または学習データの精度のバイアスを補正した推定値である.この評価は過剰適合同様に適合不足の総量を検出する一方で,元のモデルの開発するサンプルからの見かけの精度は過剰適合を定量化することには従わない.6 章においては,以下に述べる指標がいかにして検証技術を用いて相当に推定されたかを議論する.

5.1. 一般概念

 最もシンプルな事例においては,予測された反応が連続変数であり完全に測定されている時,つまりすべての被験者が関心のある転帰を取る前に経過観察を終了する打切とは異なる時,一般に用いられる予測精度は推定量の 期待二乗誤差 である.この量は,十分な回数の試行が繰り返され,その都度新しい期待値が生成されるなら,期待値と観測値との誤差の自乗の期待値,つまり予測値と観測値との平均平方差として定義される.この期待二乗誤差はまた推定量の 偏り と推定量の 分散 の和としても表現される.ここで偏りは推定量と推定された量の差の期待値のことである.例えば平均血圧などのように.期待二乗誤差は通常の平均平方誤差による実践で推定される.

 予測精度の要素を記述するにあたり,他に二つの項目がある.較正判別 である.較正は偏りの程度を指す.例えば,同様の患者群の死亡率の平均が 0.3 であり,実際の死亡率が 0.3 の場合はその予測はよく較正されているという.判別とは患者を異なる反応に分離する識別能力のことである.ある気象予報士がある年の毎日の雨の確率を 0.15 と予報したら,特定の地域において年間の平均降雨日数が 55 日ならよく較正されているかも知れないが,その予報士は役に立たない.判別できる予報士とは予報の分布を広く割り付けられ,その実際に雨の降るという予報リスクが晴れの日よりも大きいものである.仮に判別の貧弱な予測モデルなら,調整や較正はモデルを全く補正できない.しかしながら,判別が良ければその予測因子は識別能力を犠牲にすることなく較正可能である.追加データなしでの予測の較正の方法については 6 章を参照のこと.ここで,予測の較正とは,それらを修飾し,それらの順位を変更することなく,その予測が完全に較正されることを意味する.van Houwelingen および Cessie は予測精度とモデル検証の追加情報を示している.

5.2. 連続非打切例の転帰

 判別は期待自乗誤差に関連し,予測値と観測された反応との相関に関連する.通常の重回帰分析においては,判別は重回帰係数 R^2 により計測される.その定義は以下である.

 R^2 = 1 - (n - p)MSE/(n - 1)S^2_\gamma \cdots (1)

ここで n は患者数,p は推定パラメータ数,MSE は予測の平均自乗誤差 \sum^n_{i = 1}(Y_i - \hat{Y}_i)^2/(n - p),\ \hat{Y} = prediced\ Y, S^2_{\gamma} は従属変数の標本分散である.R^2 = 1 の時,そのモデルは予測変数に基づいて患者を完全に分離することができ,MSE = 0 となる.

 連続で打切のない反応 Y にとって,較正は \hat{Y} (予測 Y 値)と Y の散布図により評価でき,必要に応じて傾向をより明確にするためノンパラメトリック法を滑らかに用いることもできる.

5.3. 離散的または打切の転帰

 転帰変数が二値であり,予測変数があるイベントの起きる確率として記述されている場合,較正と判別は期待自乗誤差よりも多くの情報を有する.

 確率の予測の較正を評価する方法の一つは患者のサブグループを作り,予測値と観測値の偏りを調べることである.参考文献 29 の 140-145 ページを参照のこと.例えば,予測確率により十等分し,十等分した各群での平均予測に対する平均反応(転帰による割合)をプロットすれば良い.しかしながら,その群別はかなり任意である.他の方法としては ‘super smoother’ や ‘scatterplot smoother’ などの平滑化を用いることで \hat{Y}Y との間の相関のノンパラメトリック推定を得ることである.このような平滑化は Y が二値の時でもよく働く.その結果の平滑化機能はノンパラメトリックな較正または信頼できる曲線である.平滑化は生データ (\hat{Y},\ Y) を処理し \hat{Y} の群別を要しない.しかし一つの平滑化パラメータを選択するための群別または帯域幅を要する.

 一つの例として 7 変数の二値ロジスティック回帰モデルを考えてみよう.(以下略)

5.4. 縮小推定

 縮小推定 とは過剰適合に起因する 45 ° 線から離れた(予測値,観測値)の散布図を平坦化することである.それは平均値への回帰に関連する概念である.(外部検証により)縮小する存在の量や,(ブートストラップ法やクロスバリデーション法,シンプルなヒューリスティック法により)存在しそうな量を推定することができる.縮小係数は過剰適合の定量や,モデルを再較正する係数を用いて更に一歩先を行くために用いられる.縮小推定は次のように定義される.すなわち, X\hat{\beta} (切片を除く)の乗数 \gamma であり \gamma X\hat{\beta} を将来のデータに備えて完全に較正するためのものである.van Houwelingen および Cessie によるヒューリスティック縮小推定量は以下の式である.参考文献 40 を参照のこと.

\displaystyle \hat{\gamma} = \frac{model\ \chi^2 - p}{model\ \chi^2} \cdots (2)

ここで p は回帰パラメーター数(この場合いかなる切片も除かれているが全ての非線形および相互作用を含める)とであり,モデル \chi^2 は(p 個のパラメータ全セットを用いて計算した)総尤度比 \chi^2 統計値であり,いかなる予測因子が Y に関連するかをテストする.線形回帰にとって,van Houwelingen および Cessie のヒューリスティック縮小推定量は,調整済み R^2 の通常の R^2 に対する比を削減する.参考文献 34 を参照のこと.

(中略)

 ブートストラップ法とクロスバリデーション法もまた縮小因子の推定に用いられる.上記のように,縮小推定量は過剰適合の正しい定量にとって有用であり, \hat{y} による全ての回帰係数を乗算することで,予測を『傾けて』(予測値,観測値)の点を 45 ° 線に載せるのに有用である.しかしながら,後者の用法にとっては,罰則付き最尤推定などのような,より厳格な適用に従ったほうが良い.それにより解析者は方程式の他の部分より異なる部分(例えば非線形項や相互作用項)を縮小できる.

5.5. 一般的な識別指標

 判別は較正よりもっとユニークに定義できる.サブグループ形成を要求したりや平滑化を要求したりすることなしに相関を計測することで定量できる.

 2 値の従属変数や連続変数,時に関心のあるイベントを経験せず患者の打切が発生することもあるのだが,を取り扱う際には,通常の平均値を二乗した誤差型の測定は適用されない.c index (concordance index) が広く適用される予測判定を計測する方法である.通常の連続変数,二分法の診断転帰,通常の転帰,そしてイベント反応変数までの打切時間に適用可能である.この予測判定指標は予測と実際に観測された転帰の間の順位相関に関連する.これは Kendall-Goodman-Kruskal-Somers 型の順位相関インデックスの変法であり,Kendall の τ が Brown らおよび Schemper により修正されて動機づけられたものである.

 c index は全ての患者ペアのうち,予測と転帰の一致した割合として定義される.c index はモデル中の予測変数のセットから由来する予測情報を測定する.少なくとも一人が死亡するまでの死亡に至るまでの時間を予測し,あらゆる患者ペアを考慮して c は計算される.生存期間がより長いと予測された患者が実際にも長く生存した場合,そのペアにとって予測は転帰と一致したと言える.一人の患者が死亡して,もう一人が少なくとも最初の一人の生存期間まで生存した場合は,二人目は一人目より長生きしたと前提を置くことにする.患者ペアの予測生存期間が同じ場合は 1 ではなく 0.5 を c の分子である一致ペア数に加える.この場合,c の分母に 1 を加える.そのような患者ペアも使用可能とみなす.次のような患者ペアは使用できない.つまり両名の患者とも同時に死亡した場合,また片方が死亡しもう一方が生存しているが,生存している方が死亡した方より長生きするか定義するのに十分な時間が経っていない場合である.

 c を計算するのに予測生存期間を用いる代わりに,ある固定時間に至るまでの予測生存確率を同等に用いることができる.十分に長い期待値は互いに一対一に機能する.これは例えば比例ハザード仮定が満たされていても保持される.

 疾病の有無のような 2 値の予測転帰については c は患者の全ペアの割合,疾病の予測確率が高い患者における疾病の有無の割合を低下させる.従来通り,同じ予測確率を持つ患者ペアの場合,分子に 0.5 を加える.分母は疾病のない数をかけた疾病のある患者数である.この 2 値の転帰の場合,c は基本的に二つの転帰群において予測値を比較する Wilcoxon-Mann-Whitney 統計値であり,受信者特性曲線の曲線下面積に等しい.Liu と Dyer は c indx のような順位相関測定を疫学研究でのリスク因子の影響力の定量に用いるのを支持している.

 c index は予測と観測された反応との間の一致率を推定する.値が 0.5 は全く予測精度がないことを示しており,値が 1.0 は患者予後が完全に分離していることを示している.範囲が -1 から 1 までで値が 0 の際には無相関の順位相関係数の代わりに好む人のためには,Somers’ D index が提供されており,計算式は 2(c - 0.5) である.c index であれその順位相関指標であれ,いかなる定量的予測方法をも,つまり反応が連続,順位,または 2 値であっても,定量化するために用いることができる.

 c index のような順位指標は広く適用可能で容易に解釈できるものの,二つのモデル間の微小な差異を識別する能力においてはそれほど感度は良くない.と言うのは以下の(予測,転帰)のペアの例を考えてみれば分かる.すなわち (0.01, 0) と (0.9, 1) のペアは (0.05, 0) と (0.8, 1) のペアよりも一致率が高い訳ではない.もっと感度の高い尤度比として \chi^2 に基づく統計値は線形回帰事例における R^2 に縮約され,置換されるかもしれない.Korn と Simon は生存モデルの様々な指標の精度について非常に良い議論を行っている.

6. モデル検証方法

  1. n 名の被験者の全ておよび必要とみなされるステップワイズ法を用いてモデルを開発すること.D_{app} をこのモデルからの明白な D を記述するものとする.すなわち,同じサンプルを計算して適合度を導出する順位相関のこと.
  2. 元の標本から(予測因子と反応の両者のための)標本サイズ n を生成する.
  3. D_{app} を導出したのと同じ停止規則を用いてフルモデルまたは可能性のあるステップワイズモデルに適合させること.
  4. このモデルの明白な D を置換するブートストラップ標本で計算すること.それを D_{boot} と呼ぶ.
  5. この縮約モデルを「フリーズ」させ,元のデータセットで性能を評価すること.D_{orig}D を記述させる.
  6. 上記ステップ 2 からステップ 6 を 100 回から 200 回繰り返すこと.
  7. Optimism 推定値が 0 に到達するまで平均すること.
  8. 元のステップワイズモデルの性能を修正したブートストラップは D_{app} - 0 である.この差異は D_{app} を生成したプロセスの外部予測識別の 期待値 のほぼバイアスのない推定値である.
  1. すべての対象を用いてモデルを開発すること.
  2. 各区間内で m 名の患者が存在するような 2 年生存率を予測するカットポイントを計算すること.(典型的には 50 名とか 100 名とか).
  3. 予測確率の各区間について,平均 2 年生存率およびカプランマイヤー 2 年生存推定値を群別に計算すること.
  4. 明白な誤差,つまり予測平均値とカプランマイヤー生存との間の誤差を保存すること.
  5. 元の標本から置換して標本を生成すること.
  6. フルモデルに適合させること.
  7. 変数選択を行い縮約モデルに適合させること.
  8. ブートストラップ標本において各患者ごとに 2 年生存率を予測すること.
  9. 以前選択したカットポイントを用いて区間に予測値を層別化すること.
  10. 各区間の 2 年目のカプランマイヤー生存率を計算すること.
  11. 各区間内の予測平均値と同じ区間内のカプランマイヤー推定値との差異を計算すること.
  12. 置換による標本で発展させたモデルを用いて元の標本における各患者の 2 年生存率を予測すること.
  13. 以前用いた同じカットポイントについて,元の標本での各群で 2 年生存率の予測平均値と対応するカプランマイヤー推定値との差異を計算すること.
  14. ブートストラップ標本と元の標本との差異の差異を計算すること.
  15. ステップ 5 からステップ 14 を 100 回から 200 回繰り返すこと.
  16. ステップ 14 でブートストラップ標本を 100 回から 200 回以上計算した「二重の差異」を平均すること.これらは明白な誤差推定値における over-optimism の推定値である.
  17. これらの over-optimism 推定値を元の標本の明白な誤差に加え,バイアスを補正した推定値を得ること.それにより観察による推定値に対して,予測されたバイアスを補正した推定値が得られる.つまりバイアスや過剰適合を補正した較正曲線を得られる.

7. モデリング戦略の概要

  1. 正確で適切で可能な限り多数のサンプルを組み立てること.生存期間データについては,慢性疾患を扱う場合には臨床的に意味のある段階のイベントを十分に補足するための経過観察期間が十分でなくてはならない.
  2. 該当する候補予測,予想される関係の形式および考えられる相互作用の仕様に至るフォーカスした臨床仮説を定式化すること.
  3. 無作為に欠損しているかどうか特徴づけられた後の欠損した Y を有する観察は捨てること.参考文献 62 には無作為に欠損していない時の Y の補完についての研究を示してある.
  4. Xs がいくつか欠損する場合,欠測と関連する因子を解析すること.欠損値により除外されていた観測の割合が非常に小さいなら,または時に欠損する変数が最優先の重要性を持つなら,欠損値を持つ観測を除外すること.そうでなければ,欠損の理由を考慮した個別の予測モデルを用いる欠損の Xs を転嫁すること.
  5. (非線形および外積条件を数える)モデリングの過程において,サンプルにおける転帰の数と比較して適合または検証する項目の数が多すぎる場合には,回帰係数を要する残存自由変数の数が許容できるまでデータを縮減(Y を無視)すること.可能性の高い縮小(過剰適合)を評価することは,どれだけのデータ縮約が適切かを決定する際に役立つだろう.あるいは,最初のモデル適合に縮小を構築すること.
  6. データを浪費するにはあまりにも貴重なので,モデル構築には全標本を使うこと.下記のステップがブートストラップやクロスバリデーションにとって困難であれば,下記の全てのモデル開発ステップにテストデータを差し出すこと.
  7. 線形性の仮定を確認し,必要なら変数変換を施すこと.
  8. 加法性の仮定を確認し,臨床的に意欲的な相互作用項を加えること.
  9. 過度に影響のある観測値があるか否か見て確認すること.そのような観測値は過剰適合,つまり高度に偏った変数の範囲の切り捨ての必要性か,またはデータの誤差を示唆するものである.
  10. 分布の仮定を確認し,必要なら異なるモデルを選択すること.(Cox モデルにおいて比例ハザード性に違反する場合は層別化や時間依存性変数が用いられる)
  11. ステップダウン変数選択の後方制約を行うこと.ステップワイズ法は過剰適合を真にaddressせず情報の損失に至るため,フルモデル適合が(つまりP 値に関係ないモデルでは全ての仮説変数を残す),有意性の指標のスクリーニング後の適合よりも,しばしばより特異的である.それらはまた適切な適用範囲を持つ信頼区間を提供するものであり,ステップワイズ処理を用いて縮減されたモデル,その信頼区間は狭いのは偽りであるが,そのようなモデルとは異なる.仮にそれらの全 \chi^2 < 2 \times d.f.[/latex] ならそれらを削除しながら,妥協は予め指定された指標のサブセットのテストになるだろう.仮にその [latex]\chi^2[/latex] が小さいならそのサブセットはモデルの正確性を改善しないだろう.
  12. ここで『最終モデル』となる.
  13. 較正および識別能力のためこのモデルを検証すること.ブートストラップ法を用いるのが望ましい.ステップ7からステップ11までを各々のブートストラップ標本に対して繰り返さなければならない.もし年齢が最終モデル構築の際に変換されたなら,そしてその変換が年齢と年齢とに関連する適合に用いるデータから示唆されたなら,各々のブートストラップ反復は可能性のある,各段階において2次方程式から線形モデルベースの自動有意性検定へのステップダウンを伴う年齢変数の両者を含んでいなければならない.
  14. 仮にステップワイズ変数選択を行うなら要約表を提示すること.要約表にはブートストラップ法やクロスバリデーション法で選択した『重要な因子』のリストの変動が示されている.これはデータ由来の変数選択がなぜ本質的に曖昧なのかを理解するのに優れたツールである.
  15. 予測式のための相関係数の全体の傾斜を,数式 (2) を使うかまたはブートストラップ法で,そのモデルから可能性の高い予測の縮約を推定すること.縮約が内蔵されていない限り予測式を縮約するよう考慮すること.それにより較正が改善する.そのように,予測された死亡率 0.4 は新しい患者シリーズにおいて検証されているようだ.平均死亡率の回帰は 0.1 であるところ実際の死亡率は 0.2 に過ぎないのだが.

8. ソフトウェア

9. ケーススタディ

10. 要約

 臨床的多変量予後モデルを開発しその較正と識別を評価する手法について述べた.詳細なモデル仮定の例および偏りのない予測精度の評価は,紛らわしく無効の臨床的予測モデルを作り出すような問題を発見するだろう.7 章に示したモデリング戦略は多変量モデリングのピットフォールを避けるステップの一つを提供し,それにより多くの進歩が確認されるだろう.

参照:
多変量モデル評価法のc-indexをEXCEL VBAで計算する
Frank E. Harrell Jr, et al: Evaluating the Yield of Medical Tests. JAMA. 1982; 247 (18): 2543 – 2546
Korn, E. L. and Simon, R. Measures of explained variation for survival data, Statistics in Medicine 9(5), 487–503 (1990)

Operator interpretation of matrices

If A is an n \times n matrix, we can think of it as an operator or transformation acting on a column vector X to produce AX which is another column vector. With this interpretation equation (21) asks for those vectors X which are transformed by A into constant multiples of themselves [or equivalently into vectors which have the same direction but possibly different magnitude].

If case A is an orthogonal matrix, the transformation is a rotation and explains why the absolute value of all the eigenvalues in such case are equal to one, since an ordinary rotation of a vector would not change its magnitude.

The ideas of transformation are very convenient in giving interpretations to many properties of matrices.

行列演算子の解釈

仮に An \times n 次行列とすると,列ベクトル X に作用して別の列ベクトル AX を形成する演算子 または 変換 と考えることができます.この解釈によると方程式 (21) はそれらのベクトル X に, A によりそれら自身の定数倍(または同じ方向を持ち大きさの異なる同等のベクトル)に変換されたのはどちらだろうかという疑問が生じます.

 仮に A が直交行列の場合,その変換は 回転 となり,そのような場合になぜ全ての固有値の絶対値が 1 に等しくなるか説明できます.なぜなら通常ベクトルの回転はその大きさを変えないからです.

 この変換の考えは行列の属性への解釈を与える際に非常に便利です.

Theorems on eigenvalues and eigenvectors

Theorem 12. The eigenvalues of a Hermitian matrix [or symmetric real matrix] are real. The eigenvalues of a skew-Hermitian matrix [or skew-symmetric real matrix] are zero or pure imaginary. The eigenvalues of a unitary [or real orthogonal matrix] all have absolute value equal to 1.

Theorem 13. The eigenvectors belonging to different eigenvalues of a Hermitian matrix [or symmetric real matrix] are orthogonal.

Theorem 14. [Cayley-Hamilton] A matrix satisfies its own characteristic equation.

Theorem 15. [reduction of matrix to diagonal form] If a non-singular matrix A has distinct eigenvalues \lambda_1,\ \lambda_2,\ \cdots with corresponding eigenvectors written as columns in the matrix

\displaystyle B = \left( \begin{array}{cccc} b_{11} & b_{12} & b_{13} & \cdots \\ b_{21} & b_{22} & b_{23} & \cdots \\ \cdots & \cdots & \cdots & \cdots \end{array} \right)

then

B^{-1}AB = \left( \begin{array}{cccc} \lambda_1 & 0 & 0 & \cdots \\ 0 & \lambda_2 & 0 & \cdots \\ 0 & 0 & \lambda_3 & \cdots \\ \cdots & \cdots & \cdots & \cdots \end{array} \right)

i.e. B^{-1}AB, called the transform of A by B, is a diagonal matrix containing the eigenvalues of A in the main diagonal and zeros elsewhere. We say that A has been transformed or reduced to diagonal form.

Theorem 16. [Reduction of quadratic form to canonical form] Let A be a symmetric matrix, for example,

\displaystyle A = \left( \begin{array}{ccc} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{array} \right),\ a_{12} = a_{21},\ a_{13} = a_{11},\ a_{23} = a_{32}

Then if \displaystyle X = \left( \begin{array}{c} x_1 \\ x_2 \\ x_3 \end{array} \right), we obtain the quadratic form

 X^TAX = a_{11}x_1^2 + a_{22}x_2^2 + a_{33}x_3^2 + 2a_{12}x_1x_2 + 2a_{13}x_1x_3 + 2a_{23}x_2x_3

The cross product terms of this quadratic form can be removed by letting  X = BU where U is the column vector with elements u_1,\ u_2,\ u_3 and B is an orthogonal matrix which diagonalizes A. The new quadratic form in u_1,\ u_2,\ u_3 with no cross product terms is called the canonical form. A generalization can be made to Hermitian quadratic forms.

固有値と固有ベクトルにおける定理

定理 12. エルミート行列(または実対称行列)の固有値は実数です.歪エルミート行列(または歪対称実行列)の固有値はゼロまたは純虚数です.ユニタリ行列(または実直交行列)の固有値はすべて絶対値は 1 に等しくなります.

定理 13. エルミート行列(または実対称行列)の異なる固有ベクトルに属する固有ベクトルは直交します.

定理 14. (ケーリー・ハミルトン) ある行列は自身の特性方程式を満たします.

定理 15. (対角形への行列の縮約) ある正則行列 A に明確な固有値 \lambda_1,\ \lambda_2,\ \cdots があって対応する固有ベクトルが行列の中で列として記述されるなら

\displaystyle B = \left( \begin{array}{cccc} b_{11} & b_{12} & b_{13} & \cdots \\ b_{21} & b_{22} & b_{23} & \cdots \\ \cdots & \cdots & \cdots & \cdots \end{array} \right)

すると

B^{-1}AB = \left( \begin{array}{cccc} \lambda_1 & 0 & 0 & \cdots \\ 0 & \lambda_2 & 0 & \cdots \\ 0 & 0 & \lambda_3 & \cdots \\ \cdots & \cdots & \cdots & \cdots \end{array} \right)

すなわち B^{-1}ABB による A変換 と呼び, A の固有値を主対角線上に持ち,他はすべてゼロの対角行列です. A変換された または 対角形に縮約された といいます.

定理 16. (二次形式の標準形への縮約) A を対称行列とします.例えば

\displaystyle A = \left( \begin{array}{ccc} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{array} \right),\ a_{12} = a_{21},\ a_{13} = a_{11},\ a_{23} = a_{32}

 すると仮に \displaystyle X = \left( \begin{array}{c} x_1 \\ x_2 \\ x_3 \end{array} \right) ならば 二次形式 が得られます.

 X^TAX = a_{11}x_1^2 + a_{22}x_2^2 + a_{33}x_3^2 + 2a_{12}x_1x_2 + 2a_{13}x_1x_3 + 2a_{23}x_2x_3

 この二次形式の外積の項は  X = BU と置くことで除去されますが,ここで Uu_1,\ u_2,\ u_3 の要素を持つ列ベクトルです.また B は直交行列で A を直交化したものです. u_1,\ u_2,\ u_3 における新しい二次形式には外積の項がなく 標準形 と呼びます.一般化はエルミート二次形式によりなされます.

Eigenvalues and eigenvectors

Let  A = (a_{jk}) be an  n \times n matrix and X a column vector. The equation

AX = \lambda X \cdots (21)

where \lambda is a number can be written as

\displaystyle   \left( \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{array} \right)   \left( \begin{array}{c} x_1 \\ x_2 \\ \cdots \\ x_n \end{array} \right) =   \lambda\left( \begin{array}{c} x_1 \\ x_2 \\ \cdots \\ x_n \end{array} \right) \cdots (22)

or

\displaystyle \left. \begin{array}{ccc}  (a_{11} - \lambda)x_1 + a_{12}x_2 + \cdots + a_{1n}x_n & = & 0 \\  a_{21}x_1 + (a_{22} - \lambda)x_2 + \cdots + a_{2n}x_n & = & 0 \\  \cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots & = & 0 \\  a_{n1}x_1 + a_{n2}x_2 + \cdots + (a_{nn} - \lambda)x_n & = & 0   \end{array}\right\} \cdots(23)

The equation (23) will have non-trivial solution if and only if

\displaystyle  \left| \begin{array}{cccc}  a_{11} - \lambda & a_{12} & \cdots & a_{1n} \\  a_{21} & a_{22} - \lambda & \cdots & a_{2n} \\  \cdots & \cdots & \cdots & \cdots \\  a_{n1} & a_{n2} & \cdots & a_{nn} - \lambda   \end{array} \right| = 0 \cdots(24)

which is a polynomial equation of degree n in \lambda. The roots of this equation are called eigenvalues or characteristic values of the matrix A. Corresponding to each eigenvalue there will be a solution X \ne 0, i.e. a non-trivial solution, which is called an eigenvector or characteristic vector belonging to the eigenvalue. The equation (24) can also be written

\det(A - \lambda I) = 0 \cdots(25)

and the equation in \lambda is often called the characteristic equation.

固有値と固有ベクトル

   A = (a_{jk})  n \times n 行列とし X を列ベクトルとしましょう.以下の方程式について

AX = \lambda X \cdots (21)

ここで \lambda は数であり以下のように記述できます.

\displaystyle   \left( \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{array} \right)   \left( \begin{array}{c} x_1 \\ x_2 \\ \cdots \\ x_n \end{array} \right) =   \lambda\left( \begin{array}{c} x_1 \\ x_2 \\ \cdots \\ x_n \end{array} \right) \cdots (22)

あるいは

\displaystyle \left. \begin{array}{ccc}  (a_{11} - \lambda)x_1 + a_{12}x_2 + \cdots + a_{1n}x_n & = & 0 \\  a_{21}x_1 + (a_{22} - \lambda)x_2 + \cdots + a_{2n}x_n & = & 0 \\  \cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots & = & 0 \\  a_{n1}x_1 + a_{n2}x_2 + \cdots + (a_{nn} - \lambda)x_n & = & 0   \end{array}\right\} \cdots(23)

 方程式 (23) は以下の場合にのみ非自明解が存在します.

\displaystyle  \left| \begin{array}{cccc}  a_{11} - \lambda & a_{12} & \cdots & a_{1n} \\  a_{21} & a_{22} - \lambda & \cdots & a_{2n} \\  \cdots & \cdots & \cdots & \cdots \\  a_{n1} & a_{n2} & \cdots & a_{nn} - \lambda   \end{array} \right| = 0 \cdots(24)

これは \lambda における n 次多項式です.この方程式の根は行列 A固有値 または 特性値 と呼びます.各々の固有値に対応して X \ne 0 なる解,すなわち非自明解が存在し,それらを固有値に属する 固有ベクトル または 特性ベクトル と呼びます.方程式 (24) はまたこのようにも記述できます.

\det(A - \lambda I) = 0 \cdots(25)

また \lambda における方程式はしばしば 特性方程式 と呼びます.

Systems of n equations in n unknowns. Cramer’s rule

If m = n and if A is a non-singular matrix so that A^{-1} exists, we can solve (17) or (18) by writing

 X = A^{-1}R \cdots(19)

and the system has a unique solution.

Alternatively we can express the unknowns x_1,\ x_2,\ \cdots,\ x_n as

\displaystyle x_1 = \frac{\Delta_1}{\Delta},\ x_2 = \frac{\Delta_2}{\Delta},\ \cdots,\ x_n = \frac{\Delta_n}{\Delta} \cdots (20)

where \Delta = \det(A), called the determinant of the system, is given by (9) and \Delta_k,\ k = 1,\ 2,\ \cdots,\ n is the determinant obtained from \Delta by removing the kth column and replacing it by the column vector R. The rule expressed in (20) is called Cramer’s rule.

The following four cases can arise.

Case 1, \Delta \ne 0,\ R \ne 0 . In this case there will be a unique solution where not all x_k will be zero.

Case 2, \Delta \ne 0,\ R = 0 . In this case the only solution will be x_1 = 0,\ x_2 = 0,\ \cdots,\ x_n = 0, i.e. X = 0. This is often called the trivial solution.

Case 3, \Delta = 0,\ R = 0 . In this case there will be infinitely many solutions other than the trivial solution. This means that at least one of the equations can be obtained from the others, i.e. the equations are linearly dependent.

Case 4, \Delta = 0,\ R \ne 0 . In this case infinitely many solutions will exist if and only if all of the determinants \Delta_k in (20) are zero. Otherwise there will be no solution.

n個の未知数におけるn個の連立方程式,クラメールの公式

 仮に m = n であって更に A が正則行列つまり A^{-1} が存在するなら,以下のように記述して (17) または (18) を解くことができます.

 X = A^{-1}R \cdots(19)

更にこの連立方程式は一意解を持ちます.

 代わりに未知数 x_1,\ x_2,\ \cdots,\ x_n を以下のように表現することもあります.

\displaystyle x_1 = \frac{\Delta_1}{\Delta},\ x_2 = \frac{\Delta_2}{\Delta},\ \cdots,\ x_n = \frac{\Delta_n}{\Delta} \cdots (20)

ここで \Delta = \det(A)連立方程式の行列式 と呼び, (9) により与えられまた \Delta_k,\ k = 1,\ 2,\ \cdots,\ n\Delta から k 番目の列を除去して列ベクトル R に置換して与えられる行列式です.(20) に表した公式を クラメールの公式 と言います.

 下記の4つの場合が考えられます.

例 1, \Delta \ne 0,\ R \ne 0 . この場合一意解が存在するはずで,全てでない x_k はゼロに違いありません.

例 2, \Delta \ne 0,\ R = 0 . この場合唯一の解は x_1 = 0,\ x_2 = 0,\ \cdots,\ x_n = 0 です.すなわち X = 0 です.しばしば 自明な解 と呼びます.

例 3, \Delta = 0,\ R = 0 . この場合自明解以外に無限に多くの解が存在するはずです.この時少なくとも一つの方程式が他の方程式から得られます.すなわちその方程式は線形従属です.

例 4, \Delta = 0,\ R \ne 0 . この場合 (20) におけるすべての行列式 \Delta_k がゼロの時にのみ無限に多くの解が存在する筈です.他の場合は解は存在しません.

Systems of linear equations

A set of equations having the form

 \left. \begin{array}{ccc}  a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n & = & r_1 \\  a_{21}x_2 + a_{22}x_2 + \cdots + a_{2n}x_n & = & r_2 \\  \cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots & \cdots & \cdots \\  a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n & = & r_n   \end{array} \right\}\cdots(16)

is called a system of m linear equations in the n unknowns x_1,\ x_2,\ \cdots,\ x_n. If r_1,\ r_2,\ \cdots,\ r_n are all zero the system is called homogeneous. If they are not all zero it is called non-homogeneous. Any set of numbers x_1,\ x_2,\ \cdots,\ x_n which satisfies (16) is called a solution of the system.

In the matrix form (16) can be written

\displaystyle \left( \begin{array}{cccc}  a_{11} & a_{12} & \cdots & a_{1n} \\  a_{21} & a_{22} & \cdots & a_{2n} \\  \cdots & \cdots & \cdots & \cdots \\  a_{m1} & a_{m2} & \cdots & a_{mn}     \end{array} \right)  \left( \begin{array}{c} x_1 \\ x_2 \\ \cdots \\ x_n \end{array} \right) =   \left( \begin{array}{c} r_1 \\ r_2 \\ \cdots \\ r_n \end{array} \right) \cdots (17)

or more briefly  AX = R \cdots (18)

where A, X, R represent the corresponding matrices in (17).

連立一次方程式

 以下の形式を持つ方程式の集合があるとします.

 \left. \begin{array}{ccc}  a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n & = & r_1 \\  a_{21}x_2 + a_{22}x_2 + \cdots + a_{2n}x_n & = & r_2 \\  \cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots & \cdots & \cdots \\  a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n & = & r_n   \end{array} \right\}\cdots(16)

これらは n 個の未知数 x_1,\ x_2,\ \cdots,\ x_n についての m 個の連立方程式 と呼びます.仮に r_1,\ r_2,\ \cdots,\ r_n がすべてゼロならその連立方程式は 斉次 と呼びます.仮にそれらがすべてゼロでないなら 非斉次 と呼びます.(16) を満たすいかなる数 x_1,\ x_2,\ \cdots,\ x_n の集合も連立方程式の と呼びます.

行列においては (16) の形式は以下のように記述できます.

\displaystyle \left( \begin{array}{cccc}  a_{11} & a_{12} & \cdots & a_{1n} \\  a_{21} & a_{22} & \cdots & a_{2n} \\  \cdots & \cdots & \cdots & \cdots \\  a_{m1} & a_{m2} & \cdots & a_{mn}     \end{array} \right)  \left( \begin{array}{c} x_1 \\ x_2 \\ \cdots \\ x_n \end{array} \right) =   \left( \begin{array}{c} r_1 \\ r_2 \\ \cdots \\ r_n \end{array} \right) \cdots (17)

または短縮して  AX = R \cdots (18)

ここで A, X, R はそれぞれ (17) における対応する行列を表現しています.

Orthogonal vectors

The scalar or dot product of two vectors a_1\bold{i} + a_2\bold{j} + a_3\bold{k} and b_1\bold{i} + b_2\bold{j} + b_3\bold{k} is a_1b_1 + a_2b_2 + a_3b_3 and the vectors are perpendicular or orthogonal if a_1b_1 + a_2b_2 + a_3b_3 = 0. From the point of view of matrices we can consider these vectors as column vectors

\displaystyle A = \left( \begin{array}{c} a_1 \\ a_2 \\ a_3 \end{array} \right),\ B = \left( \begin{array}{c} b_1 \\ b_2 \\ b_3 \end{array} \right)

from which it follows that A^TB = a_1b_1 + a_2b_2 + a_3b_3.

This leads us to define the scalar product of real column vectors A and B as A^TB and to define A and B to be orthogonal if A^TB = 0.

It is convenient to generalize this to cases where the vectors can have complex components and we adopt the following definition:

Definition 1. Two column vectors A and B are called orthogonal if \bar{A}^TB = 0 , and \bar{A}^TB is called the scalar product of A and B.

It should be noted also that if A is a unitary matrix then \bar{A}^TA = 1, which means that the scalar product of A with itself is 1 or equivalently A is a unit vector, i.e. having length 1. Thus a unitary column vector is a unit vector. Because of these remarks we have the following

Definition 2. A set of vectors X_1,\ X_2,\ \cdots for which

\displaystyle \bar{X}^T_jX_k = \left\{\begin{array}{cc} 0 & j \ne k \\ 1 & j = k \end{array} \right.

is called a unitary set or system of vectors or, in the case where the vectors are real, an orthonormal set or an orthogonal set of unit vectors.

直交ベクトル

 二つのベクトル a_1\bold{i} + a_2\bold{j} + a_3\bold{k} および b_1\bold{i} + b_2\bold{j} + b_3\bold{k} のスカラー積またはドット積は a_1b_1 + a_2b_2 + a_3b_3 であり, a_1b_1 + a_2b_2 + a_3b_3 = 0 ならばそれらのベクトルは垂直または直交します.行列の観点からこれらのベクトルは列ベクトルと考えることができます.

\displaystyle A = \left( \begin{array}{c} a_1 \\ a_2 \\ a_3 \end{array} \right),\ B = \left( \begin{array}{c} b_1 \\ b_2 \\ b_3 \end{array} \right)

これらは A^TB = a_1b_1 + a_2b_2 + a_3b_3 という性質があります.

 これにより 実数の列ベクトル A および B の内積A^TB と定義し, A^TB = 0 なら A および B直交 するとの定義に至ります.

 これらを複素数を要素に持つ場合に一般化し,次の定義を採用するのは便利です.

定義 1. 二つの列ベクトル A および B\bar{A}^TB = 0 なら 直交 と呼び, \bar{A}^TBA および Bスカラー積 と呼びます.

 仮に A がユニタリ行列なら \bar{A}^TA = 1 であることに注意が必要です.それは A とそれ自身とのスカラー積が 1 であり, A単位ベクトル であることすなわち長さが 1 であることと等価です.ゆえにユニタリ列ベクトルは単位ベクトルです.これらの特徴から以下を得ます.

定義 2. ベクトルの集合 X_1,\ X_2,\ \cdots について

\displaystyle \bar{X}^T_jX_k = \left\{\begin{array}{cc} 0 & j \ne k \\ 1 & j = k \end{array} \right.

unitary set or system of vectors と呼び,あるいはベクトルが実数の場合には 正規直交の集合 または 単位ベクトルの直交の集合 と呼びます.

直交行列とユニタリ行列

 実行列 A はその転置行列が自身の逆行列と同じ場合,すなわち仮に A^T = A^{-1} または  A^TA= I ならば 直交行列 と呼びます.

 複素行列 A は自身の複素共軛転置行列が逆行列と同じなら,すなわち仮に  \bar{A}^T = A^{-1} または  \bar{A}^TA = I ならば ユニタリ行列 と呼びます.実ユニタリ行列は直交行列であることに注意が必要です.

Inverse of a matrix

If for a given square matrix A there exists a matrix B such that  AB = I , then B is called an inverse of A and is denoted by A^{-1}. The following theorem is fundamental.

11. If A is a non-singular square matrix of order n [i.e. \det(A) \ne 0], then there exists a unique inverse A^{-1} such that AA^{-1} = A^{-1}A = I and we can express  A^{-1} in the following form

\displaystyle A^{-1} = \frac{(A_{jk})^T}{\det(A)} \cdots(14)

where (A_{jk}) is the matrix of cofactors A_{jk} and (A_{jk})^T = (A_{kj}) is its transpose.

The following express some properties of the inverse:

(AB)^{-1} = B^{-1}A^{-1} ,\ (A^{-1})^{-1} = A \cdots(15)

逆行列

 仮にある正方行列 A があって,  AB = I のような性質を有する B が存在するなら BA逆行列 と呼ばれ A^{-1} と記述します.下記の定理が成り立ちます.

11. 仮に An 次の非特異的正方行列の場合,すなわち \det(A) \ne 0 の時,唯一のの逆行列 A^{-1} が存在し, AA^{-1} = A^{-1}A = I であって  A^{-1} を次の形で表現できます.

\displaystyle A^{-1} = \frac{(A_{jk})^T}{\det(A)} \cdots(14)

ここで (A_{jk}) は余因子 A_{jk} の行列であって (A_{jk})^T = (A_{kj}) はその転置行列です.

 以下は逆行列のいくつかの性質を示しています.

(AB)^{-1} = B^{-1}A^{-1} ,\ (A^{-1})^{-1} = A \cdots(15)

Theorems on determinants

  1. The value of a determinant remains the same if rows and columns are interchanged. In symbols, \det(A) = \det(A^T).
  2. If all elements of any row [or column] are zero except for one element, then the value of the determinant is equal to the product of that element by its cofactor. In particular, if all elements of a row [or column] are zero the determinant is zero.
  3. An interchange of any two rows [or columns] changes the sign of the determinant.
  4. If all elements in any row [or column] are multiplied by a number, the determinant is also multiplied by this number.
  5. If any two rows [or columns] are the same or proportional, the determinant is zero.
  6. If we express the elements of each row [or column] as the sum of two terms, then the determinant can be expressed as the sum of two determinants having the same order.
  7. If we multiply the elements of any row [or column] by a given number and add to corresponding elements of any other row [or column], then the value of the determinant remains the same.
  8. If A and B are square matrices of the same order, then
    \det(AB) = \det(A)\det(B)\cdots(11)
  9. The sum of the products of the elements of any row [or column] by the cofactors of another row [or column] is zero. In symbols,
    \displaystyle \sum^n_{k=1}a_{qk}A_{pk} = 0 or \displaystyle \sum^n_{k=1}a_{kq}A_{kp} = 0 if p \ne q\cdots(12)

    If  p = q , the sum is \det(A) by (10).

  10. Let v_1,\ v_2,\ \cdots,\ v_n represent row vectors [or column vectors] of a square matrix A of order n. Then \det(A) = 0 if and only if there exist constants [scalars] \lambda_1,\ \lambda_2,\ \cdots,\ \lambda_n not all zero such that
    \lambda_1v_1 + \lambda_2v_2 + \cdots + \lambda_nv_n = O \cdots(13)

    where O is the null or zero row matrix. If condition (13) is satisfied we say that the vectors v_1,\ v_2,\ \cdots,\ v_n are linearly dependent. A matrix A such that \det(A) = 0 is called a singular matrix. If \det(A) \ne 0, then A is a non-singular matrix.

In practice we evaluate a determinant of order n by using Theorem 7 successively to replace all but one of the elements in a row or column by zeros and then using Theorem 2 to obtain a new determinant of order n – 1. We continue in this manner, arriving ultimately at determinants of order 2 or 3 which are easily evaluated.

行列式の定理

  1. 行列式の値は,行と列が入れ替わっても変化しません.記法では \det(A) = \det(A^T).
  2. 任意の行または列の1つを除く全要素がゼロならば行列式の値は,そのゼロでない要素の余因子の積に等しくなります.特に,ある行または列の全要素がゼロならば行列式もゼロになります.
  3. 任意の 2 行または 2 列を交換すると行列式の符号が変化します.
  4. 任意の行または列の全要素にある数をかけると,その行列式もその数でかけられたものになります.
  5. 任意の 2 行または 2 列が同じか比例するならその行列式はゼロになります.
  6. 各行または各列の要素を 2 項で表現できるなら,その行列式は同次の二つの行列式の和で表現できます.
  7. 任意の行または列の要素にある数をかけ,任意の他の行または列の対応する要素に足していくと,その行列式の値は同じになります.
  8. 仮に A および B が同次の正方行列なら
    \det(AB) = \det(A)\det(B)\cdots(11)
  9. 他の行または列の余因子による任意の行または列の要素の積和はゼロとなります.記法では
    \displaystyle \sum^n_{k=1}a_{qk}A_{pk} = 0 or \displaystyle \sum^n_{k=1}a_{kq}A_{kp} = 0 if p \ne q\cdots(12)

    仮に  p = q なら \det(A) の和は (10) によります.

  10. ここで v_1,\ v_2,\ \cdots,\ v_nn 次正方行列 A の行ベクトルまたは列ベクトルを表すとします.すると \det(A) = 0 となるのはすべてゼロではない以下の条件を満たす定数またはスカラー \lambda_1,\ \lambda_2,\ \cdots,\ \lambda_n が存在するときのみです.
    \lambda_1v_1 + \lambda_2v_2 + \cdots + \lambda_nv_n = O \cdots(13)

    ここで O はヌル行列または零行列です.仮に条件式 (13) が満たされるならベクトル v_1,\ v_2,\ \cdots,\ v_n線形従属 であると示すことができます.ある行列 A\det(A) = 0 を満たすなら 特異行列 と呼びます.仮に \det(A) \ne 0 であるなら A非特異行列 です.

 実際には,定理 7 によりある行または列の一つを除いた全要素を 0 で置換し,更に定理 2 を用いて n – 1 次の新しい行列式を得ることで n 次の行列式を評価できます.この方法を続けることで,最終的に 2 次または 3 次の行列式に到達するため,評価は容易です.