등산 수송 경제적인 스토브

첫 번째 주요 구성 요소. 주성분 방법: 정의, 적용, 계산 예. 주성분으로 축소한 후 정규화

구성 요소 분석은 다차원 차원 축소 방법을 나타냅니다. 여기에는 주성분 방법이라는 하나의 방법이 포함되어 있습니다. 주요 구성 요소는 다음과 같습니다. 직교 시스템성분의 분산이 통계적 특성을 나타내는 좌표입니다.

경제학 연구의 대상은 크지만 유한한 수의 특성을 특징으로 하며, 그 영향은 수많은 무작위 원인에 영향을 받는다는 점을 고려하면.

주성분 계산

연구된 특징 X1, X2, X3, X4,..., Xn 시스템의 첫 번째 주성분 Z1은 이러한 특징의 중심-정규화된 선형 조합이라고 하며, 이러한 특징의 중심-정규화된 선형 조합은 다음과 같습니다. 분산이 가장 다양합니다.

두 번째 주요 구성 요소 Z2로서 우리는 다음과 같은 기능의 중심-정규화된 조합을 사용합니다.

첫 번째 주성분과 상관 관계가 없습니다.

첫 번째 주성분과 상관 관계가 없으면 이 조합이 가장 큰 분산을 갖습니다.

K번째 주 구성요소 Zk(k=1…m)를 중앙 집중화되고 정규화된 특징 조합으로 부르겠습니다.

k-1개의 이전 주성분과 상관관계가 없으며,

초기 기능의 가능한 모든 조합 중에서

k-1개의 이전 주성분과 상관관계가 없으므로 이 조합은 가장 큰 분산을 갖습니다.

직교 행렬 U를 도입하고 X 변수에서 Z 변수로 이동해 보겠습니다.

벡터는 분산이 최대가 되도록 선택됩니다. 얻은 후에는 상관 관계가 없는 한 분산이 최대가 되도록 so가 선택됩니다.

특성은 비교할 수 없는 양으로 측정되므로 중심 정규화된 양으로 이동하는 것이 더 편리합니다. 우리는 관계에서 특징의 초기 중심 정규화 값의 행렬을 찾습니다.

수학적 기대에 대한 편견 없고 일관되며 효과적인 추정치는 어디에 있습니까?

편견이 없고 일관되며 효율적인 분산 추정.

초기 특성의 관찰된 값 매트릭스는 부록에 나와 있습니다.

센터링 및 정규화는 "Stadia" 프로그램을 사용하여 수행되었습니다.

특징은 중심화되고 정규화되므로 다음 공식을 사용하여 상관 행렬을 추정할 수 있습니다.


구성요소 분석을 수행하기 전에 초기 특성의 독립성을 분석합니다.

Wilks 테스트를 사용하여 쌍별 상관 행렬의 유의성을 확인합니다.

우리는 다음과 같은 가설을 제시했습니다.

H0: 중요하지 않음

H1: 유의미함

125,7; (0,05;3,3) = 7,8

>이므로 가설 H0이 기각되고 행렬이 중요하므로 성분 분석을 수행하는 것이 합리적입니다.

공분산 행렬의 대각선성에 대한 가설을 확인해 보겠습니다.

우리는 다음과 같은 가설을 제시했습니다.

우리는 자유도에 따라 법에 따라 배포되는 통계를 구축합니다.

123,21, (0,05;10) =18,307

>이므로 가설 H0이 기각되고 성분 분석을 수행하는 것이 합리적입니다.

요인 적재 행렬을 구성하려면 방정식을 풀어 행렬의 고유값을 찾아야 합니다.

이 작업을 위해 우리는 행렬의 고유값을 반환하는 MathCAD 시스템의 고유값 함수를 사용합니다.

왜냐하면 원본 데이터는 다음의 샘플입니다. 인구, 그런 다음 행렬의 고유값과 고유벡터가 아니라 해당 추정값을 받았습니다. 우리는 통계적 관점에서 표본 특성이 일반 모집단에 대한 해당 매개변수를 얼마나 잘 설명하는지에 관심을 가질 것입니다.

i번째 고유값에 대한 신뢰 구간은 다음 공식을 사용하여 구합니다.

고유값에 대한 신뢰 구간은 궁극적으로 다음과 같은 형식을 취합니다.

여러 고유값 값의 추정치는 다른 고유값의 신뢰 구간 내에 속합니다. 고유값의 다중성에 대한 가설을 테스트할 필요가 있습니다.

다중성은 통계를 사용하여 확인됩니다.

여기서 r은 다중 근의 수입니다.

공정성을 고려하면 이 통계는 자유도 수에 따라 법에 따라 배포됩니다. 가설을 세워보자:

가설이 기각되었기 때문에, 즉 고유값은 배수가 아닙니다.

가설이 기각되었기 때문에, 즉 고유값은 배수가 아닙니다.

정보 내용 수준 0.85에서 주요 구성 요소를 식별하는 것이 필요합니다. 정보 내용의 측정은 원래 특징의 분산 중 k-첫 번째 주성분으로 구성되는 부분 또는 비율을 보여줍니다. 우리는 정보 내용의 척도를 다음 값이라고 부릅니다.

주어진 정보 내용 수준에서 세 가지 주요 구성 요소가 식별됩니다.

행렬을 쓰자 =

원래 피처에서 주성분으로 정규화된 전이 벡터를 얻으려면 방정식 시스템을 풀어야 합니다. 여기서 는 해당 고유값입니다. 시스템에 대한 해를 얻은 후에는 결과 벡터를 정규화해야 합니다.

이 문제를 해결하기 위해 해당 고유값에 대해 정규화된 벡터를 반환하는 MathCAD 시스템의 eigenvec 함수를 사용합니다.

우리의 경우, 처음 4개의 주요 구성요소는 주어진 수준의 정보 내용을 달성하는 데 충분하므로 행렬 U(원래 기저에서 고유벡터 기저로의 전이 행렬)

우리는 열이 고유벡터인 행렬 U를 구성합니다.

가중 계수 행렬:

행렬 A의 계수는 중심 정규화된 초기 특징과 정규화되지 않은 주성분 사이의 상관 계수로, 해당 초기 특징과 해당 주성분 사이의 선형 관계의 유무, 강도 및 방향을 나타냅니다.

주성분 분석(PCA)은 추세와 패턴을 유지하면서 고차원 데이터의 복잡성을 단순화합니다. 이는 데이터를 함수 요약 역할을 하는 더 작은 차원으로 변환하여 수행됩니다. 이러한 데이터는 과학 기술의 다양한 분야에서 매우 일반적이며, 많은 종의 발현과 같이 각 샘플에 대해 여러 특성을 측정할 때 발생합니다. 이러한 유형의 데이터는 여러 번의 데이터 수정으로 인해 오류율이 증가하여 발생하는 문제를 나타냅니다.

이 방법은 클러스터링과 유사합니다. 연결되지 않은 패턴을 찾아서 분석하여 샘플이 다른 연구 그룹에서 나온 것인지, 크게 다른지 여부를 확인합니다. 모든 통계 방법과 마찬가지로 이 방법도 잘못 적용될 수 있습니다. 변수의 스케일링에 따라 분석 결과가 달라질 수 있으며, 데이터의 이전 값과 일치하도록 조정되지 않는 것이 중요합니다.

성분 분석의 목표

이 방법의 주요 목표는 데이터 세트의 차원을 감지 및 줄이고 새로운 중요한 기본 변수를 식별하는 것입니다. 이를 위해 행이 변수의 케이스 및 열과 연관되어 있는 TableOfReal 데이터 매트릭스에서 다차원 데이터를 수집하는 등의 특수 도구를 사용하는 것이 제안됩니다. 따라서 TableOfReal은 numberOfRows 데이터 벡터로 해석되며, 각 벡터에는 여러 개의 Columns 요소가 있습니다.

전통적으로 주성분 분석은 데이터 행렬로부터 계산할 수 있는 공분산 행렬이나 상관 행렬에 대해 수행됩니다. 공분산 행렬에는 스케일링된 제곱합과 교차곱이 포함됩니다. 상관행렬은 공분산행렬과 유사하지만, 그 안에는 변수, 즉 열이 먼저 표준화되어 있습니다. 변수의 분산이나 단위가 매우 다른 경우 먼저 데이터를 표준화해야 합니다. 분석을 수행하려면 개체 목록에서 TabelOfReal 데이터 매트릭스를 선택하고 이동을 클릭하세요.

이렇게 하면 주 구성 요소 방법을 사용하여 개체 목록에 새 개체가 나타납니다. 이제 고유값 곡선을 그려 각각의 중요성에 대한 아이디어를 얻을 수 있습니다. 그리고 프로그램은 분산의 몫을 구하거나 고유값 개수의 동일성을 확인하고 동일성을 구하는 작업을 제안할 수도 있습니다. 구성 요소는 특정 최적화 문제를 해결하여 얻어지기 때문에 최대 가변성과 같은 일부 "내장" 속성을 갖습니다. 또한 요인 분석을 제공할 수 있는 다른 속성도 많이 있습니다.

  • 각각의 분산, 원래 변수의 전체 분산의 비율은 고유값에 의해 제공됩니다.
  • 관찰 시 각 구성 요소의 값을 보여주는 점수 계산;
  • 각 구성 요소와 각 변수 간의 상관 관계를 설명하는 로딩을 얻는 단계;
  • p-성분을 사용하여 재현된 원래 변수 간의 상관 관계;
  • 소스 데이터의 재생은 p-컴포넌트에서 재생될 수 있습니다.
  • 해석 가능성을 높이기 위해 구성 요소를 "회전"합니다.

저장 지점 수 선택

선택하는 방법은 두 가지가 있습니다 필요한 금액저장 구성요소. 두 방법 모두 고유값 간의 관계를 기반으로 합니다. 이렇게 하려면 값을 플롯하는 것이 좋습니다. 그래프의 점들이 정렬되는 경향이 있고 0에 충분히 가까우면 무시할 수 있습니다. 전체 분산의 특정 비율을 설명하는 수로 성분 수를 제한합니다. 예를 들어 사용자가 전체 분산의 95%에 만족하는 경우 성분 수(VAF)는 0.95입니다.

주성분은 고유벡터 공간에서 데이터벡터의 다변량 통계적 주성분 분석을 설계하여 얻습니다. 이 작업은 두 가지 방법으로 수행할 수 있습니다. 먼저 PCA 개체를 생성하지 않고 TableOfReal에서 직접 수행한 다음 구성이나 해당 번호를 표시할 수 있습니다. Object와 TableOfReal을 함께 선택하고 "Configuration"을 선택하여 구성 요소 자체 환경에서 분석을 수행합니다.

시작점이 공분산 행렬과 같은 대칭 행렬인 경우 먼저 형상 축소가 수행된 다음 암시적 이동을 사용하는 QL 알고리즘이 수행됩니다. 반대로 시작점이 데이터 행렬이면 제곱합으로 행렬을 구성하는 것이 불가능합니다. 대신 수치적으로 더 안정적인 방법에서 전환하여 특이값 확장을 형성합니다. 그런 다음 행렬에는 고유 벡터가 포함되고 정사각형 대각선 요소에는 고유 값이 포함됩니다.

주성분은 인형용 주성분 분석 데이터 세트에 있는 원래 예측 변수의 정규화된 선형 조합입니다. 위 이미지에서는 PC1과 PC2가 주요 구성 요소입니다. X1, X2...,Xp와 같은 예측 변수가 여러 개 있다고 가정해 보겠습니다.

주성분은 다음과 같이 쓸 수 있습니다: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 - 첫 번째 주요 구성 요소입니다.
  • p1은 첫 번째 주성분의 하중(1, 2.)으로 구성된 하중 벡터입니다.

로딩은 제곱합이 1로 제한됩니다. 로딩이 크면 분산이 커질 수 있기 때문입니다. 또한 데이터가 가장 많이 달라지는 주성분(Z1)의 방향을 결정합니다. 그 결과 n-관찰에 가장 가까운 p-측정 공간에 선이 생성됩니다.

근접성은 제곱평균제곱근 유클리드 거리를 사용하여 측정됩니다. X1..Xp는 정규화된 예측변수입니다. 정규화된 예측변수의 평균은 0이고 표준편차는 1입니다. 따라서 첫 번째 주성분은 데이터 세트의 최대 분산을 포착하는 원래 예측 변수의 선형 조합입니다. 이는 데이터의 변동성이 가장 큰 방향을 결정합니다. 첫 번째 구성 요소에 기록된 변동성이 클수록 해당 구성 요소에서 수신되는 정보도 더 커집니다. 다른 어떤 것도 첫 번째 주요 것보다 더 높은 변동성을 가질 수 없습니다.

첫 번째 주성분은 데이터에 가장 가까운 선을 생성하고 데이터 점과 선 사이 거리의 제곱의 합을 최소화합니다. 두 번째 주성분(Z2)도 원래 예측 변수의 선형 조합으로, 데이터 세트의 나머지 분산을 포착하고 Z1과 상관 관계가 없습니다. 즉, 첫 번째 성분과 두 번째 성분 간의 상관관계는 0이어야 합니다. Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp로 나타낼 수 있습니다.

상관관계가 없다면 방향은 직교해야 합니다.

주성분이 계산되면 이를 사용하여 테스트 데이터를 예측하는 프로세스가 시작됩니다. 주성분 방법 프로세스는 인형의 경우 간단합니다.

예를 들어, R 언어(ver. 3.4.2) 및 해당 rvest 라이브러리의 center 및 scale 기능을 포함하여 테스트 세트로 변환해야 합니다. R은 통계 컴퓨팅 및 그래픽을 위한 무료 프로그래밍 언어입니다. 사용자의 통계적 문제를 해결하기 위해 1992년에 재설계되었습니다. 이는 PCA 추출 후의 완전한 모델링 프로세스입니다.

Python에서 PCA를 구현하려면 sklearn 라이브러리에서 데이터를 가져옵니다. R 사용자에 대한 해석은 동일하게 유지됩니다. Python에 사용된 데이터 세트만 정리된 버전이며, 귀속된 누락 값과 범주형 변수가 숫자 변수로 변환되지 않습니다. 모델링 프로세스는 R 사용자에 대해 위에서 설명한 것과 동일합니다. 주성분 방법, 계산 예:

주성분 방법의 기본 개념은 이 표현식을 근사화하여 요인 분석을 수행하는 것입니다. 1에서 p까지 합산하는 대신 이제 1에서 m까지 합산하고 다음을 무시합니다. 지난 오후합계로 항을 구하고 세 번째 표현식을 얻습니다. 행렬 표기법으로 최종 표현식을 제공하는 인자 로딩 행렬 L을 정의하는 데 사용되는 표현식에 표시된 대로 이를 다시 작성할 수 있습니다. 표준화된 측정을 사용하는 경우 S를 상관 표본 행렬 R로 바꿉니다.

이는 요인 분석에서 요인 로딩 행렬 L을 형성하고 그 뒤에 전치된 L이 옵니다. 특정 분산을 추정하기 위해 분산-공분산 행렬에 대한 요인 모델이 사용됩니다.

이제 분산-공분산 행렬에서 LL을 뺀 것과 같습니다.

  • Xi는 i번째 개체에 대한 관측값의 벡터입니다.
  • S는 표본 분산-공분산 행렬을 나타냅니다.

그러면 p는 이 분산 공분산 행렬의 고유값이자 이 행렬의 해당 고유벡터입니다.

고유값 S:λ^1, λ^2, ... , λ^п.

고유벡터 S: e^1, e^2, ... , e^n.

PCA 분석은 정량적 변수를 사용하여 다변량 데이터 세트를 검사할 수 있는 강력하고 널리 사용되는 다변량 분석 기술입니다. 이 기술은 생물정보학, 마케팅, 사회학 및 기타 여러 분야의 주요 구성 요소 방법에 널리 사용됩니다. XLSTAT는 Excel에서 직접 데이터를 탐색할 수 있는 완전하고 유연한 기능을 제공하며 사용자 데이터에 대한 깊은 통찰력을 제공하는 여러 가지 표준 및 고급 옵션을 제공합니다.

원시 데이터 또는 차이 행렬에 대해 프로그램을 실행하고, 추가 변수 또는 관측치를 추가하고, 다음에 따라 변수를 필터링할 수 있습니다. 다양한 기준카드 판독을 최적화합니다. 또한 턴을 수행할 수도 있습니다. 상관관계 원, 관찰 그래프를 표준 Excel 차트로 쉽게 설정할 수 있습니다. 분석에 사용하려면 결과 보고서의 데이터를 전송하기만 하면 됩니다.

XLSTAT는 주요 구성 요소 계산 전에 입력 데이터에 사용되는 여러 가지 데이터 처리 방법을 제공합니다.

  1. Pearson은 결과에서 큰 편차를 보이는 변수의 영향이 부풀려지는 것을 방지하기 위해 계산용 데이터를 자동으로 표준화하는 고전적인 PCA입니다.
  2. 비표준 편차를 다루는 공분산.
  3. 순서형 데이터의 경우 Polychoric입니다.

차원 데이터 분석의 예

대칭 상관 또는 공분산 행렬을 실행하는 예를 사용하여 주성분 방법을 고려할 수 있습니다. 이는 행렬이 숫자여야 하고 표준화된 데이터를 가져야 함을 의미합니다. 차원이 300(n) × 50(p)인 데이터 세트가 있다고 가정해 보겠습니다. 여기서 n은 관측치 수를 나타내고 p는 예측 변수 수를 나타냅니다.

p = 50이 크기 때문에 p(p-1)/2 산점도가 있을 수 있습니다. 이 경우 예측 변수 p(p)의 하위 집합을 선택하는 것이 좋은 접근 방식입니다.<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

두 개의 변수가 있는 행렬의 예입니다. 이 주성분 분석 예는 인공 Davis 데이터를 사용하여 두 개의 변수(주 길이와 대각선 길이)가 있는 데이터 세트를 생성합니다.

구성요소는 다음과 같이 산점도에 그려질 수 있습니다.

이 플롯은 데이터의 최적 요약을 제공하는 첫 번째 또는 주성분의 아이디어를 보여줍니다. 이러한 산점도에 그려진 다른 선은 분산이 적은 선에서 데이터 포인트의 예측 값 세트를 생성하지 않습니다.

첫 번째 구성 요소는 x 변수와 y 변수 모두에 오류나 불확실성이 있거나 예측 변수와 반응 간에 명확한 구분이 없는 것으로 가정되는 축소 주축(RMA) 회귀 분석에도 적용됩니다.

계량경제학의 주성분 분석은 GNP, 인플레이션, 환율 등과 같은 변수를 분석하는 것입니다. 그런 다음 해당 방정식은 주로 집계 시계열인 사용 가능한 데이터로부터 추정됩니다. 그러나 계량경제 모델은 거시경제학 이외의 다양한 응용 분야에 사용될 수 있습니다. 따라서 계량경제학은 경제적 측정을 의미합니다.

관련 계량경제 데이터에 통계적 방법을 적용하면 경제변수 간의 관계를 알 수 있습니다. 계량 경제학 모델의 간단한 예입니다. 소비자의 월간 지출은 전월 소비자 소득과 선형적으로 변화한다고 가정합니다. 그러면 모델은 다음 방정식으로 구성됩니다.

계량경제학자의 임무는 매개변수 a와 b의 추정치를 구하는 것입니다. 이러한 모수 추정치는 모델 방정식에 사용될 때 전월 소득에 따라 달라지는 미래 소비 가치를 예측합니다. 이러한 유형의 모델을 개발할 때 고려해야 할 몇 가지 사항이 있습니다.

  • 데이터를 생성하는 확률적 프로세스의 특성
  • 그것에 대한 지식 수준;
  • 시스템 크기;
  • 분석 양식;
  • 예측 범위;
  • 시스템의 수학적 복잡성.

이러한 모든 전제는 모델에서 발생하는 오류의 원인을 결정하기 때문에 중요합니다. 또한, 이러한 문제를 해결하기 위해서는 예측 방법을 결정하는 것이 필요하다. 표본이 작더라도 선형모형으로 축소할 수 있습니다. 이 유형은 예측 분석을 생성할 수 있는 가장 일반적인 유형 중 하나입니다.

비모수 통계

비모수적 데이터에 대한 주성분 분석은 특정 분포에서 데이터를 추출하는 측정 방법을 의미합니다. 비모수적 통계 방법은 다양한 유형의 연구에 널리 사용됩니다. 실제로 측정의 정규성 가정이 충족되지 않는 경우 모수적 통계 방법은 잘못된 결과를 초래할 수 있습니다. 대조적으로, 비모수적 방법은 차원 전체의 분포에 대해 훨씬 덜 엄격한 가정을 합니다.

이는 관측치의 기본 분포에 관계없이 신뢰할 수 있습니다. 이러한 매력적인 장점으로 인해 다양한 유형의 실험 설계를 분석하기 위해 다양한 유형의 비모수적 테스트가 개발되었습니다. 이러한 설계에는 단일 표본 설계, 2-표본 설계 및 무작위 블록 설계가 포함됩니다. 현재 철도 시스템의 신뢰성 분석을 단순화하기 위해 주성분 분석을 사용하는 비모수적 베이지안 접근 방식이 사용됩니다.

철도 시스템은 수많은 구성요소를 포함하는 상호 연결된 하위 시스템을 갖춘 전형적인 대규모 복합 시스템입니다. 시스템 신뢰성은 적절한 유지보수 조치를 통해 유지되며, 비용 효과적인 자산 관리는 가장 낮은 수준에서 정확한 신뢰성 평가가 필요합니다. 그러나 철도 시스템의 구성요소 수준에서 실제 신뢰성 데이터는 완성은커녕 실제로 항상 이용 가능한 것은 아닙니다. 제조업체의 부품 수명 주기 분포는 실제 사용 및 운영 환경에 따라 숨겨져 있고 복잡해지는 경우가 많습니다. 따라서 신뢰성 분석에는 고장 데이터가 없는 구성 요소의 수명을 추정하기 위한 적절한 방법이 필요합니다.

사회 과학의 주성분 방법은 두 가지 주요 작업을 수행하는 데 사용됩니다.

  • 사회학적 연구 데이터를 기반으로 한 분석;
  • 사회 현상의 모델을 구축합니다.

모델 계산 알고리즘

주성분 분석 알고리즘은 모델 구조 및 해석에 대한 다양한 관점을 제공합니다. 이는 PCA가 다양한 분야에서 어떻게 사용되는지를 반영합니다. NIPALS 비선형 반복 부분 최소 제곱 알고리즘은 구성 요소를 계산하는 순차적 방법입니다. 사용자가 계산이 충분하다고 판단하면 계산이 조기에 종료될 수 있습니다. 대부분의 컴퓨터 패키지는 두 가지 주요 장점이 있기 때문에 NIPALS 알고리즘을 사용하는 경향이 있습니다.

  • 누락된 데이터를 처리합니다.
  • 구성 요소를 순차적으로 계산합니다.

이 알고리즘을 고려하는 목적은 다음과 같습니다.

  • 로드와 점수가 무엇을 의미하는지에 대한 추가적인 통찰력을 제공합니다.
  • 각 구성 요소가 다른 구성 요소에 직교적으로 의존하지 않는 방법을 보여줍니다.
  • 알고리즘이 누락된 데이터를 처리하는 방법을 보여줍니다.

알고리즘은 분산이 가장 큰 첫 번째 방향부터 시작하여 두 번째 방향으로 시작하여 각 구성 요소를 순차적으로 추출합니다. NIPALS는 한 번에 하나의 구성 요소를 계산합니다. 계산된 첫 번째는 t1t1과 동일하며 고유값 또는 특이값 분해에서 찾을 수 있는 벡터의 p1p1은 XX에서 누락된 데이터를 처리할 수 있습니다. 항상 수렴하지만 때로는 수렴이 느려질 수 있습니다. 또한 고유벡터와 고유값을 계산하기 위한 전력 알고리즘으로도 알려져 있으며 매우 큰 데이터 세트에 적합합니다. Google은 검색 엔진의 초기 버전에 이 알고리즘을 사용했습니다.

NIPALS 알고리즘은 아래 사진에 나와 있습니다.

그런 다음 행렬 T의 계수 추정값은 T=XW로 계산되고 부분적으로 X의 Y 제곱 B의 회귀 계수는 B = WQ로 계산됩니다. 부분 최소 제곱 회귀 부분에 대한 대안적인 추정 방법은 다음과 같이 설명될 수 있습니다.

주성분 분석은 데이터 세트에서 주요 분산 축을 식별하고 주요 데이터 변수를 쉽게 검사할 수 있는 도구입니다. 적절하게 적용하면 이 방법은 데이터 분석 도구 상자에서 가장 강력한 방법 중 하나입니다.

주성분법

주성분법(영어) 주성분 분석, PCA )는 데이터의 차원을 줄여 정보 손실을 최소화하는 주요 방법 중 하나입니다. K. 피어슨이 발명함 칼 피어슨 ) in g. 패턴 인식, 컴퓨터 비전, 데이터 압축 등 많은 분야에서 사용됩니다. 주성분 계산은 원본 데이터의 공분산 행렬의 고유 벡터 및 고유 값 계산으로 귀결됩니다. 때때로 주성분 방법이 호출됩니다. Karhunen-Loeve 변환(영어) 카르후넨-로브) 또는 호텔링 변환(eng. 호텔링 변환). 데이터의 차원을 줄이는 다른 방법으로는 독립 구성 요소 방법, 다차원 스케일링 및 수많은 비선형 일반화(주 곡선 및 다양체 방법, 탄성 맵 방법, 최상의 투영 검색(eng. 프로젝션 추구), 신경망 "병목 현상" 방법 등

문제에 대한 공식적인 설명

주성분 분석 문제에는 최소한 네 가지 기본 버전이 있습니다.

  • 낮은 차원의 선형 다양체에 의한 대략적인 데이터;
  • 데이터의 확산(즉, 평균값으로부터의 표준편차)이 최대인 직교 투영에서 더 낮은 차원의 부분공간을 찾습니다.
  • 점 사이의 평균 제곱근 거리가 최대인 직교 투영에서 더 낮은 차원의 부분 공간을 찾습니다.
  • 주어진 다차원 확률 변수에 대해 결과적으로 개별 좌표 간의 상관 관계가 0이 되도록 좌표의 직교 변환을 구성합니다.

처음 세 가지 버전은 유한한 데이터 세트로 작동합니다. 이는 동일하며 데이터의 통계적 생성에 대한 어떠한 가설도 사용하지 않습니다. 네 번째 버전은 무작위 변수로 작동합니다. 여기서 유한 집합은 주어진 분포의 표본으로 나타나며, 처음 세 가지 문제에 대한 해법은 "진정한" Karhunen-Loeve 변환에 대한 근사치로 나타납니다. 이는 이 근사치의 정확성에 대해 추가적인, 그리고 완전히 사소하지 않은 질문을 제기합니다.

선형 다양체에 의한 데이터 근사

K. Pearson(1901)의 유명한 작품에 대한 일러스트레이션: 평면에 주어진 점, - 직선에서 직선까지의 거리. 합을 최소화하는 직통라인을 찾고있습니다

주성분 방법은 선과 면에 의한 유한한 점 집합의 최적 근사 문제에서 시작되었습니다(K. Pearson, 1901). 유한한 벡터 집합이 제공됩니다. 의 모든 차원 선형 다양체 각각에 대해 제곱 편차의 합이 최소가 되도록 구합니다.

,

는 점에서 선형 다양체까지의 유클리드 거리입니다. 임의의 차원 선형 다양체는 매개변수가 실제 선을 따라 실행되는 선형 조합 세트로 정의될 수 있으며 직교 벡터 세트입니다.

,

여기서 유클리드 노름은 유클리드 스칼라 곱이거나 좌표 형식입니다.

.

의 근사 문제에 대한 해는 중첩된 선형 다양체 세트 , 에 의해 제공됩니다. 이러한 선형 다양체는 정규직교 벡터 집합(주성분 벡터)과 벡터로 정의됩니다. 벡터는 다음과 같은 최소화 문제에 대한 해결책으로 모색됩니다.

.

주성분의 벡터는 유사한 최적화 문제에 대한 해법으로 찾을 수 있습니다.

1) 데이터를 중앙 집중화합니다(평균을 뺍니다): . 지금 ; 2) 문제에 대한 해결책으로 첫 번째 주성분을 찾습니다. . 솔루션이 고유하지 않은 경우 그 중 하나를 선택하십시오. 3) 데이터에서 첫 번째 주성분에 대한 투영을 뺍니다. 4) 문제에 대한 해결책으로 두 번째 주성분을 찾으십시오. 솔루션이 고유하지 않은 경우 그 중 하나를 선택하십시오. … 2k-1) 번째 주성분에 대한 투영을 뺍니다(이전 주성분에 대한 투영은 이미 뺐다는 점을 기억하세요): ; 2k) 문제에 대한 해결책으로 k번째 주성분을 찾습니다. 솔루션이 고유하지 않은 경우 그 중 하나를 선택하십시오. ...

각 준비 단계에서 이전 주성분에 대한 투영을 뺍니다. 발견된 벡터는 단순히 설명한 최적화 문제를 해결한 결과 직교 정규화되지만, 계산 오류로 인해 주성분 벡터의 상호 직교성이 방해되는 것을 방지하기 위해 최적화 문제의 조건에 포함될 수 있습니다.

정의의 비고유성은 기호 선택의 사소한 자의성(동일한 문제 해결) 외에도 더 중요할 수 있으며 예를 들어 데이터 대칭 조건에서 발생할 수 있습니다. 마지막 주요 구성 요소- 이전의 모든 벡터와 직교하는 단위 벡터입니다.

산란이 가장 큰 직교 투영 찾기

첫 번째 주성분은 데이터 투영의 표본 분산을 최대화합니다.

중앙에 집중된 데이터 벡터 세트가 주어집니다(산술 평균은 0입니다). 임무는 다음 조건이 충족되는 새로운 좌표계에 대한 직교 변환을 찾는 것입니다.

특이값 분해 이론은 J. J. 실베스터(J. J. Sylvester)에 의해 창안되었습니다. 제임스 조셉 실베스터 ) 도시에 있으며 행렬 이론에 대한 모든 세부 매뉴얼에 제시되어 있습니다.

간단한 반복 특이값 분해 알고리즘

주요 절차는 최소 제곱법을 사용하여 형식의 행렬(여기서 -차원 벡터 및 -차원 벡터)을 사용하여 임의 행렬의 최상의 근사치를 검색하는 것입니다.

이 문제에 대한 해결책은 명시적 공식을 사용하여 연속적인 반복을 통해 제공됩니다. 고정 벡터의 경우 양식에 최소값을 제공하는 값은 등식에서 고유하고 명시적으로 결정됩니다.

마찬가지로 고정 벡터를 사용하면 값이 결정됩니다.

벡터의 초기 근사값으로 단위 길이의 임의 벡터를 가져와 벡터를 계산한 다음 이 벡터에 대해 벡터를 계산하는 등의 작업을 수행합니다. 각 단계에서 값이 감소합니다. 중지 기준은 반복 단계당 최소화된 함수 값의 상대적 감소 크기() 또는 값 자체의 크기입니다.

결과적으로 우리는 다음 형식의 행렬을 사용하여 행렬에 대한 최상의 근사치를 얻었습니다(여기서 위 첨자는 근사치 숫자를 나타냄). 다음으로, 행렬에서 결과 행렬을 빼고 결과 편차 행렬에 대해 예를 들어 노름이 충분히 작아질 때까지 동일한 유형 등의 최상의 근사치를 다시 찾습니다. 그 결과, 랭크 1의 행렬의 합, 즉 의 형태로 행렬을 분해하는 반복적인 과정을 얻었다. 벡터를 가정하고 정규화합니다. 결과적으로 특이수와 특이 벡터(오른쪽 및 왼쪽)의 근사치가 얻어집니다.

이 알고리즘의 장점은 탁월한 단순성과 공백이 있는 데이터 및 가중치 데이터를 거의 변경하지 않고 전송할 수 있는 능력을 포함합니다.

정확성과 견고성을 향상시키기 위해 기본 알고리즘에 다양한 수정 사항이 있습니다. 예를 들어, 서로 다른 주요 구성 요소의 벡터는 "구성에 따라" 직교해야 하지만, 반복 횟수가 많아지면(차원이 크고 구성 요소가 많음) 직교성에서 작은 편차가 누적되어 각각에서 특별한 수정이 필요할 수 있습니다. 단계를 거쳐 이전에 발견된 주성분과의 직교성을 보장합니다.

텐서의 특이 분해 및 주성분의 텐서 방법

종종 데이터 벡터는 직사각형 테이블(예: 평면 이미지) 또는 다차원 테이블(즉, 텐서)의 추가 구조를 갖습니다. 이 경우 특이값 분해를 이용하는 것도 효과적이다. 정의, 기본 공식 및 알고리즘은 실질적으로 변경 없이 전송됩니다. 데이터 매트릭스 대신 인덱스 값이 있습니다. 여기서 첫 번째 인덱스는 데이터 포인트(텐서)의 수입니다.

주요 절차는 최소 제곱법을 사용하여 다음 형식의 텐서(여기서 는 -차원 벡터( 는 데이터 포인트 수), 는 의 차원 벡터)로 최적의 텐서 근사치를 검색하는 것입니다.

이 문제에 대한 해결책은 명시적 공식을 사용하여 연속적인 반복을 통해 제공됩니다. 하나를 제외한 모든 요인 벡터가 주어지면 나머지 벡터는 최소값에 대한 충분 조건에서 명시적으로 결정됩니다.

벡터()의 초기 근사값으로 단위 길이의 임의 벡터를 가져와 벡터를 계산한 다음 이 벡터와 이러한 벡터에 대해 벡터 등을 계산합니다. (인덱스를 주기적으로 반복) 각 단계에서는 의 값이 감소합니다. 알고리즘은 분명히 수렴합니다. 중지 기준은 사이클당 최소화된 기능 값의 상대적 감소 크기 또는 값 자체의 크기입니다. 다음으로, 결과 근사치를 텐서에서 빼고 나머지에 대해 동일한 유형의 최상의 근사치를 다시 찾습니다. 예를 들어 다음 나머지의 노름이 충분히 작아질 때까지입니다.

이 다중 성분 특이값 분해(텐서 주성분 방법)는 이미지, 비디오 신호, 더 광범위하게는 표 또는 텐서 구조를 가진 모든 데이터를 처리하는 데 성공적으로 사용됩니다.

주성분으로의 변환 행렬

주성분에 대한 데이터 변환 행렬은 고유값의 내림차순으로 정렬된 주성분의 벡터로 구성됩니다.

(조옮김을 의미),

즉, 행렬은 직교합니다.

대부분의 데이터 변형은 첫 번째 좌표에 집중되므로 더 낮은 차원 공간으로 이동할 수 있습니다.

잔차 분산

데이터를 중앙에 두십시오. 데이터 벡터를 첫 번째 주성분에 대한 투영으로 대체할 때 하나의 데이터 벡터마다 평균 제곱 오류가 도입됩니다.

경험적 공분산 행렬의 고유값은 어디에 다중성을 고려하여 내림차순으로 정렬되어 있습니까?

이 수량을 잔차 분산. 크기

~라고 불리는 설명된 분산. 그 합은 표본 분산과 같습니다. 해당 제곱 상대 오차는 표본 분산에 대한 잔차 분산의 비율입니다(즉, 설명되지 않는 분산의 비율):

상대 오차는 첫 번째 구성 요소에 대한 투영을 통해 주 구성 요소 방법의 적용 가능성을 평가합니다.

논평: 대부분의 계산 알고리즘에서 해당 고유 벡터(주성분)가 있는 고유값은 가장 큰 것부터 작은 것 순으로 계산됩니다. 이를 계산하려면 첫 번째 고유값과 경험적 공분산 행렬(대각선 요소의 합, 즉 축을 따른 분산)의 추적을 계산하면 충분합니다. 그 다음에

카이저의 법칙에 따른 주성분 선택

설명된 분산의 필요한 비율을 기반으로 주성분 수를 추정하는 목표 접근 방식은 항상 공식적으로 적용 가능하지만 "신호"와 "잡음"이 분리되지 않고 미리 결정된 정확도가 의미가 있다고 암시적으로 가정합니다. 따라서 "신호"(상대적으로 작은 차원, 상대적으로 큰 진폭) 및 "잡음"(큰 차원, 상대적으로 작은 진폭)의 존재에 대한 가설을 기반으로 하는 또 다른 휴리스틱이 더 생산적인 경우가 많습니다. 이러한 관점에서 볼 때 주성분 방법은 필터처럼 작동합니다. 즉, 신호는 주로 첫 번째 주성분에 대한 투영에 포함되며 나머지 성분의 노이즈 비율은 훨씬 높습니다.

질문: 신호 대 잡음 비율을 미리 알 수 없는 경우 필요한 주성분 수를 어떻게 추정합니까?

주성분을 선택하는 가장 간단하고 오래된 방법은 다음과 같습니다. 카이저 룰(영어) 카이저의 법칙): 주요 구성요소는 다음 중 중요합니다.

즉, 평균(데이터 벡터 좌표의 평균 샘플 분산)을 초과합니다. 카이저의 규칙은 평균보다 훨씬 큰 를 갖는 여러 주성분이 있고 나머지 고유값이 이보다 작은 간단한 경우에 잘 작동합니다. 더 복잡한 경우에는 중요한 주성분이 너무 많이 생성될 수 있습니다. 데이터가 축을 따라 단위 표본 분산으로 정규화되면 Kaiser의 규칙은 특히 간단한 형식을 취합니다.

깨진 지팡이 규칙을 사용하여 주성분 수 추정

예: 차원 5에서 부러진 지팡이 규칙을 사용하여 주성분 수 추정.

필요한 주성분 수를 추정하는 가장 널리 사용되는 경험적 접근 방식 중 하나는 다음과 같습니다. 부러진 지팡이 규칙(영어) 부러진 스틱 모델) . 단위 합계(, )로 정규화된 고유값 세트는 무작위로 선택된 7번째 지점에서 끊어진 단위 길이의 지팡이의 조각 길이 분포와 비교됩니다(중단점은 독립적으로 선택되고 길이를 따라 균등하게 분포됩니다). 지팡이). ()를 결과 지팡이 조각의 길이로 두고, 길이의 내림차순으로 번호를 매깁니다. 수학적 기대값을 찾는 것은 어렵지 않습니다.

부러진 지팡이 규칙에 따라, 다음과 같은 경우 고유값의 내림차순으로 고유벡터가 주성분 목록에 저장됩니다.

그림에서. 5차원 사례에 대한 예가 제공됩니다.

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

예를 들어, 선택된

=0.5; =0.3; =0.1; =0.06; =0.04.

부러진 지팡이 규칙에 따르면 이 예에서는 두 가지 주요 구성 요소를 남겨 두어야 합니다.

사용자 평가에 따르면 부러진 지팡이 규칙은 중요한 주성분의 수를 과소평가하는 경향이 있습니다.

표준화

주성분으로 축소한 후 정규화

후에첫 번째 주성분에 대한 투영은 축을 따라 단위(샘플) 분산으로 정규화하는 것이 편리합니다. 번째 주성분에 따른 분산은 )과 같으므로 정규화하려면 해당 좌표를 로 나누어야 합니다. 이 변환은 직교하지 않으며 내적을 보존하지 않습니다. 정규화 후 데이터 투영의 공분산 행렬은 단위가 되고, 임의의 두 직교 방향에 대한 투영은 독립적인 양이 되며, 정규 직교 기저가 주성분의 기초가 됩니다(정규화는 벡터의 직교 관계를 변경한다는 점을 기억하세요). 소스 데이터 공간에서 첫 번째 주성분으로의 매핑은 정규화와 함께 다음 행렬로 지정됩니다.

.

Karhunen-Loeve 변환이라고 가장 자주 불리는 것은 바로 이 변환입니다. 여기에 열 벡터가 있으며 위 첨자는 전치를 의미합니다.

주성분 계산 전 정규화

경고: 주성분으로 변환한 후 수행되는 정규화를 정규화 및 "비차원화"와 혼동해서는 안 됩니다. 데이터 전처리, 주성분을 계산하기 전에 수행됩니다. 데이터의 최상의 근사치를 계산하거나 가장 큰 분산 방향을 찾는(동등한) 메트릭을 합리적으로 선택하려면 예비 정규화가 필요합니다. 예를 들어, 데이터가 "미터, 리터, 킬로그램"의 3차원 벡터이고 표준 유클리드 거리를 사용하는 경우 첫 번째 좌표의 1미터 차이는 두 번째 좌표의 1리터 차이와 동일하게 기여합니다. 세 번째에는 1kg입니다. 일반적으로 원본 데이터가 표시되는 단위 시스템은 축을 따른 자연 스케일에 대한 우리의 아이디어를 정확하게 반영하지 않으며 "무차원"이 수행됩니다. 각 좌표는 데이터, 목적에 의해 결정되는 특정 스케일로 나뉩니다. 처리 및 측정 및 데이터 수집 프로세스.

이러한 정규화에는 세 가지 크게 다른 표준 접근 방식이 있습니다. 단위 차이축을 따라 (축을 따라 스케일은 평균 제곱 편차와 같습니다. 이 변환 후 공분산 행렬은 상관 계수 행렬과 일치합니다) 동일한 측정 정확도(축을 따른 스케일은 주어진 값의 측정 정확도에 비례합니다) 동등한 요구문제에서 (축을 따른 스케일은 주어진 값의 예측에 필요한 정확도 또는 허용 가능한 왜곡-공차 수준에 의해 결정됩니다). 전처리 선택은 문제의 의미 있는 공식화와 데이터 수집 조건의 영향을 받습니다. 예를 들어 데이터 수집이 근본적으로 불완전하고 데이터가 여전히 수신될 경우 엄격하게 단위로 정규화를 선택하는 것은 비합리적입니다 분산, 이것이 문제의 의미에 해당하더라도 새로운 부분을 받은 후 모든 데이터를 다시 정규화하는 것이므로 표준 편차를 대략적으로 추정하는 특정 척도를 선택한 다음 변경하지 않는 것이 더 합리적입니다.

축을 따른 단위 분산에 대한 사전 정규화는 축이 주성분이 아닌 경우 좌표계 회전에 의해 파괴되며, 데이터 전처리 중 정규화가 주성분 정규화 후 정규화를 대체하지 않습니다.

가중치 데이터에 대한 기계적 유추 및 주성분 분석

각 데이터 벡터에 단위 질량을 할당하면 경험적 공분산 행렬은 이 점 질량 시스템의 관성 텐서(전체 질량으로 나눈 값)와 일치하고, 주성분의 문제는 관성 텐서를 다음으로 줄이는 문제와 일치합니다. 주요 축. 데이터 포인트의 중요성이나 해당 값의 신뢰성을 고려하여 질량 값을 추가로 자유롭게 선택할 수 있습니다(중요한 데이터 또는 더 신뢰할 수 있는 소스의 데이터에는 더 큰 질량이 할당됨). 만약에 데이터 벡터에 질량이 주어지고,그러면 경험적 공분산 행렬 대신에 우리는 다음을 얻습니다.

주성분으로의 축소를 위한 모든 추가 작업은 메서드의 기본 버전과 동일한 방식으로 수행됩니다. 직교 고유기저를 찾고 고유값의 내림차순으로 정렬하고 데이터 근사의 가중 평균 오류를 첫 번째로 추정합니다. 구성요소(고유값의 합을 기반으로 함), 정규화 등.

보다 일반적인 계량 방법은 다음과 같습니다. 쌍별 거리의 가중 합을 최대화투영 사이. 두 개의 데이터 포인트마다 가중치가 입력됩니다. 그리고 . 경험적 공분산 행렬 대신에 우리는

대칭 행렬이 양의 정부호일 때, 이차 형식은 양수이므로:

다음으로 정규직교 고유기초를 찾고 고유값의 내림차순으로 정렬하고 첫 번째 구성 요소에 의한 데이터 근사의 가중 평균 오류를 추정합니다. 이는 기본 알고리즘과 정확히 동일합니다.

이 방법이 사용됩니다 수업이 있으면: 다른 클래스의 경우 동일한 클래스의 포인트보다 더 큰 가중치가 선택됩니다. 결과적으로 가중치가 부여된 주성분에 대한 투영에서 서로 다른 클래스가 더 먼 거리로 "이동"합니다.

다른 용도 - 큰 편차의 영향 감소(외층, 영어) 국외자 ), 이는 제곱 평균 거리의 사용으로 인해 그림을 왜곡할 수 있습니다. 을 선택하면 큰 편차의 영향이 줄어듭니다. 따라서 설명된 주성분 방법의 수정은 기존 방법보다 더 강력합니다.

특수 용어

통계에서는 주성분법을 사용할 때 몇 가지 특수항을 사용한다.

데이터 매트릭스; 각 줄은 벡터입니다 전처리된데이터( 중심그리고 맞아 표준화된), 행 수 - (데이터 벡터 수), 열 수 - (데이터 공간의 차원);

행렬 로드(하중) ; 각 열은 주성분의 벡터이고, 행 수는 (데이터 공간의 차원)이고, 열 수는 (투영을 위해 선택한 주성분의 벡터 수)입니다.

계정 매트릭스(점수); 각 라인은 주성분에 대한 데이터 벡터의 투영입니다. 행 수 - (데이터 벡터 수), 열 수 - (투영을 위해 선택한 주성분 벡터 수)

Z-점수 행렬(Z-점수); 각 라인은 단위 표본 분산으로 정규화된 주성분에 대한 데이터 벡터의 투영입니다. 행 수 - (데이터 벡터 수), 열 수 - (투영을 위해 선택한 주성분 벡터 수)

오류 매트릭스(또는 나머지) (오차 또는 잔차) .

기본 공식:

적용 가능성의 한계 및 방법 효과의 한계

주성분 방법은 항상 적용 가능합니다. 정규 분포 데이터(또는 정규 분포에 가까운 분포)에만 적용된다는 일반적인 주장은 잘못된 것입니다. K. Pearson의 원래 공식에서는 문제가 설정되었습니다. 근사치유한한 데이터 세트이며 분포는 말할 것도 없고 통계 생성에 대한 가설조차 없습니다.

그러나 이 방법은 정확도 제약 조건을 고려할 때 차원을 줄이는 데 항상 효과적인 것은 아닙니다. 직선과 평면이 항상 좋은 근사치를 제공하는 것은 아닙니다. 예를 들어, 데이터는 정확도가 좋은 곡선을 따라갈 수 있지만 이 곡선을 데이터 공간에서 찾기 어려울 수 있습니다. 이 경우 허용 가능한 정확도를 위한 주성분 방법에는 (하나가 아닌) 여러 구성 요소가 필요하거나 허용 가능한 정확도로 차원을 전혀 줄이지 않습니다. 이러한 "곡선형" 주성분을 처리하기 위해 주 다양체 방법과 다양한 버전의 비선형 주성분 방법이 발명되었습니다. 복잡한 토폴로지 데이터로 인해 더 많은 문제가 발생할 수 있습니다. 이를 근사화하기 위해 자체 구성 코호넨 맵, 신경 가스 또는 위상 문법과 같은 다양한 방법도 발명되었습니다. 데이터가 정규와 매우 다른 분포로 통계적으로 생성된 경우 분포를 근사화하려면 주성분에서 다음으로 이동하는 것이 유용합니다. 독립 구성요소, 이는 원래 스칼라 곱에서 더 이상 직교하지 않습니다. 마지막으로 등방성 분포(정상 분포라도)의 경우 산란 타원체 대신 공을 얻으며 근사 방법으로 치수를 줄이는 것은 불가능합니다.

사용 예

데이터 시각화

데이터 시각화는 실험 데이터나 이론적 연구 결과를 시각적으로 표현한 것입니다.

데이터 세트를 시각화하는 첫 번째 선택은 처음 두 개의 주성분(또는 처음 세 개의 주성분의 3차원 공간)을 평면에 직교 투영하는 것입니다. 디자인 평면은 본질적으로 왜곡이 가장 적은 데이터의 "그림"을 제공하는 방식으로 배치된 평평한 2차원 "스크린"입니다. 이러한 투영은 세 가지 측면에서 최적입니다(다른 2차원 화면의 모든 직교 투영 중에서).

  1. 데이터 포인트에서 첫 번째 주요 구성 요소의 평면에 대한 투영까지의 거리 제곱의 합은 최소입니다. 즉, 화면은 포인트 클라우드에 최대한 가깝게 위치합니다.
  2. 점을 평면에 투영한 후 데이터 클라우드의 모든 점 쌍 사이의 거리 제곱의 왜곡 합계는 최소화됩니다.
  3. 모든 데이터 포인트와 해당 "무게 중심" 간의 거리 제곱의 왜곡 합계는 최소화됩니다.

데이터 시각화는 주성분 분석 및 비선형 일반화에 가장 널리 사용되는 응용 프로그램 중 하나입니다.

이미지 및 비디오 압축

이미지와 비디오를 인코딩할 때 픽셀의 공간적 중복성을 줄이기 위해 픽셀 블록의 선형 변환이 사용됩니다. 획득된 계수의 후속 양자화 및 무손실 코딩을 통해 상당한 압축 비율을 얻을 수 있습니다. PCA 변환을 선형 변환으로 사용하는 것은 일부 데이터 유형의 경우 동일한 왜곡을 유지하면서 결과 데이터의 크기 측면에서 최적입니다. 현재 이 방법은 높은 계산 복잡성으로 인해 활발히 사용되지 않습니다. 마지막 변환 계수를 삭제하여 데이터 압축을 수행할 수도 있습니다.

이미지의 노이즈 줄이기

계량화학

주성분법은 화학계량학의 주요 방법 중 하나입니다. 계량화학 ). 소스 데이터 행렬 X를 "의미 있는" 부분과 "노이즈"의 두 부분으로 나눌 수 있습니다. 가장 대중적인 정의에 따르면, “화학계량학(Chemometrics)은 최적의 측정 방법과 실험 설계를 구성 또는 선택하고 실험 분석에서 가장 중요한 정보를 추출하기 위해 공식 논리를 기반으로 수학적, 통계적 및 기타 방법을 적용하는 화학 분야입니다. 데이터."

정신진단

  1. 데이터 분석(수치 데이터 배열 형태로 제시된 설문 조사 또는 기타 연구 결과 설명)
  2. 사회 현상에 대한 설명(수학적 모델을 포함한 현상 모델 구축)

정치학에서 주요 구성 요소 방법은 특별히 개발된 5가지 통합 지표(생활 수준, 국제 영향력, 위협)에 따라 세계 192개국의 등급을 선형 및 비선형 분석하기 위한 "현대의 정치 지도책" 프로젝트의 주요 도구였습니다. , 국가 및 민주주의). 이 분석 결과를 매핑하기 위해 지리 공간과 특징 공간을 결합한 특수 GIS(지리 정보 시스템)가 개발되었습니다. 정치 지도 자료 지도도 국가의 5차원 공간에 있는 2차원의 주요 다양체를 베이스로 하여 제작되었습니다. 데이터 지도와 지리 지도의 차이점은 지리 지도에는 유사한 지리적 좌표를 가진 객체가 근처에 있는 반면, 데이터 지도에는 유사한 특성(지수)을 가진 객체(국가)가 근처에 있다는 것입니다.

분석의 출발점은 데이터 매트릭스이다

치수
, i번째 행은 모든 k 지표에 대한 i번째 관찰(객체)을 나타냅니다.
. 소스 데이터는 정규화되어 지표의 평균값이 계산됩니다.
, 표준 편차 값
. 그런 다음 정규화된 값의 행렬

요소가 있는

쌍 상관 계수의 행렬은 다음과 같이 계산됩니다.

단위 요소는 행렬의 주대각선에 위치합니다.
.

구성 요소 분석 모델은 원래 정규화된 데이터를 주 구성 요소의 선형 조합으로 표현하여 구성됩니다.

어디 - "무게", 즉 인자 로딩 번째 주요 구성 요소 -번째 변수;

-의미 번째 주요 구성 요소 -관찰(객체), 여기서
.

행렬 형식에서 모델은 다음 형식을 갖습니다.

여기
- 차원의 주요 구성요소 매트릭스
,

- 동일한 차원의 요인 로딩 행렬.

행렬
설명하다 우주에서의 관측 주요 구성 요소. 이 경우 행렬 요소는
정규화되었으며 주성분은 서로 상관되지 않습니다. 그것은 다음과 같습니다
, 어디 – 차원의 단위 행렬
.

요소 행렬 원래 변수 사이의 선형 관계의 근접성을 특성화합니다. 그리고 주요 구성품 따라서 다음 값을 취합니다.
.

상관 행렬 인자 로딩 행렬을 통해 표현될 수 있습니다. .

단위는 상관 행렬의 주 대각선을 따라 위치하며 공분산 행렬과 유사하게 사용된 분산을 나타냅니다. -특징이지만 후자와 달리 정규화로 인해 이러한 분산은 1과 같습니다. 전체 시스템의 총 분산 -샘플 볼륨의 기능
이 단위의 합과 같습니다. 즉 상관 행렬의 추적과 같습니다.
.

상관 행렬은 대각 행렬, 즉 대각 행렬을 제외한 모든 값이 0인 행렬로 변환될 수 있습니다.

,

어디
- 고유값이 있는 주대각선의 대각행렬 상관 행렬, - 열이 상관 행렬의 고유 벡터인 행렬 . 행렬 R은 양의 정부호이므로, 즉 주요 마이너는 양수이고 모든 고유값은
어떠한 것도
.

고유값 특성 방정식의 근으로 발견됩니다.

고유벡터 , 고유값에 해당 상관 행렬 는 방정식에 대한 0이 아닌 해로 정의됩니다.

정규화된 고유벡터 같음

비대각선 항이 사라진다는 것은 특징이 서로 독립적이 된다는 것을 의미합니다(
~에
).

전체 시스템의 총 분산 표본 모집단의 변수는 동일하게 유지됩니다. 그러나 그 값은 재분배됩니다. 이러한 분산의 값을 찾는 절차는 고유값을 찾는 것입니다. 각각에 대한 상관 행렬 -표지판. 이들 고유값의 합
상관 행렬의 추적과 같습니다. 즉
즉, 변수의 개수입니다. 이러한 고유값은 특징의 분산 값입니다.
징후가 서로 독립적인 조건에서.

주성분법에서는 원본 데이터로부터 먼저 상관행렬을 계산한다. 그런 다음 직교 변환되고 이를 통해 요인 로딩이 발견됩니다. 모든 변수와
요인(인자 적재 행렬), 고유값 그리고 요인의 가중치를 결정합니다.

요인 로딩 행렬 A는 다음과 같이 정의될 수 있습니다.
, ㅏ 행렬 A의 열 번째 열 - 다음과 같이
.

요인의 가중치
또는
이 요인에 의해 기여된 전체 분산의 비율을 반영합니다.

요인 로딩은 –1에서 +1까지 다양하며 상관 계수와 유사합니다. 요인 로딩 행렬에서는 스튜던트 t 테스트를 사용하여 유의미한 로딩과 중요하지 않은 로딩을 식별해야 합니다.
.

제곱 하중의 합 -전체의 번째 요소 -특징은 주어진 요인의 고유값과 같습니다.
. 그 다음에
-j번째 요인 형성에 있어서 i번째 변수의 기여도(%).

행에 대한 모든 요인 로딩의 제곱의 합은 1과 같고, 한 변수의 전체 분산과 모든 변수에 대한 모든 요인의 전체 분산은 전체 분산과 같습니다(즉, 상관 행렬의 추적 또는 차수 또는 고유값의 합)
.

일반적으로 i번째 속성의 요인 구조는 다음과 같은 형태로 표현됩니다.
, 이는 상당한 부하만 포함합니다. 요인 적재 행렬을 사용하면 다음 공식을 사용하여 원래 표본 모집단의 각 관측치에 대한 모든 요인의 값을 계산할 수 있습니다.

,

어디 – t번째 관측값에 대한 j번째 인자의 값, -원래 샘플의 t번째 관찰의 i번째 특징의 표준화된 값; – 인자 부하, – 요인 j에 해당하는 고유값. 이 계산된 값 요인분석 결과를 그래픽으로 나타내기 위해 널리 사용된다.

인자 로딩 행렬을 사용하여 상관 행렬을 재구성할 수 있습니다.
.

주성분에 의해 설명되는 변수의 분산 부분을 공통성이라고 합니다.

,

어디 - 변수 번호 및 - 주요 구성 요소의 번호. 주성분으로부터만 복원된 상관계수는 절대값이 원래의 상관계수보다 작으며 대각선에서는 1이 아닌 일반성의 값이 됩니다.

구체적인 기여 - 주성분은 공식에 의해 결정됩니다

.

회계의 총 기여
주요 구성 요소는 다음 식으로 결정됩니다.

.

일반적으로 분석에 사용됨
첫 번째 주요 구성 요소는 전체 분산에 대한 기여도가 60-70%를 초과합니다.

요인 로딩 행렬 A는 일반적으로 0.5보다 큰 값을 고려하여 주성분을 해석하는 데 사용됩니다.

주성분의 값은 행렬로 지정됩니다

주성분 방법 적용

다차원 통계 데이터 처리를 위해

주성분 기법을 적용한 학생 평점의 다차원 통계자료 처리에 관한 문제를 고찰한다.

핵심 단어: 다변량 데이터 분석, 차원 축소, 주성분 방법, 평가.

실제로 우리는 연구 대상이 다양한 매개변수로 특징지어지고 각 매개변수가 측정되거나 평가되는 상황에 자주 직면합니다. 동일한 유형의 여러 개체를 연구한 결과 얻은 초기 데이터 배열에 대한 분석은 현실적으로 해결 불가능한 문제입니다. 따라서 연구자는 초기 매개변수 사이의 연결과 상호의존성을 분석하여 초기 매개변수 중 일부를 삭제하거나 더 적은 수의 기능으로 대체하고 가능하면 매개변수에 포함된 모든 정보를 보존해야 합니다.

이와 관련하여 작업은 차원 축소로 발생합니다. 즉, 원본 데이터 배열에서 원본 데이터 배열 중에서 선택되거나 일부 변환을 통해 얻은 상당히 적은 수의 표시기로 전환합니다(원본에 포함된 정보의 손실이 가장 적음). 배열) 및 분류 - 고려된 객체 컬렉션을 동종(어떤 의미에서는) 그룹으로 분리합니다. 다수의 다양한 유형과 확률적으로 상호 연관된 지표에 대해 전체 개체 집합에 대한 통계 조사 결과를 얻은 경우 분류 및 차원 축소 문제를 해결하려면 다변량 통계 분석 도구, 특히 다음을 사용해야 합니다. 주성분 방법.


이 논문에서는 다변량 통계 데이터를 처리하기 위해 주성분 방법을 사용하는 방법론을 제안합니다. 예를 들어, 학생 평가 평가의 다차원 결과를 통계적으로 처리하는 문제에 대한 해결책이 제공됩니다.

1. 주성분 결정 및 계산..png" height="22 src="> 특징. 결과적으로 우리는 벡터 관측으로 표현될 수 있는 다차원 관측을 얻습니다.

여기서 https://pandia.ru/text/79/206/images/image005.png" height="22 src=">.png" height="22 src=">는 전치 연산의 기호입니다.

다차원 관측 결과는 통계 처리를 거쳐야 합니다..png" height="22 src=">.png" height="22 src=">.png" width="132" height="25 src=">. png" width ="33" height="22 src="> 연구된 특징의 허용 가능한 변형 0 " style="border-collapse:collapse">

– 정규화 조건;

– 직교성 조건

이러한 변환을 통해 얻은 https://pandia.ru/text/79/206/images/image018.png" width="79" height="23 src="> 주요 구성 요소를 나타냅니다. 이로부터 추가 분석 , 최소 분산을 갖는 변수는 제외됩니다. 즉, 이 행렬의 변환 (2)..png" width="13" height="22 src=">에서 png" width="131" height="22 src="> 주성분의 분산과 같습니다.

따라서 첫 번째 주요 구성 요소인 https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src=">는 이러한 지표의 정규화된 중심 선형 조합입니다. , 다른 모든 유사한 조합 중에서 가장 큰 차이를 가집니다..png" width="12" height="22 src="> 행렬 고유 벡터 https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">.png" width="80" height="23 src= " >는 https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src=">와 상관관계가 없는 이러한 지표의 정규화된 중심 선형 조합입니다. png" width="80" height="23 src=">는 다양한 단위로 측정되며, 주요 구성 요소 연구의 결과는 척도 선택과 측정 단위의 특성 및 결과적인 선형 조합에 따라 크게 달라집니다. 원래 변수 중 하나를 해석하기 어려울 것입니다. 이와 관련하여 원래 특성 DIV_ADBLOCK310">의 다양한 측정 단위를 사용합니다.


https://pandia.ru/text/79/206/images/image030.png" width="17" height="22 src=">.png" width="56" height="23 src=">. 이러한 변환 후 https://pandia.ru/text/79/206/images/image033.png" width="17" height="22 src= 값에 대한 주요 구성 요소 분석이 수행됩니다. "> , 이는 또한 상관 행렬이기도 합니다 https://pandia.ru/text/79/206/images/image035.png" width="162" height="22 src=">.png" width="13" height=" 22 src="> ~로 - 번째 원래 기능 ..png" width="14" height="22 src=">.png" width="10" height="22 src=">는 분산과 같습니다. V- 주요 구성 요소 https://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src=">는 주요 구성 요소의 의미 있는 해석을 위해 사용됩니다..png" width ="20" height="22 src=">.png" width="251" height="25 src=">

계산을 수행하기 위해 벡터 관찰을 샘플 매트릭스로 집계합니다. 여기서 행은 제어된 특성에 해당하고 열은 연구 대상에 해당합니다(매트릭스 차원 - https://pandia.ru/text/79/206). /images/image043.png" width="348 " height="67 src=">

소스 데이터를 중앙에 배치한 후 다음 공식을 사용하여 샘플 상관 행렬을 찾습니다.

https://pandia.ru/text/79/206/images/image045.png" width="204" height="69 src=">

대각선 행렬 요소 https://pandia.ru/text/79/206/images/image047.png" width="206" height="68 src=">

이 행렬의 비대각선 요소는 해당 특징 쌍 사이의 상관 계수에 대한 샘플 추정치를 나타냅니다.

행렬 0 " style="margin-left:5.4pt;border-collapse:collapse">에 대한 특성 방정식을 구성합니다.

우리는 그 뿌리를 모두 찾습니다.

이제 주요 벡터의 구성 요소를 찾기 위해 순차적인 숫자 값을 대체합니다. https://pandia.ru/text/79/206/images/image065.png" width="16" height="22 src=" >.png" width="102" " height="24 src=">

예를 들어 https://pandia.ru/text/79/206/images/image069.png" width="262" height="70 src=">

결과적인 방정식 시스템은 균질성으로 인해 일관성이 있고 불확실합니다. 즉, 무한한 수의 해를 갖는다는 것은 명백합니다. 우리가 관심 있는 유일한 솔루션을 찾기 위해 다음 조항을 사용할 것입니다.

1. 시스템의 뿌리에 대해 관계는 다음과 같이 작성될 수 있습니다.

https://pandia.ru/text/79/206/images/image071.png" width="20" height="23 src="> – 대수적 추가 제이임의의 번째 요소 시스템 매트릭스의 번째 행.

2. 정규화 조건(2)의 존재는 고려 중인 방정식 시스템에 대한 해의 고유성을 보장합니다..png" width="13" height="22 src=">는 다음을 제외하고 고유하게 결정됩니다. 부호는 동시에 변경될 수 있지만, 고유벡터 성분의 부호는 그 변화가 분석 결과에 영향을 미치지 않으므로 큰 역할을 하지 않으며 해당 주성분의 반대 추세를 나타내는 역할만 할 수 있습니다.

따라서 우리는 자체 벡터 https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">를 얻습니다.

https://pandia.ru/text/79/206/images/image024.png" width="12" height="22 src="> 평등 확인

https://pandia.ru/text/79/206/images/image076.png" width="503" height="22">

… … … … … … … … …

https://pandia.ru/text/79/206/images/image078.png" width="595" height="22 src=">

https://pandia.ru/text/79/206/images/image080.png" width="589" height="22 src=">

여기서 https://pandia.ru/text/79/206/images/image082.png" width="16" height="22 src=">.png" width="23" height="22 src="> – 해당 초기 특성의 표준화된 값.

직교 선형 변환 행렬 컴파일 https://pandia.ru/text/79/206/images/image086.png" width="94" height="22 src=">

주성분의 속성에 따라 원래 특성의 분산의 합은 모든 주성분의 분산의 합과 같으므로 정규화된 초기 특성을 고려했다는 사실을 고려하면 원래 특성의 전체 가변성 중 각 주요 구성 요소가 설명하는 부분을 추정할 수 있습니다. 예를 들어, 처음 두 개의 주요 구성요소에 대해 다음이 있습니다.

따라서 상관 행렬에서 찾은 주성분에 사용된 정보 내용 기준에 따라 처음 7개 주성분은 15개 원래 특징의 전체 가변성의 88.97%를 설명합니다.

선형 변환 행렬 https://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> 사용(처음 7개 주성분의 경우):

https://pandia.ru/text/79/206/images/image090.png" width="16" height="22 src="> - 과학 및 졸업 작품 경쟁에서 받은 졸업장 수, https: //pandia .ru/text/79/206/images/image092.png" width="16" height="22 src=">.png" width="22" height="22 src=">.png" width=" 22" height="22 src=">.png" width="22" height="22 src="> – 지역, 지역 및 도시 스포츠 대회에서 수상한 상 및 상품입니다.

3..png" width="16" height="22 src=">(과학 및 과학 활동 참여 결과에 따른 인증서 수 논문).

4..png" width="22" height="22 src=">(대학 대회에서 수상한 상 및 상).

6. 여섯 번째 주성분은 DIV_ADBLOCK311"> 표시기와 양의 상관관계가 있습니다.

4. 세 번째 주요 구성 요소는 교육 과정에서 학생들의 활동입니다.

5. 네 번째와 여섯 번째 요소는 각각 봄학기와 가을학기 학생들의 근면성이다.

6. 다섯 번째 주요 구성요소는 대학 스포츠 대회 참여 정도이다.

앞으로는 주요 구성요소를 식별할 때 필요한 모든 계산을 수행하기 위해 STATISTICA와 같은 전문 통계 소프트웨어 패키지를 사용하는 것이 제안됩니다. 이는 분석 프로세스를 크게 촉진할 것입니다.

본 논문에서 설명하는 주요 구성요소를 학생 평가의 예를 통해 식별하는 과정은 학사 및 석사 인증에 활용될 수 있도록 제안된다.

서지

1. 응용통계: 분류 및 차원축소: 참고서. 에드. / , ; 편집자 . – M.: 금융 및 통계, 1989. – 607 p.

2. 응용통계 핸드북: 2권으로 구성: [trans. 영어에서] / ed. E. 로이드, W. Lederman, . – M.: 금융 및 통계, 1990. – T. 2. – 526 p.

3. 응용통계. 계량 경제학의 기초. 2권으로 구성되어 있습니다.T.1. 확률 이론 및 응용 통계: 교과서. 대학의 경우 / , B. S. Mkhitaryan. – 2판, 개정 – M: UNITY-DANA, 2001. – 656 p.

4. Afifi, A. 통계 분석: 컴퓨터를 사용한 접근 방식: [trans. 영어에서] / A. Afifi, S. Eisen. – M.: Mir, 1982. – 488 p.

5. Dronov, 통계 분석: 교과서. 용돈 / . – 바나3. – 213쪽.

6. Anderson, T. 다변량 통계 분석 소개 / T. Anderson; 레인 영어로부터 [등등]; 편집자 . – M.: 주. 물리학과 수학 출판사. lit., 1963. – 500p.

7. Lawley, D. 통계적 방법으로서의 요인 분석 / D. Lawley, A. Maxwell; 레인 영어로부터 . – M .: Mir, 1967. – 144p.

8. Dubrov, 통계 방법: 교과서 /,. – M.: 금융 및 통계, 2003. – 352 p.

9. Kendall, M. 다변량 통계 분석 및 시계열 / M. Kendall, A. Stewart; trans. 영어로부터 , ; 편집자 , . – M.: 나우카, 1976. – 736쪽.

10. Beloglazov, 교육 품질 문제 분석 // Izv. RAS. 이론 및 제어 시스템. – 2006. – 6호. – 39 – 52 페이지.

이 자료는 2011년 11월 8일 편집위원회에 접수되었습니다.

이 작업은 2009년부터 2013년까지 연방 목표 프로그램인 "혁신적인 러시아의 과학 및 과학 교육 인력"의 틀 내에서 수행되었습니다. (주 계약 번호 P770).