FAKTOROVÁ ANALÝZA

▲

►

Základní

▲

►

Rozšiřující

Statistická metoda, která slouží k popisu variability pozorovaných proměnných pomocí menšího počtu latentních vysvětlujících proměnných, které se nazývají společné faktory. Předpokládejme, že na n objektech pozorujeme p číselných znaků. V lingvistice mohou být objekty reprezentovány např. textem, autorským korpusem či jazykem, znaky mohou být reprezentovány např. frekvencí výskytu zvolené jazykové jednotky či gramatického jevu, kolokací atp. Často se stává, že počet pozorovaných znaků je redundantní z důvodu silných korelací mezi znaky. V takovém případě je možné téměř celou informaci, resp. „variabilitu“, která se v těchto znacích vyskytuje, zachytit výrazně menším počtem přímo nepozorovatelných proměnných. Jinými slovy, někdy je možné identifikovat m << p latentních proměnných, které jsou dostatečné pro informativní popis objektů. F.a. je matematicko‑statistická metoda, která pomáhá určit tyto latentní proměnné.

Model f.a. popisuje pozorování na každém objektu rovnicemi

X₁ = a₁₁F₁ + a₁₂F₂ + … + a_1mF_m + U₁ + μ₁,

X₂ = a₂₁F₁ + a₂₂F₂ + … + a_2mF_m + U₂ + μ₂,

…

X_p = a_p1F₁ + a_p2F₂ + … + a_pmF_m + U_p + μ_p,

X₁, … , X_p jsou pozorované proměnné, F₁, … , F_m jsou latentní společné faktory, a₁₁, … , a_pm jsou tzv. faktorové zátěže, U₁, … , U_p jsou specifické faktory reprezentující náhodné odchylky a μ₁, … , μ_p jsou konstanty. V tomto modelu jsou jak pozorování, tak společné i specifické faktory náhodnými proměnnými. O společných faktorech obvykle předpokládáme, že mají nulové střední hodnoty, jednotkové rozptyly jsou navzájem nekorelované a také jsou nekorelované se specifickými faktory. O specifických faktorech předpokládáme, že mají nulové střední hodnoty, variance d₁, … , d_p > 0 a jsou navzájem nekorelované. Takto získáváme tzv. ortogonální model f.a., ve kterém pro kovarianční matici pozorovatelných proměnných platí:

Ʃ = AA^T + D,

kde A je matice faktorových zátěží, tj. a_ij je prvek v i‑tém řádku a j‑tém sloupci matice A a D je diagonální matice s hodnotami d₁, … , d_p na diagonále. Konstanty μ₁, … , μ_pvyjadřují za daných předpokladů střední hodnoty pozorovatelných proměnných. Faktorové zátěže a rozptyly d₁, … , d_p je možné považovat za parametry ortogonálního modelu f.a.. Z dat, tj. z realizací proměnných X₁, … , X_p pro každý z n pozorovaných objektů, se dá vypočítat odhad těchto parametrů pomocí tzv. metody hlavních faktorů. Za předpokladu normálního rozdělení je možné parametry modelu f.a. odhadnout prostřednictvím metody maximální věrohodnosti. Metoda maximální věrohodnosti je sice výpočetně náročnější, na rozdíl od metody hlavních faktorů však umožňuje testovat, zda je zvolený počet společných faktorů dostatečný. Vhodný počet společných faktorů je také možné určit pomocí loketního diagramu, případně jiných grafických a heuristických metod.

Jedním z klíčových aspektů modelu f.a. je to, že faktorové zátěže nejsou určeny jednoznačně. Přesněji vyjádřeno, pokud je A matice faktorových zátěží, tak stejně dobře vyhovuje modelu f.a. také matice AU, kde U je jakákoliv matice rotace typu m × m. Ortogonální rotace faktorů je numerická metoda, která umožňuje mezi všemi vyhovujícími maticemi faktorových zátěží nalézt takovou, která má jednoduchou strukturu. Pro tento účel se nejčastěji používá tzv. varimaxní rotační metoda. V modelu f.a., u nějž má matice faktorových zátěží jednoduchou strukturu, je často možné nalézt interpretaci společných faktorů v pojmech oboru, z nějž pocházejí analyzovaná data, tj. společným faktorům lze přiřadit konkrétní význam. Při této interpretaci se využívá té skutečnosti, že pokud jsou pozorovatelné proměnné standardizované na jednotkový rozptyl, pak je faktorová zátěž a_ij rovna korelačnímu koeficientu mezi pozorovatelnou proměnnou X_i a společným faktorem F_j. Z odhadů faktorových zátěží a variancí specifických faktorů je možné vypočítat odhady faktorových skóre, tj. odhady přímo nepozorovatelných realizací proměnných F₁, … , F_m pro každý objekt.

F.a. se používá v přírodních i humanitních vědách, zvláště v psychologii (např. ✍Fabrigar & Wegener ad., 1999). V lingvistice ji aplikoval např. ✍Biber (1992), ✍Biber (1993) pro analýzu žánrů a stylů či pro analýzu polysémie, založené na základě kolokačních charakteristik daného výrazu. K f.a. podrobněji viz ✍Rencher (2002), ✍Seber (2004), ✍Izenman (2008), ✍Härdle & Simar (2012) a jiné monografie o mnohorozměrných statistických metodách.

Literatura

Biber, D. The Multi-dimensional Approach to Linguistic Analyses of Genre Variation: An Overview of Methodology and Findings. Computers and the Humanities 26, 1992, 331–345.
Biber, D. Co-occurrence Patterns among Collocations: A Tool for Corpus-based Lexical Knowledge Acquisition. Computational Linguistics 19, 1993, 531–538.
Fabrigar, L. R. & D. T. Wegener ad. Evaluating the Use of Exploratory Factor Analysis in Psychological Research. Psychological Methods 4, 1999, 272–299.
Härdle, W. K. & L. Simar. Applied Multivariate Statistical Analysis, 2012.
Izenman, A. Modern Multivariate Statistical Techniques, 2008.
Rencher, A. C. Methods of Multivariate Analysis, 2002.
Seber, G. A. F. Multivariate Observations, 2004.

Citace

Radoslav Harman (2017): FAKTOROVÁ ANALÝZA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/FAKTOROVÁ ANALÝZA (poslední přístup: 8. 7. 2026)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

FAKTOROVÁ ANALÝZA

Další pojmy: