Sommaire
ILes séries statistiquesAVocabulaireBLes séries quantitatives discrètesCLes séries quantitatives regroupées en classesDLes séries qualitativesIILes paramètres de position d'une série quantitativeALe modeBLa moyenneCLes médianesIIILes paramètres de dispersion d'une série quantitativeAL'étendueBLes quartilesCLa variance et l'écart-typeDAssocier le paramètre de dispersion au paramètre de positionIVLes représentations graphiquesALes histogrammesBLes diagrammes en boîteLes séries statistiques
Vocabulaire
Population
Une population est un ensemble d'individus.
Les enfants nés à Paris en 2000 représentent une population.
Les voitures produites dans une usine au cours du mois de février 2010 représentent également une population.
Echantillon
Lorsque l'effectif d'une population est trop important, on étudie ses caractères à partir d'un échantillon représentatif qui est une partie de la population.
Si on veut par exemple étudier l'ensemble de la population française, il est préférable d'étudier un échantillon de cette population car l'effectif est trop grand.
Caractère
Un caractère est une caractéristique qui définit les individus d'une population, et dont les valeurs sont différentes d'un individu à un autre de la population.
La couleur, la taille, le poids, l'âge, la date de production sont des exemples de caractères.
Caractère quantitatif ou qualitatif
Un caractère peut être quantitatif, si ses valeurs sont numériques, ou qualitatif, si ses valeurs ne sont pas numériques.
La taille est un caractère quantitatif alors que la couleur des yeux est un caractère qualitatif.
Les séries quantitatives discrètes
Série quantitative discrète
On appelle série quantitative discrète une liste de n réels (n étant un entier naturel non nul) : ce sont les valeurs d'un caractère pour chacun des individus composant l'échantillon d'effectif total n. Pour étudier une telle série, on compte le nombre d'apparition n_{i} (effectif) de chaque réel de la liste, de manière à identifier p réels x_{i} distincts (p est un entier naturel non nul et i un entier compris entre 1 et p). On présente alors la série sous la forme de p couples :
\left(x_{i} ; n_{i}\right)
La série des pointures des 12 garçons d'une classe de seconde est donnée par la liste suivante :
\left\{ \left(39 ; 2\right) ; \left(40 ; 3\right) ; \left(41 ; 5\right) ; \left(42 ; 1\right) ; \left(44 ; 1\right) \right\}
On présente en général une série quantitative discrète à l'aide d'un tableau.
x_{i} | x_{1} | x_{2} | ... | x_{p} |
---|---|---|---|---|
n_{i} | n_{1} | n_{2} | ... | n_{p} |
La série des pointures des 12 garçons d'une classe de seconde est donnée par la liste suivante : \left\{ \left(39 ; 2\right) ; \left(40 ; 3\right) ; \left(41 ; 5\right) ; \left(42 ; 1\right) ; \left(44 ; 1\right) \right\}.
Elle peut être résumée dans un tableau :
Pointure x_i | 39 | 40 | 41 | 42 | 44 |
---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 |
Effectif total
L'effectif total est la somme des effectifs de chaque valeur.
n =n_{1} + n_{2} +... + n_{p}
Dans la série statistique suivante :
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
L'effectif total est :
n=2 +3+5+1+1=12
Fréquence des x_i
La fréquence des valeurs x_i est le rapport de l'effectif de cette valeur par l'effectif total.
f_{i} = \dfrac{n_{i}}{n}
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
Fréquence f_i | \dfrac{2}{12} | \dfrac{3}{12} | \dfrac{5}{12} | \dfrac{1}{12} | \dfrac{1}{12} | 1 |
La somme des fréquences d'une série est égale à 1.
f_{1}+f_{2}+...+f_{p}= 1
Dans la série statistique suivante, on a calculé les fréquences :
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
Fréquence f_i | \dfrac{2}{12} | \dfrac{3}{12} | \dfrac{5}{12} | \dfrac{1}{12} | \dfrac{1}{12} | 1 |
On remarque que l'on a bien :
\dfrac{2}{12}+\dfrac{3}{12}+\dfrac{5}{12}+\dfrac{1}{12}+\dfrac{1}{12}=1
Les séries quantitatives regroupées en classes
Série quantitative regroupée en classes
Une série quantitative regroupée en classes (de même amplitude ou non), ou série continue, est une série quantitative dont les valeurs x_{i} sont regroupées par intervalles de réels.
Taille (en cm) | [10 ; 20[ | [20 ; 25[ | [25 ; 40[ | [40 ; 50] |
---|---|---|---|---|
Effectif | 11 | 8 | 16 | 3 |
Les séries qualitatives
Série qualitative
Une série qualitative est une suite de valeurs d'un caractère non quantitatif.
Couleur | Rouge | Bleu | Vert | Jaune |
---|---|---|---|---|
Effectif | 12 | 28 | 7 | 13 |
Les paramètres de position d'une série quantitative
Le mode
Mode
On appelle mode(s) d'une série la ou les valeurs du caractère dont l'effectif est le plus grand.
On considère la série statistique suivante :
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
Le mode de cette série est 41.
La moyenne
Moyenne
On appelle moyenne d'une série, généralement notée \overline{x}, le réel :
\overline{x} =\dfrac{n_{1} x_{1} + n_{2} x_{2} +... + n_{p} x_{p}}{n}
Le tableau d'effectifs suivant présente les notes obtenues par un groupe d'élèves :
Note | 5 | 8 | 9 | 10 | 10,5 | 11 | 13 | 14 | 14,5 | 16 |
---|---|---|---|---|---|---|---|---|---|---|
Nombre d'élèves | 1 | 3 | 5 | 6 | 2 | 5 | 6 | 1 | 2 | 1 |
On peut ainsi calculer facilement la moyenne pondérée :
m = \dfrac{5 \times 1 + 8 \times 3 + 9 \times 5 + 10 \times 6 + 10{,}5 \times 2 + 11 \times 5 + 13 \times 6 + 14 \times 1 + 14{,}5 \times 2 + 16 \times 1}{32}
On arrondit au dixième :
m \approx 10{,}8
Pour une série regroupée en classes, on détermine une valeur approchée de la moyenne en remplaçant chaque classe par son centre.
La série suivante est regroupée en classes. On ajoute une ligne qui donne le centre de chaque classe avant de pouvoir calculer la moyenne :
Taille x (en cm) | 10 \leq x \lt 20 | 20 \leq x \lt 25 | 25 \leq x \lt 40 | 40 \leq x \leq 50 |
---|---|---|---|---|
Centre de la classe (cm) | 15 | 22,5 | 32,5 | 45 |
Effectif | 11 | 8 | 16 | 3 |
La moyenne des tailles est donc :
m\approx\dfrac{15\times11+22{,}5\times8+32{,}5\times16+45\times3}{11+8+16+3}\approx26{,}3 cm (arrondie au dixième).
La moyenne peut également être calculée à partir des fréquences :
\overline{x} =\sum _{i=1}^{p}\left(f_{i} x_{i}\right)=f_{1} x_{1}+f_{2} x_{2}+...+f_{p} x_{p}
On considère la série statistique suivante pour laquelle on connaît les fréquences :
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
Fréquence f_i | \dfrac{2}{12} | \dfrac{3}{12} | \dfrac{5}{12} | \dfrac{1}{12} | \dfrac{1}{12} | 1 |
La moyenne vaut :
\overline{x}=39\times\dfrac{2}{12}+40\times\dfrac{3}{12}+41\times \dfrac{5}{12}+42\times \dfrac{1}{12}+44\times\dfrac{1}{12}=\dfrac{163}{4}=40{,}75
Les médianes
Médiane
On appelle médiane d'une série rangée par ordre croissant toute valeur qui partage la série en deux séries de même effectif.
On considère une série dont les valeurs des n individus sont rangées par ordre croissant.
- Si n est impair, on prend en général pour médiane la \dfrac{n+1}{2}^{ème} valeur de la série ordonnée.
- Si n est pair, on prend en général pour médiane le centre de l'intervalle \left[ \dfrac{n}{2}^{\text{ème}} \text{ valeur ; }\dfrac{n}{2}+ 1 ^{\text{ème}} \text{ valeur} \right] .
Une médiane de la série : 3, 5, 6, 11, 14, 21, 27 est la valeur 11.
Une médiane de la série : 12, 13, 14, 19, 31, 41 est la valeur arbitraire 16,5.
Ne pas confondre le rang d'une médiane et sa valeur.
Une médiane n'est pas toujours une valeur observée dans la série statistique.
Lorsque la série est une série continue, on prend comme médiane la valeur pour laquelle on obtient une fréquence cumulée de 50%.
Lors d'un devoir commun, les notes de tout l'établissement ont été regroupées en classes :
Notes | \left[ 0;4 \right[ | \left[ 4;8 \right[ | \left[ 8;10 \right[ | \left[ 10;12\right[ | \left[ 12;16 \right[ | \left[ 16;20 \right[ |
---|---|---|---|---|---|---|
Centre de classe | 2 | 6 | 9 | 11 | 14 | 18 |
Effectif | 21 | 46 | 117 | 123 | 86 | 7 |
Fréquence en % | 5,25 | 11,5 | 29,25 | 30,75 | 21,5 | 1,75 |
Fréquence cumulée croissante | 5,25 | 16,75 | 46 | 76,75 | 98,25 | 100 |
Le graphique (ou polygone) des fréquences cumulées croissantes (F.C.C.) est alors le suivant :
On y lit que 10,26 est une médiane de cette série.
Les paramètres de dispersion d'une série quantitative
L'étendue
Etendue
On appelle étendue d'une série la différence entre le plus grand des x_{i} et le plus petit des x_{i}, c'est-à-dire entre la plus grande et la plus petite valeur observées.
Note | 5 | 8 | 9 | 10 | 10,5 | 11 | 13 | 14 | 14,5 | 16 |
---|---|---|---|---|---|---|---|---|---|---|
Nombre d'élèves | 1 | 3 | 5 | 6 | 2 | 5 | 6 | 1 | 2 | 1 |
L'étendue de cette série est :
16 - 5 = 11
Dans le cas d'une série statistique continue (dont les valeurs sont regroupées en classes), et sauf mention contraire de l'énoncé, on prend pour valeurs extrêmes la borne inférieure du premier intervalle et la borne supérieure du dernier intervalle.
Les quartiles
Premier quartile
Le premier quartile est la plus petite valeur, notée Q_1, d'une série, rangée par ordre croissant, telle qu'au moins 25% de l'effectif lui soit inférieur ou égal.
On considère une série dont les valeurs des n individus sont rangées par ordre croissant.
- Si \dfrac n4 est un entier, le premier quartile est la \left(\dfrac n4\right)^{ème} valeur de la série.
- Si \dfrac n4 n'est pas un entier, le premier quartile est la valeur dont le rang dans la série est l'entier directement supérieur à \dfrac n4.
Le premier quartile de la série : 3, 5, 6, 11, 14, 19, 21, 27 est la valeur 5.
Le premier quartile de la série : 12, 13, 14, 19, 31, 41 est la valeur 13.
On considère une série dont les valeurs des n individus sont rangées par ordre croissant.
- Si \dfrac n2 est un entier, le deuxième quartile est la \left(\dfrac n2\right)^{ème} valeur de la série.
- Si \dfrac n2 n'est pas un entier, le deuxième quartile est la valeur dont le rang dans la série est l'entier directement supérieur à \dfrac n2.
Le deuxième quartile de la série : 3, 5, 6, \textcolor{Red}{11}, 14, 19, 21, 27 est la valeur 11.
Le deuxième quartile de la série : 10, 12, 13, \textcolor{Red}{14}, 19, 31, 41 est la valeur 14.
Troisième quartile
Le troisième quartile est la plus petite valeur, notée Q_3, d'une série rangée par ordre croissant, telle qu'au moins 75% de l'effectif lui soit inférieur ou égal.
On considère une série dont les valeurs des n individus sont rangées par ordre croissant.
- Si \dfrac {3n}{4} est un entier, le troisième quartile est la \left(\dfrac {3n}{4}\right)^{ème} valeur de la série.
- Si \dfrac {3n}{4} n'est pas un entier, le troisième quartile est la valeur dont le rang dans la série est l'entier directement supérieur à \dfrac {3n}{4}.
Le troisième quartile de la série : 3, 5, 6, 11, 14, 19, 21, 27 est la valeur 19.
Le troisième quartile de la série : 12, 13, 14, 19, 31, 41 est la valeur 31.
Ecart interquartile
L'écart interquartile est le réel Q_{3} - Q_{1}.
L'écart interquartile de la série : 3, 5, 6, 11, 14, 19, 21, 27 est la valeur 19 - 5 = 14.
L'écart interquartile de la série : 12, 13, 14, 19, 31, 41 est la valeur 31 - 13 = 18.
Alors que la médiane n'est pas toujours une valeur observée, les quartiles sont des valeurs observées.
Lorsque la série est une série à caractère continu :
- On choisit comme premier quartile la valeur pour laquelle on obtient une fréquence cumulée de 25%.
- On choisit comme troisième quartile la valeur pour laquelle on obtient une fréquence cumulée de 75%.
On reprend l'exemple précédent et le polygone des fréquences cumulées croissantes :
On obtient graphiquement :
- Q_1\approx8{,}56
- Q_3\approx11{,}89
La variance et l'écart-type
Variance
On appelle variance d'une série, notée V, le réel :
V =\dfrac{n_{1}\left(x_{1} - \overline{x}\right)^{2} +... + n_{p}\left(x_{p} - \overline{x}\right)^{2}}{N}
Considérons la série suivante d'effectif total N=12 et de moyenne \overline{x}=40{,}75.
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
On a alors :
V=\dfrac{2\times\left(39-40{,}75\right)^2+3\times\left(40-40{,}75\right)^2+5\times\left(41-40{,}75\right)^2+1\times\left(42-40{,}75\right)^2+1\times\left(44-40{,}75\right)^2}{12}=1{,}6875
La variance peut également être calculée par la formule suivante :
V=\dfrac1n\times\left[ \sum_{i=1}^{p}\left( n_ix_i^2 \right) \right]-\overline{x}^2=\dfrac1n\times\left[ n_1x_1^2+n_2x_2^2+...+n_px_p^2 \right]-\overline{x}^2
Considérons la série suivante d'effectif total n=12 et de moyenne \overline{x}=40{,}75.
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
On a alors :
V=\dfrac{1}{12}\times\left( 2\times39^2+3\times40^2+5\times41^2+1\times42^2+1\times44^2 \right)-40{,}75^2=1{,}6875
Dans le cas d'une série statistique continue, les valeurs x_i sont remplacées par les centres des classes. Le résultat obtenu n'est alors qu'une valeur approchée de la variance.
Ecart-type
On appelle écart-type d'une série, noté \sigma, le réel :
\sigma = \sqrt{V}
où V représente la variance de la série.
Considérons la série suivante de variance V=1{,}6\ 875.
Pointure x_i | 39 | 40 | 41 | 42 | 44 | TOTAL |
---|---|---|---|---|---|---|
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
L'écart-type est donc :
\sigma=\sqrt{1{,}6875}\approx1{,}299
La variance n'a pas la même unité que la moyenne contrairement à l'écart-type.
Associer le paramètre de dispersion au paramètre de position
Pour étudier une série statistique, on cherche à la fois à étudier sa position et sa dispersion.
On associe la moyenne à l'écart-type. La moyenne est un paramètre de tendance centrale alors que l'écart-type traduit la dispersion des valeurs autour de cette position. C'est un écart moyen par rapport à la moyenne.
On associe la médiane à l'écart interquartile. La médiane est un paramètre de tendance centrale alors que l'écart interquartile traduit la dispersion des valeurs autour de cette position.
Les représentations graphiques
Les histogrammes
Histogramme
Pour représenter une série regroupée en classes, on peut construire un histogramme : on associe un rectangle à chacune des classes de la série, dont l'aire est proportionnelle à l'effectif.
Taille (en cm) | [5 ; 20[ | [20 ; 30[ | [30 ; 40[ | [40 ; 60] |
---|---|---|---|---|
Effectif | 12 | 8 | 16 | 4 |
L'histogramme suivant représente la série de ce tableau, où un carreau en abscisse est égal à 5 cm et l'aire d'un carreau est égale à un effectif de 1.
Les diagrammes en boîte
Diagramme en boîte
Un diagramme en boîte est un diagramme donnant la position du minimum, du maximum, des quartiles et de la médiane choisie d'une série.
- On représente, au-dessus d'un axe donnant les valeurs, un rectangle dont un des côtés donne la position de Q_1 et le côté opposé la position de Q_3.
- On ajoute une marque, dans ce rectangle, pour indiquer la position de la médiane choisie.
- On ajoute des "moustaches" comme on le voit dans l'exemple ci-dessous.
Reprenons l'exemple des notes. On obtient le diagramme en boîte suivant :
Que la série soit discrète ou continue, il s'agit du même type de diagramme.
Un tel diagramme peut permettre de comparer deux séries si l'on représente les diagrammes en boîte des deux séries au-dessus du même axe.