Distribució uniforme discreta
n = 5 on n = b − a + 1 | |
Funció de distribució de probabilitat | |
Tipus | distribució de probabilitat simètrica, Distribució binomial beta i família escala de localització |
---|---|
Notació | o |
Paràmetres | enters amb |
Suport | |
fdp | |
FD | |
Esperança matemàtica | |
Mediana | |
Moda | =no n'hi ha |
Variància | |
Coeficient de simetria | |
Curtosi | |
Entropia | |
FGM | |
FC | |
FGP | |
Mathworld | DiscreteUniformDistribution |
En Teoria de la probabilitat i estadística, la distribució uniforme discreta és una distribució de probabilitat simètrica sobre un conjunt finit de punts en la qual és igualment probable que s'observi cadascun dels possibles valors. Intuïtivament es parla d'elegir un punt a l'atzar en un conjunt finit "tots els resultats amb la mateixa probabilitat de sortir".
Un exemple senzill de la distribució uniforme discreta és llançar un dau just. Els valors possibles són 1, 2, 3, 4, 5, 6, i cada vegada que es llança el dau la probabilitat d'una puntuació determinada és 1/6. Si es llancen dos daus i s'afegeixen els seus valors, la distribució resultant ja no és uniforme perquè no totes les sumes tenen la mateixa probabilitat. Encara que és convenient descriure distribucions uniformes discretes sobre nombres enters, com aquesta, també es poden considerar distribucions uniformes discretes sobre qualsevol conjunt finit. Per exemple, una permutació aleatòria és una permutació generada de manera uniforme a partir de les permutacions d'una longitud determinada, i un arbre allargant uniforme és un arbre d'expansió generat uniformement a partir dels arbres d'expansió d'un gràfic donat.[1][2][3]
La distribució uniforme discreta en si és inherentment no paramètrica. És convenient, però, representar els seus valors generalment per tots els nombres enters en un interval [ a, b ], de manera que a i b esdevinguin els paràmetres principals de la distribució (sovint només es considera l'interval [1, n ] amb l'únic paràmetre n ). Amb aquestes convencions, la funció de distribució acumulada (CDF) de la distribució uniforme discreta es pot expressar, per a qualsevol k ∈ [ a, b ], com
Propietats
[modifica]La família de distribucions uniformes en intervals d'enters (amb un o ambdós límits desconeguts) té una estadística suficient de dimensions finites, és a dir, el triple del màxim de la mostra, el mínim de la mostra i la mida de la mostra, però no és una família exponencial de distribucions, perquè el suport varia amb els paràmetres. Per a les famílies el suport de les quals no depèn dels paràmetres, el teorema de Pitman–Koopman–Darmois estableix que només les famílies exponencials tenen una estadística suficient la dimensió de la qual es limita a mesura que augmenta la mida de la mostra. La distribució uniforme és, per tant, un exemple senzill que mostra el límit d'aquest teorema.
Si la distribució considera els valors reals , la seva funció de probabilitat és:
i la seva funció de distribució acumulada (probabilitat acumulada) és:
La seva esperança és:
i la variància és:
Suma
[modifica]- La suma de dues variables aleatòries, fins i tot independents, seguint lleis discretes uniformes de la mateixa extensió segueix una llei discreta no uniforme.[4]
- Per exemple, a la figura triangular,
- La suma de dues variables aleatòries independents seguint lleis discretes uniformes d'extensió diferent pot seguir una llei discreta uniforme.
- Per exemple, la suma dels resultats d'un dau de deu cares numerat en desenes (00, 10, 20, ···, 90) i un dau de deu cares numerat en unitats (de 0 a 9) segueix la llei de l'uniforme discret suport
Notació
[modifica]Si és una variable aleatòria uniforme sobre el conjunt s'escriu .
Estimació del màxim
[modifica]Aquest exemple es descriu dient que una mostra de k observacions s'obté d'una distribució uniforme sobre els nombres enters , amb el problema d'estimar el màxim desconegut N. Aquest problema es coneix comunament com el problema dels tancs alemanys, després de l'aplicació de l'estimació màxima a les estimacions de la producció de tancs alemanys durant la Segona Guerra Mundial.
L'estimador de variància mínima uniforme no esbiaixada (UMVU) per al màxim ve donat per
on m és el màxim de la mostra i k és la mida de la mostra, mostreig sense substitució.[5] Això es pot veure com un cas molt senzill d' estimació de l'espai màxim .
Això té una variació de [5]
per tant, una desviació estàndard d'aproximadament , la mida mitjana (de la població) d'una bretxa entre mostres; comparar a dalt.
El màxim mostral és l'estimador de màxima probabilitat per al màxim de la població, però, com s'ha comentat anteriorment, està esbiaixat.
Si les mostres no estan numerades però són reconeixibles o marcables, es pot estimar la mida de la població mitjançant el mètode de captura-recaptura.
- Un dau perfecte, on la probabilitat que caigui en cadascuna de les cares és la mateixa, 1/6.[7]
- Una moneda perfecta, on tots els resultats (és a dir, que caigui cara o que caigui creu) tenen la mateixa probabilitat, 1/2.
Problema del tanc alemany
[modifica]Es pot formular el problema de l'estimació del màxim en una població de la següent manera:
- Suposi ser un analista d'intel·ligència per als Aliats durant la Segona Guerra Mundial, i tenir alguns números de sèrie de tancs alemanys capturats. A més, assumeixi que tots els tancs alemanys han estat numerats seqüencialment des d'1 fins a N. Com es podria estimar el nombre total de tancs?
Per a l'estimació puntual (estimar un valor únic per al total), l'estimador de mínima variància sense biaix ve donat per la fórmula:
on m és el major número de sèrie observat (màxim de la mostra) i k és el nombre de tancs observat (grandària de la mostra).[5][8][9][10][11] La fórmula pot entendre's com
- «El màxim en la mostra més el buit mitjà en la mostra»
En la primera equació, el primer sumant és el màxim i el segon sumant és el buit mitjà.
El nom de l'estimador (sense biaix) es pot entendre si considerem que estem prenent el màxim de la mostra com la nostra estimació bàsica i després corregint el seu biaix, tendent a "subestimar" el veritable màxim de la població, ja que el màxim en la mostra pot ser igual o menor, però mai major que el màxim de la població.
Noti's que, a causa de la suposició que no hi ha reemplaçament, una vegada s'ha observat un número de sèrie, ja no es troba en el repositori d'observacions i no pot tornar a ser vist.
Dades específiques
Segons les estimacions de la intel·ligència convencional aliada, els alemanys estaven produint entorn de 1.400 tancs per mes entre juny de 1940 i setembre de 1942. Aplicant la fórmula citada a dalt als números de sèrie dels tancs alemanys capturats (tant aquells que encara estiguessin en estat de ser utilitzats com aquells parcialment destruïts), el número resultant es va calcular en 256 al mes. Després de la guerra, les xifres de producció oficials, obtingudes de documents confiscats en el Ministeri de la Guerra d'Albert Speer, van mostrar que el nombre real va ser de 255.[12]
S'han citat les següents estimacions per a alguns mesos específics:[13][14]
Mes | Estimació estadística | Estimació d'intel·ligència | Registre alemany |
Juny de 1940 | 169 | 1000 | 122 |
Juny de 1941 | 244 | 1550 | 271 |
Agost de 1942 | 327 | 1550 | 342 |
Contramesures
[modifica]Per a confondre l'anàlisi dels números de sèrie, es poden excloure els números de sèrie o reduir la informació auxiliar utilitzable. Alternativament, es poden utilitzar números de sèrie que resisteixin la criptoanàlisi, de forma més efectiva triant números aleatòriament sense reemplaçament d'una llista que sigui molt major que el nombre d'objectes produïts, o produint números aleatoris i comprovant-los amb la llista de números ja assignats; és probable que es produeixin col·lisions tret que el nombre de dígits possibles sigui més del doble del nombre de dígits en el nombre d'objectes produïts (on el número de sèrie pot estar en qualsevol base); vegeu problema de l'aniversari.[nota 1] Per a això, es pot utilitzar un generador de números pseudoaleatoris criptogràficament segur. Tots aquests mètodes requereixen una taula de cerca (o trencar el xifrat) per a passar del número de sèrie a l'ordre de producció, la qual cosa complica l'ús dels números de sèrie: per exemple, no es pot recuperar un rang de números de sèrie, sinó que cal buscar cadascun per separat o generar una llista.
Alternativament, es poden encriptar els números de sèrie seqüencials mitjançant un xifrat per substitució simple, que permet una fàcil descodificació, però que també és fàcilment deduïble mitjançant anàlisi de freqüències: encara quan es comenci des d'un punt arbitrari, el text sense format té un patró (és a dir, els números es troben en seqüència). Hi ha un exemple d'això en la novel·la de Ken Follett Code to Zero, on l'encriptat dels números de sèrie del coet Jupiter-C són obtinguts com:
H | O | N | T | S | V | I | L | E | X |
---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 0 |
La paraula clau aquí és Huntsville (on s'ometen les lletres repetides) el que proveeix una clau de deu lletres.[15] Per tant el coet número 13 era "HN", i el número del coet 24 era "UT".
Notes
[modifica]- ↑ Com es discuteix en atac d'aniversari, es pot esperar una col·lisió després de 1,25√H números, si es tria entre H possibles sortides. Aquesta arrel quadrada correspon a la meitat dels dígits. Per exemple, a qualsevol base, l'arrel quadrada d'un número amb 100 dígits és aproximadament un número amb 50 dígits.
Referències
[modifica]- ↑ Monleón-Getino, Toni; Casado, Clara Rodríguez. Probabilitat i estadística per a ciències II. Edicions Universitat Barcelona, 2017-01-16, p. 25. ISBN 978-84-475-4021-1. Arxivat 2024-07-27 a Wayback Machine.
- ↑ Vázquez, Gisela Pujol; Bàguena, Josep Gibergans; Ciaurri, Fernando García. Problemes d'estadística amb aplicació a l'enginyeria. Editorial UOC, 2009. ISBN 978-84-9788-774-8. Arxivat 2024-07-27 a Wayback Machine.
- ↑ «Distribuciones de probabilidad». Sergas. Arxivat de l'original el 2024-04-15. [Consulta: 28 juny 2024].
- ↑ «Loi uniforme discrète». Supagro.fr.
- ↑ 5,0 5,1 5,2 Johnson, Roger W. «Estimating the Size of a Population» (en anglès). Teaching Statistics, 16, 2, 6-1994, pàg. 50–52. Arxivat de l'original el 2024-07-27. DOI: 10.1111/j.1467-9639.1994.tb00688.x. ISSN: 0141-982X [Consulta: 26 juliol 2024].
- ↑ «Distribuciones: discretas y continuas» (en castellà). Universidad Politécnica de Madrid. Arxivat de l'original el 2024-07-27. [Consulta: 28 juny 2024].
- ↑ «Uniform Distribution: Definition, How It Works, and Example» (en anglès). [Consulta: 29 juny 2024].
- ↑ Johnson, Roger «Getting the Best from Teaching Statistics» (en anglès). Teaching Statistics, 2006. Arxivat de l'original el 2008-04-10.
- ↑ Scheaffer, Richard L. Activity-Based Statistics (en anglès). Springer, 2014-01-15, p. 148-150. ISBN 978-1-4757-3844-5. Arxivat 2024-07-27 a Wayback Machine.
- ↑ Landwehr, James M.; Swift, Jim; Watkins, Ann E. Exploring Surveys and Information from Samples (en anglès). Dale Seymour Publications, 1987, p. 75-83. ISBN 978-0-86651-339-5. Arxivat 2024-07-27 a Wayback Machine.
- ↑ Smith, Gary. Introduction to Statistical Reasoning (en anglès). WCB/McGraw-Hill, 1998, p. 148-149. ISBN 978-0-07-059276-6.
- ↑ «Gavyn Davies does the maths – How a statistical formula won the war» (en anglès). The Guardian, 20-07-2006. [Consulta: 6 juliol 2014].
- ↑ Ruggles, Richard; Brodie, Henry «An Empirical Approach to Economic Intelligence in World War II» (en anglès). Journal of the American Statistical Association, 42, 237, 3-1947, pàg. 72–91. Arxivat de l'original el 2018-11-06. DOI: 10.1080/01621459.1947.10501915. ISSN: 0162-1459 [Consulta: 26 juliol 2024].
- ↑ Order Statistics, in Virtual Laboratories in Probability and Statistics
- ↑ «Rockets and Missiles» (en anglès). www.spaceline.org. Arxivat de l'original el 2024-07-27. [Consulta: 26 juliol 2024].