Rule of Thumb in Sample Sizes

Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

Tutorials in Quantitative Methods for Psychology 

2007, vol. 3 (2), p. 43‐50. 

Understanding Power and Rules of Thumb  
for Determining Sample Sizes 

Carmen R. Wilson VanVoorhis and Betsy L. Morgan 
University of Wisconsin‐La Crosse 
 
This article addresses the definition of power and its relationship to Type I and Type II 
errors.  We  discuss  the  relationship  of  sample  size  and  power.  Finally,  we  offer 
statistical  rules  of  thumb  guiding  the  selection  of  sample  sizes  large  enough  for 
sufficient power to detecting differences, associations, chi‐square, and factor analyses. 
 
As  researchers,  it  is  disheartening  to  pour  time  and  hypothesis,  but  in  reality  the  null  hypothesis  is  false 
intellectual energy into a research project, analyze the data,  (Neyman  &  Pearson).    However,  as  shown  in  Figure  1,  in 
and find that the elusive .05 significance level was not met.   every  study,  there  are  four  possible  outcomes.    In  addition 
If the null hypothesis is genuinely true, then the findings are  to  Type  I  and  Type  II  errors,  two  other  outcomes  are 
robust.    But,  what  if  the  null  hypothesis  is  false  and  the  possible.    First,  the  data  may  not  support  a  rejection  of  the 
results failed to detect the difference at a high enough level?   null hypothesis when, in reality, the null hypothesis is true.  
It is a missed opportunity.  Power refers to the probability of  Second,  the  data  may  result  in  a  rejection  of  the  null 
rejecting  a  false  null  hypothesis.      Attending  to  power  hypothesis when, in reality, the null hypothesis is false (see 
during  the  design  phase  protect  both  researchers  and  Figure  1).    This  final  outcome  represents  statistical  power.   
respondents.    In  recent  years,  some  Institutional  Review  Researchers  tend  to  over‐attend  to  Type  I  errors  (e.g., 
Boards  for  the  protection  of  human  respondents  have  Wolins,  1982),  in  part,  due  to  the  statistical  packages  that 
rejected  or  altered  protocols  due  to  design  concerns  rarely include estimates of the other probabilities.  Post‐hoc 
(Resnick, 2006).  They argue that an “underpowered” study  analyses  of  published  articles  often  yield  the  finding  that 
may not yield useful results and consequently unnecessarily  Type II errors are common events in published articles (e.g., 
put respondents at risk.  Overall, researchers can and should  Strasaik,  Zamanm,  Pfeiffer,  Goebel,  &  Ulmer,  2007; 
attend  to  power.    This  article  defines  power  in  accessible  Williams, Hathaway, Kloster, & Layne, 1997). 
ways, provides guidelines for increasing power, and finally  When a .05 or lower significance is obtained, researchers 
offers “rules‐of‐thumb” for numbers of respondents needed  are fairly confident that the results are “real,” in other words 
for common statistical procedures.   not due to chance factors alone.  In fact, with a significance 
level  of  .05,  researchers  can  be  95%  confident  the  results 
What is power? 
represent  a  non‐chance  finding  (Aron  &  Aron,  1999).  
Beginning  social  science  researchers  learn  about  Type  I  Researchers  should  continue  to  strive  to  reduce  the 
and Type II errors.  Type I errors (represented by α are made  probability  of  Type  I  errors;  however,  they  also  need  to 
when the data result in a rejection of the null hypothesis, but  increase their attention to power. 
in  reality  the  null  hypothesis  is  true  (Neyman  &  Pearson  Every  statistic  has  a  corresponding  sampling 
(1928/1967).    Type  II  errors  (represented  by  β)  are  made  distribution.    A  sampling  distribution  is  created,  in  theory, 
when  the  data  do  not  support  a  rejection  of  the  null  via the following steps (Kerlinger & Lee, 2000): 
1. Select  a  sample  of  a  given  n  under  the  null 
                                                                   hypothesis.   
  2. Calculate the specific statistic.   
Portions  of  this  article  were  published  in  Psi  Chi  Journal  of 
Undergraduate Research.  3. Repeat steps 1 and 2 an “infinite” number of times. 
 

  43 
    44 
 

Figure 1.  Possible outcomes of decisions based on statistical results. 

  “TRUTH” OR  “REALITY” 

Null correct  Null wrong 

  Fail to reject  Correct decision  Type II (β) 

Decision based on   

statistical result  Reject  Type I (α)  Correct decision 

Power 

4. Plot the given statistic by frequency of value.    the  same  population  (i.e.  both  sample  means  are 


For instance, the following steps could be used to create  estimating the same population mean).  Sometimes, 
a  sampling  distribution  for  the  independent  samples  t‐test  however,  one  or  both  of  the  sample  means  will  be 
(based on Fisher 1925/1990; Pearson, 1990).  poor  estimates  of  the  population  mean  and  differ 
1. Select  two  samples  of  a  given  size  from  a  single  widely  from  each  other,  yielding  the  bell‐shaped 
population.    The  two  samples  are  selected  from  a  curve  characteristic  of  the  independent  samples  t‐
single  population  because  the  sampling  test sampling distribution. 
distribution  is  constructed  given  the  null  When  a  researcher  analyzes  data  and  calculates  a 
hypothesis  is  true  (i.e.,  the  sample  means  are  not  statistic,  the  obtained  value  is  compared  against  this 
statistically different).    sampling  distribution.    Depending  on  the  location  of  the 
2. Calculate  the  independent  samples  t‐test  statistic  obtained  value  along  the  sampling  distribution,  one  can 
based on the two samples.  determine the probability of achieving that particular value 
3. Complete  steps  1  and  2  an  “infinite”  number  of  given  the  null  hypothesis  is  true.    If  the  probability  is 
times.  In other words, select two samples from the  sufficiently small, the researcher rejects the null hypothesis.  
same  population  and  calculate  the  independent  Of  course,  the  possibility  remains,  albeit  unlikely,  that  the 
samples t‐test statistic repeatedly.  null hypothesis is true and the researcher has made a Type I 
4. Plot the obtained independent samples t‐test values  error.   
by  frequency.      Given  the  independent  samples  t‐ Estimating power depends upon a different distribution 
test is based on the difference between the means of  (Cohen, 1992).  The simplest example is the z‐test, in which 
the  two  samples,  most  of  the  values  will  hover  the  mean  of  a  sample  is  compared  to  the  mean  of  the 
around zero as the samples both were drawn from  population  to  determine  if  the  sample  comes  from  the 
population  (P1).    Power  assumes  that  the  sample,  in  fact, 
comes  from  a  different  population  (P2).    Therefore,  the 
sampling  distribution  of  P2  will  be  different  than  the 
sampling  distribution  of  P1  (see  Figure  2).    Power  assumes 
that the null hypothesis is incorrect. 
The goal is to obtain a z‐test value sufficiently extreme to 
reject  the  null  hypothesis.    Usually,  however,  the  two 
distributions  overlap.    The  greater  the  overlap,  the  more 
Figure  2.  Sampling  distributions  of  means  for  the  z‐test  values  P1  and  P2  share,  and  the  less  likely  it  is  that  the 
assuming  the  null  hypothesis  is  false.    P1  represents  the obtained  test  value  will  result  in  the  rejection  of  the  null 
sampling  distribution  of  means  of  the  original  population; hypothesis.  Reducing this overlap increases the power.  As 
P2  represents  the  sampling  distribution  of  means  from the  overlap  decreases,  the  proportion  of  values  under  P2 
which  the  sample  was  drawn.    The  shaded  area  under  P2 which  fall  within  the  rejection  range  (indicated  by  the 
represents power, i.e., the probability of correctly rejecting a shaded area under P2) increases.    
false null hypothesis.  

 
    45 
  Table 1 : Sample Data Set 
drew ten samples of three and ten samples of ten (see Table 
Person  X      Person  X  2 for the sample means). 
The  overall  mean  of  the  sample  means  based  on  three 
1  5.50      11  7.50  people is 7.57 and the standard deviation is .45.  The overall 
mean  of  the  sample  means  based  on  ten  people  is  7.49  and 
2  6.00      12  7.50  the  standard  deviation  is  .20.    The  sample  means  based  on 
ten people were, on average, closer to the population mean 
3  6.00      13  8.00  (μ = 7.50) than the sample means based on three people. 
The  standard  error  of  measurement  estimates  the 
4  6.50      14  8.00  average  difference  between  a  sample  statistic  and  the 
population  statistic.    In  general,  the  standard  error  of 
5  6.50      15  8.00 
measurement  is  the  standard  deviation  of  the  sampling 
distribution.    In  the  above  example,  we  created  two 
6  7.00      16  8.50 
miniature  sampling  distributions  of  means.    The  sampling 
7  7.00      17  8.50  distribution of the z‐test (used to compare a sample mean to 
a  population  mean)  is  a  sampling  distribution  of  means 
8  7.00      18  9.00  (although  it  includes  an  “infinite”  number  of  sample 
means).    As  indicated  by  the  standard  deviations  of  the 
9  7.50      19  9.00  means (i.e., the standard error of measurements) the average 
difference  between  the  sample  means  and  the  population 
10  7.50      20  9.50  mean is smaller when we drew samples of 10 than when we 
drew  samples  of  3.    In  other  words,  the  sampling 
 

Manipulating Power 

Sample Sizes and Effect Sizes 
As  argued  earlier  a  reduction  of  the  overlap  of  the 
distributions  of  two  samples  increases  power.    Two 
strategies  exist  for  minimizing  the  overlap  between 
distributions.    The  first,  and  the  one  a  researcher  can  most 
easily  control,  is  to  increase  the  sample  size  (e.g.,  Cohen, 
1990;  Cohen,  1992).    Larger  samples  result  in  increased 
power.  The  second,  discussed  later,  is  to  increase  the  effect 
size. 
Larger  samples  more  accurately  represent  the 
characteristics  of  the  populations  from  which  they  are 
derived  (Cronbach,  Gleser,  Nanda,  &  Rajaratnam,  1972;  
Marcoulides,  1993).    In  an  oversimplified  example,  imagine 
a population of 20 people with the scores on some measure 
(X) as listed in Table 1.  Figure  3.    The  relationship  between  standard  error  of 
The mean of this “population” is 7.5 (σ  = 1.08).  Imagine  measurement  and  power.    As  the  standard  error  of 
researchers  are  unable  to  know  the  exact  mean  of  the  measurement  decreases,  the  proportion  of  the  P2 
population and wanted to estimate it via a sample mean.  If  distribution  above  the  z‐critical  value  (see  shaded  area 
they  drew  a  random  sample,  n  =  3,  it  could  be  possible  to  under  P2)  increases,  therefore  increasing  the  power.    The 
select three low or three high scores which would be rather  distributions  at  the  top  of  the  figure  have  smaller  standard 
poor  estimates  of  the  “population”  mean.    Alternatively,  if  errors of measurement and therefore less overlap, while the 
they drew samples, n = 10, even the ten lowest or ten highest  distributions  at  the  bottom  have  larger  standard  errors  of 
scores  would  better  estimate  the  population  mean  than  the  measurement  and  therefore  more  overlap,  decreasing  the 
sample  of  three.    For  example,  using  this  “population”  we  power.   

 
    46 
 
distribution based on samples of size 10 is “narrower” than     
the  sampling  distribution  based  on  samples  of  size  3.  
where  M  is  the  sample  mean  derived  from  μ2  (remember, 
Applied  to  power,  given  the  population  means  remain 
power  assumes  the  null  hypothesis  is  false,  therefore,  the 
static,  “narrower”  distributions  will  overlap  less  than 
sample is drawn from a different population than  μ1.)  If the 
“wider” distributions (see Figure 3). 
effect  size  is  .50,  then  μ1 and μ2  differ  by  one‐half  of  a 
Consequently,  larger  sample  sizes  increase  power  and 
standard  deviation.    The  more  disparate  the  population 
decrease estimation error.  However, the practical realities of 
means, the less overlap between the distributions (see Figure 
conducting  research  such  as  time,  access  to  samples,  and 
4).   Researchers  can  increase power  by  increasing  the  effect 
financial  costs  restrict  the  size  of  samples  for  most 
size. 
researchers.    The  balance  is  generating  a  sample  large 
Manipulating effect size is not nearly as straightforward 
enough  to  provide  sufficient  power  while  allowing  for  the 
as  increasing  the  sample  size.    At  times,  researchers  can 
ability to actually garner the sample.  Later in this article, we 
attempt  to  maximize  effect  size  by  maximizing  the 
provide some “rules of thumb” for some common statistical 
difference  between  or  among  independent  variable  levels.  
tests aimed at obtaining this balance between resources and 
For example, suppose a particular study involved examining 
ideal sample sizes. 
the  effect  of  caffeine  on  performance.    Likely  differences  in 
The  second  way  to  minimize  the  overlap  between 
performance,  if  they  exist,  will  be  more  apparent  if  the 
distributions  is  to  increase  the  effect  size  (Cohen,  1988).  
researcher  compares  individuals  who  ingest  widely 
Effect  size  represents  the  actual  difference  between  the  two 
different amounts of caffeine (e.g., 450 mg vs. 0 mg) than if 
populations; often effect sizes are reported in some standard 
she compares individuals who ingest more similar amounts 
unit  (Howell,  1997).    Again,  the  simplest  example  is  the  z‐
of  caffeine  (e.g.,  25  mg.  vs.  0  mg).    If  the  independent 
test.  Assuming the null hypothesis is false (as power does), 
variable is a measured subject variable, for example, ability 
the effect size (d) is the difference between the  μ1 and μ2 in 
level,  effect  size  can  be  increased  by  including  groups  who 
standard deviation units.  Specifically,  
are  “extreme”  in  ability  level.    For  example,  rather  than 

   
Figure 4.  The relationship between effect size and power.  As Figure  5.  The  relationship  between  α  and  power.  As  α
the  effect  size  increases,  the  proportion  of  the  P2  distribution increases, as in a single‐tailed test, the proportion of the P2 
above the z‐critical value (see shaded area under P2) increases, distribution  above  the  z critical  value  (see  shaded  area 
therefore increasing the power.  The distributions at the top of  under  P2). The  distributions  at  the  top  of  the  figure 
the  figure  represent  populations  with  means  that  differ  to  a represent  a  two‐tailed  test  in  which  the  α level  is  split 
larger  degree  (i.e.  a  larger  effect  size)  than  the  distributions  at between the two tails; the distributions at the bottom of the 
the  bottom.    The  larger  difference  between  the  population figure  represent  a  one‐tailed  test  in  which  the  α level  is 
means  results  in  less  overlap  between  the  distributions,  included in only one tail.
increasing power.
 
    47 
 
Table 2. Sample Means Presented by Magnitude 
treatment,  p  is  the    participant  characteristics,  and  e  is  
random error. 
Sample  M  (n = 3)  M  (n = 10) 
In  the  true  dependent  samples  design,  each  participant 
experiences  each  level  of  the  independent  variable.    Any 
1  6.83  7.25 
participant  characteristics  which  impact  the  dependent 
2  7.17  7.30  variable score at one level will similarly affect the dependent 
variable  score  at  other  levels  of  the  independent  variable.  
3  7.33  7.30  Different  statistics  use  different  methods  to  separate 
variance  due  to  participant  characteristics  from  error 
4  7.33  7.35  variance.    The  simplest  example  is  a  dependent  samples  t‐
test design, in which there are two levels of an independent 
5  7.50  7.40  variable.  The formula for the dependent samples t‐test is 

6  7.67  7.50      

7  7.67  7.60  
where MD is the mean of the difference scores and SEMD  is 
the standard error of the mean difference. 
8  7.83  7.70 
Difference  scores  are  created  for  each  participant  by 
subtracting  the  score  under  one  level  of  the  independent 
9  7.83  7.75 
variable  from  the  score  under  the  other  level  of  the 
10  8.50  7.75  independent  variable.    The  actual  magnitude  of  the  scores, 
then  is  eliminated,  leaving  a  difference  that  is  due,  to  a 
  larger  degree,  to  the  treatment  and  to  a  lesser  degree  to 
participant characteristics.  The differences due to treatment 
comparing  people  who  are  above  the  mean  in  ability  level  then  are  easier  to  detect.    In  other  words,  such  a  design 
with  those  who  are  below  the  mean,  the  researcher  might  increases power (Cohen, 2001; Cohen, 1988).  
compare  people  who  score  at  least  one  standard  deviation 
above the mean with those who score at least one standard  Type I Errors and Power   
deviation  below  the  mean.    Other  times,  the  effect  size  is  Finally,  power  is  related  to  α,or  the  probability  of 
simply out of the researcher’s control.  In those instances, the  making a Type I error.  As α increases, power increases (see 
best a researcher can do is to be sure the dependent variable  Figure  5).    The  reality  is  that  few  researchers  or  reviewers 
measure is as reliable as possible to minimize any error due  are  willing  to  trust  in  results  where  the  probability  of 
to  the  measurement  (which  would  serve  to  “widen”  the  rejecting  a  true  null  hypothesis  is  greater  than  .05.  
distribution).    Nonetheless,  this  relationship  does  explain  why  one‐tailed 
tests are more powerful than two‐tailed tests.  Assuming an 
Error Variance and Power 
α  level  of  .05,  in  a  two‐tailed  test,  the  total  α  level  must  be 
Error variance, or variance due to factors other than the  split between the tails, i.e., .025 is assigned to each tail.  In a 
independent  variable,  decreases  the  likelihood  of  detecting  one‐tailed  test,  the  entire  α  level  is  assigned  to  one  of  the 
differences or relationships that actually exist, i.e. decreases  tails.  It is as if the α level has increased from .025 to .05.   
power  (Cohen,  1988).  Differences  in  dependent  variable 
scores  can  be  due  to  many  factors  other  than  the  effects  of  Rules of Thumb 
the independent variable.  For example, scores on measures  The  remaining  articles  in  this  edition  discuss  specific 
with  low  reliability  can  vary  dependent  upon  the  items  power  estimates  for  various  statistics.    While  we  certainly 
included  in  the  measure,  the  conditions  of  testing,  or  the  advocate  for  full  understanding  of  and  attention  to  power 
time  of  testing.    A  participant  might  be  talented  in  the  task  estimates, at times, such concepts are beyond the scope of a 
or,  alternatively,  be  tired  and  unmotivated.    Dependent  particular  researchers  training  (for  example,  in 
samples  control  for  error  variance  due  to  such  participant  undergraduate  research).    In  those  instances,  power  need 
characteristics.    not  be  ignored  totally,  but  rather  can  be  attended  to  via 
Each  participant’s  dependent  variable  score  (X)  can  be  certain  rules  of  thumb  based on  the  principles  of  regarding 
characterized as  power.      Table  3  provides  an  overview  of  the  sample  size 
  X = μ + tx + p + e  rules of thumb discussed below. 
where  μ    is  the  population  mean,  tx  is  the  effects  of 

 
    48 
 Table 3: Sample size rules of thumb 

Relationship  Reasonable sample size 

Measuring group differences   Cell size of 30 for 80% power, if decreased, no lower than
   (e.g., t‐test, ANOVA)     7 per cell. 

Relationships  ~50  
   (e.g., correlations, regression) 

Chi ‐ Square  At least 20 overall, no cell smaller than 5. 

Factor Analysis  ~300 is “good” 

(assuming a medium‐sized relationship). If testing both, use 
Number of Participants: Cell size for statistics used to  the larger sample size. 
detect differences.  Although Greenʹs (1991) formula is more comprehensive, 
The  independent  samples  t‐test,  matched  sample  t‐test,  there are two other rules of thumb that could be used. With 
ANOVA  (one‐way  or  factorial),  MANOVA  are  all  statistics  five  or  fewer  predictors  (this  number  would  include 
designed  to  detect  differences  between  or  among  groups.  correlations), a researcher can use Harrisʹs (1985) formula for 
How  many  participants  are  needed  to  maintain  adequate  yielding  the  absolute  minimum  number  of  participants. 
power  when  using  statistics designed  to  detect  differences?  Harris  suggests  that  the  number  of  participants  should 
Given  a  medium  to  large  effect  size,  30  participants  per  cell  exceed  the  number  of  predictors  by  at  least  50  (i.e.,  total 
should  lead  to  about  80%  power  (the  minimum  suggested  number  of  participants  equals  the  number  of  predictor 
power  for  an  ordinary  study)  (Cohen,  1988).  Cohen  variables  plus  50)‐‐a  formula  much  the  same  as  Greenʹs 
conventions  suggest  an  effect  size  of  .20  is  small,  .50  is  mentioned  above.  For  regression  equations  using  six  or 
medium, and .80 is large. If, for some reason, minimizing the  more  predictors,  an  absolute  minimum  of  10  participants 
number  of  participants  is  critical,  7  participants  per  cell,  per  predictor  variable  is  appropriate.  However,  if  the 
given at least three cells, will yield power of approximately  circumstances allow,  a  researcher  would  have  better  power 
50%  when  the  effect  size  is  .50.    Fourteen  participants  per  to  detect  a  small  effect  size  with  approximately  30 
cell,  given  at  least  three  cells  and  an  effect  size  of  .50,  will  participants  per  variable.  For  instance,  Cohen  and  Cohen 
yield  power  of  approximately  80%  (Kraemer  &  Thiemann,  (1975)  demonstrate  that  with  a  single  predictor  that  in  the 
1987).   population correlates with the DV at .30, 124 participants are 
Caveats.  First,  comparisons  of  fewer  groups  (i.e.,  cells)  needed  to  maintain  80%  power.  With  five  predictors  and  a 
require  more  participants  to  maintain  adequate  power.  population  correlation  of  .30,  187  participants  would  be 
Second,  lower  expected  effect  sizes  require  more  needed to achieve 80% power. 
participants  to  maintain  adequate  power  (Aron  &  Aron,  Caveats.  Larger  samples  are  needed  when  the  DV  is 
1999). Third, when using MANOVA, it is important to have  skewed, the effect size expected is small, there is substantial 
more  cases  than  dependent  variables  (DVs)  in  every  cell  measurement  error,  or  stepwise  regression  is  being  used 
(Tabachnick & Fidell, 1996).  (Tabachnick & Fidell, 1996). 

Number of participants: Statistics used to examine  Number of participants: Chi‐square. 
relationships.  The  chi‐square  statistic  is  used  to  test  the  independence 
Although there are more complex formulae, the general  of  categorical  variables.    While  this  is  obvious,  sometimes 
rule of thumb is no less than 50 participants for a correlation  the implications are not.  The primary implication is that all 
or  regression  with  the  number  increasing  with  larger  observations must be independent.  In other words, no one 
numbers  of  independent  variables  (IVs).  Green  (1991)  individual  can  contribute  more  than  one  observation.    The 
provides a comprehensive overview of the procedures used  degrees  of  freedom  are  based  on  the  number  of  variables 
to determine regression sample sizes. He suggests N > 50 + 8  and their possible levels, not on the number of observations.  
m  (where  m  is  the  number  of  IVs)  for  testing  the  multiple  Increasing  the  number  of  observations,  then  has  no  impact 
correlation and N > 104 + m for testing individual predictors  on  the  critical  value  needed  to  reject  the  null  hypothesis.  

 
    49 
 
The  number  of  observations  still  impacts  the  power,  Cohen,  J.  (1990).  Things  I  have  learned  (so  far).  American 
however.    Specifically,  small  expected  frequencies  in  one  or  Psychologist, 45, 1304‐1312. 
more  cells  limit  power  considerably.    Small  expected  Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 
frequencies  can  also  slightly  inflate  the  Type  I  error  rate,  155‐159. 
however,  for  totally  sample  sizes  of  at  least  20,  the  alpha  Cohen,  J.,  &  Cohen,  P.  (1975).  Applied  multiple 
rarely rises above .06 (Howell, 1997).  A conservative rule is  regression/correlation  analysis  for  the  behavioral  sciences. 
that no expected frequency should drop below 5.    Hillsdale, NJ: Erlbaum. 
Caveat.    If  the  expected  effect  size  is  large,  lower  power  Comrey,  A.  L.,  &  Lee,  H.  B.  (1992).  A  first  course  in  factor 
can be tolerated and total sample sizes can include as few as  analysis (2nd ed.). Hillsdale, NJ: Erlbaum. 
8 observations without inflating the alpha rate.    Cronbach, L. J. , Gleser, G. C., Nanda, H., & Rajaratnam, N.,  
(1972). The dependability of behavioral measurements: Theory 
Number of Participants: Factor analysis.    of generalizability for scores and profiles. New York: Wiley. 
A  good  general  rule  of  thumb  for  factor  analysis  is  300  Fisher,  R.  A.    (1925/1990).  Statistical  methods  for  research 
cases  (Tabachnick  &  Fidell,  1996)  or  the  more  lenient  50  workers. Oxford, England: Oxford University Press. 
participants  per  factor  (Pedhazur  &  Schmelkin,  1991).  Green, S. B. (1991). How many subjects does it take to do a 
Comrey and Lee (1992) (see Tabachnick & Fidell, 1996) give  regression  analysis?  Multivariate  Behavioral  Research,  26, 
the  following  guide  samples  sizes:  50  as  very  poor;  100  as  499‐510. 
poor, 200 as fair, 300 as good, 500 as very good and 1000 as  Guadagnoli,  E.,  &  Velicer,  W.F.  (1988).  Relation  of  sample 
excellent.    size  to  the  stability  of  component  patterns.  Psychological 
Caveat.  Guadagnoli  &  Velicer  (1988)  have  shown  that  Bulletin, 103, 265‐275. 
solutions  with  several  high  loading  marker  variables  (>.80)  Harris, R. J. (1985). A primer of multivariate statistics (2nd ed.). 
do not require as many cases.    New York: Academic Press. 
Howell,  D.  C.  (1997).  Statistical  methods  for  psychology  (4th 
Conclusion 
ed.). Belmont, CA: Wadsworth. 
This  article  addresses  the  definition  of  power  and  its  Hoyle, R. H. (Ed.). (1999). Statistical strategies for small sample 
relationship  to  Type  I  and  Type  II  errors.    Researchers  can  research. Thousand Oaks, CA: Sage. 
manipulate power with sample size.  Not only does proper  Kerlinger,  F.  &  Lee,  H.  (2000).    Foundations  of  behavioral 
sample  selection  improve  the  probability  of  detecting  research. New York: International Thomson Publishing. 
difference or association, researchers are increasingly called  Kraemer,  H.  C.,  &  Thiemann,  S.  (1987).  How  many  subjects? 
upon to provide information on sample size in their human  Statistical  power  analysis  in  research.  Newbury  Park,  CA: 
respondent protocols and manuscripts (including effect sizes  Sage.  
and  power  calculations).  The  provision  of  this  level  of  Marcoulides,  G.  A.  (1993).  Maximizing  power  in 
analysis  regarding  sample  size  is  a  strong  recommendation  generalizability  studies  under  budget  constraints.  
of  the  Task  Force  on  Statistical  Inference  (Wilkinson,  1999),  Journal of Educational Statistics, 18 (2), 197‐206. 
and is now more fully elaborated in the discussion of ʺwhat  Neyman,  J.  &  Pearson,  E.  S.  (1928/1967).  On  the  use  and 
to include in the Results sectionʺ of the new fifth edition of  interpretation  of  certain  test  criteria  for  purposes  of 
the American Psychological Associationʹs (APA) publication  statistical  inference,  Part  I.  Joint  Statistical  Papers. 
manual  (APA,  2001).  Finally,  researchers  who  do  not  have  London:  Cambridge University Press. 
the  access  to  large  samples  should  be  alert  to  the  resources  Pearson  ,  E,  S.  (1990)  ‘Student’,  A  statistical  biography  of 
available for minimizing this problem (e.g., Hoyle, 1999).    William Sealy Gosset. Oxford, England: Oxford University 
Press. 
References 
Pedhazur,  E.  J.,  &  Schmelkin,  L.  P.  (1991).  Measurement, 
American  Psychological  Association.  (2001).  Publication  design,  and  analysis:  An  integrated  approach.  Hillsdale,  NJ: 
manual  of  the  American  Psychological  Association  (5th  ed.).  Erlbaum.  
Washington, DC: Author.  Resnick, D. B. (2006, Spring) Bioethics bulletin. Retrieved 
Aron,  A.,  &  Aron,  E.  N.  (1999).  Statistics  for  psychology  (2nd  September 22, 2006 from 
ed.). Upper Saddle River, NJ: Prentice Hall.  http://dir.niehs.nih.gov/ethics/news/2006spring.doc. 
Cohen,  B.  H.  (2001).  Explaining  Psychological  Statistics  (2nd  Washington DC:  National Institute for Environmental 
ed.).  New York, NY: John Wiley & Sons, Inc.  Ethics Health Sciences. 
Cohen,  J.  (1988).  Statistical  power  analysis  for  the  behavioral  Strasaik,  A.  M,  Zamanm,  Q.,  Pfeiffer,  K.  P.,  Goebel,  G., 
sciences (2nd ed.). Hillsdale, NJ: Erlbaum.  Ulmer, H. (2007). Statistical errors in medical research: A 

 
    50 
 
review  of  common  pitfalls.  Swiss  Medical Weekly,  137,  Williams,  J.  L.,  Hathaway,  C.  A.,  Kloster,    K.  L.  &  B.  H. 
44‐49.  Layne,  (1997).  Low  power,  type  II  errors,  and  other 
Tabachnick,  B.  G.,  &  Fidell,  L.  S.  (1996).  Using  multivariate  statistical  problems  in  recent  cardiovascular  research. 
statistics (3rd ed.). New York: HarperCollins.  Heart and Circulatory Physiology, 273, (1). 487‐493. 
Wilkinson,  L.,  &  Task  Force  on  Statistical  Inference,  APA  Wolins,  L.  (1982).  Research  mistakes  in  the  social  and 
Board  of  Scientific  Affairs.  (1999).  Statistical  methods  in  behavioral sciences. Ames: Iowa State University Press 
psychology  journals:  Guidelines  and  explanations.   
American Psychologist, 54, 594‐604.   
Manuscript received October 21st, 2006 
Manuscript accepted November 5th, 2007 
 

You might also like