囚人のジレンマ
「囚人のジレンマ」とは、複数の人間が助け合えば利益を得られる状態にあるにもかかわらず、そうしない道を選ぶという意味のこと。カナダの研究者、アルバート・タッカーが提唱した「prisoners' dilemma」という英語を語源とする。由来は、「2人の囚人がたがいに黙秘すると減刑されるにもかかわらず、無罪になる可能性を知ったとたんに双方が自白してしまう」という逸話である。ゲーム理論における学説のひとつとして広まった。
「囚人のジレンマ」は社会学、哲学、心理学などさまざまな分野で重大なテーマとなってきた。個人が自身の利益のみを選択し続ける限り、社会全体の利益は生まれないというジレンマを象徴する例として学界では知られている。
また、真逆の概念として「パレート最適」が挙げられる。パレート最適とはすなわち、「個人が満足度を犠牲にしなければ、集団の利益を最適化できない」という考え方を表す。理論的には、組織内に属する全員が幸福になるために誰かが利益の一部を手放すのは正解だといえる。それにもかかわらず、最大限の利益を追求するうちに全ての幸福すら失ってしまう現象は、人間の行動を考えるうえでの貴重なモデルケースとして学者たちから議論されてきた。なお、映画「ダークナイト」をはじめとするフィクション作品でも度々、囚人のジレンマは題材にされている。
しゅうじん‐の‐ジレンマ〔シウジン‐〕【囚人のジレンマ】
囚人のジレンマ
・囚人のジレンマとは、個人の最適化を図ろうとした選択が、結果として全体の最適選択とはならないことを示唆するゲーム理論のモデルである。このモデルは、環境保護問題や値下げ競争等幅広い状況で使用される。
・例えば、同一の事件で逮捕された2人の囚人が、互いに意思疎通をできない牢獄にいるとする。そこで2人に対し、個別に提案を出される。「自白するれば司法取引により釈放されるが、もう1人も自白した場合は2人に懲役3年が科せられる。1人が自白し、もう1人が黙秘した場合、自白した者は釈放され、黙秘した者は懲役5年が科せられる。また両方が黙秘した場合は、懲役1年が科せられる。」
・自分にとって最適なのは、自分の自白と相手の黙秘によって釈放されることである。しかし、相手も自白してしまうと双方に3年の懲役が科せられる。その一方、もし自分黙秘し相手も黙秘した場合、双方が自白した場合の懲役3年より短い懲役1年となる。しかし相手が自白した場合、自分にとって懲役5年という最大不利益を被ってしまう。
・全体としてみれば、2人の囚人の黙秘による懲役1年が最適な選択であるのにも関わらず、自白をした場合自分にとって釈放という最適化があるため、自白か黙秘かの選択にジレンマが生じてしまう。
囚人のジレンマ
囚人のジレンマ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/09/07 05:18 UTC 版)
囚人のジレンマ(しゅうじんのジレンマ、英: prisoners' dilemma)とは、ゲーム理論におけるゲームの1つ。お互い協力する方が協力しないよりもよい結果になることが分かっていても、協力しない者が利益を得る状況では互いに協力しなくなる、というジレンマである[1]。各個人が合理的に選択した結果(ナッシュ均衡)が社会全体にとって望ましい結果(パレート最適)にならないので、社会的ジレンマとも呼ばれる[2]。
1950年に数学者のアルバート・タッカーが考案した[3]。ランド研究所のメリル・フラッドとメルビン・ドレシャーの行った実験をもとに、タッカーがゲームの状況を囚人の黙秘や自白にたとえたため、この名がついている[4]。
囚人のジレンマではゲームを無期限に繰り返すことで協力の可能性が生まれる(後述)。囚人のジレンマは、自己の利益を追求する個人の間でいかに協力が可能となるかという社会科学の基本問題であり、経済学、政治学、社会学、社会心理学、倫理学、哲学などの幅広い分野で研究されているほか、自然科学である生物学においても、生物の協力行動を説明するモデルとして活発に研究されている[5]。
ゲームの基本
共同で犯罪を行ったと思われる2人の囚人A・Bを自白させるため、検事は囚人A・Bに次のような司法取引をもちかけた[6]。
- 本来ならお前たちは懲役5年なんだが、もし2人とも黙秘したら、証拠不十分として減刑し、2人とも懲役2年だ。
- もし片方だけが自白したら、そいつはその場で釈放してやろう(つまり懲役0年)。この場合黙秘してた方は懲役10年だ。
- ただし、2人とも自白したら、判決どおり2人とも懲役5年だ。
このとき、「2人の囚人A・Bはそれぞれ黙秘すべきかそれとも自白すべきか」というのが問題である。なお2人の囚人A・Bは別室に隔離されており、相談することはできない状況に置かれているものとする。
2人の囚人A・Bの行動と懲役の関係を表(利得表と呼ばれる)にまとめると以下のようになる。表内の (○年, △年) は2人の囚人A・Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄(10年,0年)とは,「Aが黙秘・Bが自白」を選択した場合、Aの懲役は10年、Bの懲役は0年であることを意味する。
囚人B 黙秘 | 囚人B 自白 | |
---|---|---|
囚人A 黙秘 | (2年, 2年) | (10年, 0年) |
囚人A 自白 | (0年, 10年) | (5年, 5年) |
2人の囚人A・Bにとって、「互いに自白」して互いに5年の刑を受けるよりは「互いに黙秘」して互いに2年、合計で4年の刑を受ける方が得である。しかし、2人の囚人が「互いに黙秘」が全体の利益で得であると認識した上で2人の囚人A・Bがそれぞれ自分の利益のみを追求している限り、「互いに黙秘」という結果ではなく「互いに自白」という結果となってしまう。これがジレンマと言われる所以である。このようなジレンマが起こるのは以下の理由による。
まず囚人Aの立場では次のように考えるだろう。
- 囚人Bが「黙秘」を選んだ場合、自分 (=囚人A) の懲役は2年(「黙秘」を選んだ場合)か0年(「自白」を選んだ場合)だ。だから「自白」を選んで0年の懲役になる方が得だ。
- 囚人Bが「自白」を選んだ場合、自分 (=囚人A) の懲役は10年(「黙秘」を選んだ場合)か5年(「自白」を選んだ場合)だ。だからやはり「自白」を選んで5年の懲役になる方が得だ。
したがって、囚人Aにとっては,囚人Bがどのように行動するかにかかわらず自白することが最適な選択ということになる。これは囚人Bにとっても同じであるため、囚人Bも囚人Aと同じ考えによって自白することが最適な選択である。このような理由で2人の囚人A・Bは結果的に「互いに自白」という行動をとることとなる。
重要なのは、「囚人Bが自白してしまうのではないか」という懸念や恐怖から囚人Aは自白するわけではなく、囚人Bが黙秘しようが自白しようが囚人Aは合理的に自白する、という点である。
2人の囚人A・Bにとって「互いに黙秘」することがパレート最適であるにもかかわらず,2人の囚人A・Bがそれぞれ合理的に自白するという「互いに自白」という結果はナッシュ均衡ではあってもパレート最適ではない。
2人の囚人A・Bが「互いに黙秘」することを「協調」と言い換え,「どちらかが黙秘しているとして自分だけが自白して釈放してもらおう」とすることを「裏切り」と言い換えたとき,結果的に両者は「裏切り」を選択することとなる。
有限繰り返しゲーム
囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合(繰り返しゲーム)における2人の囚人の行動は、彼らがゲームの繰り返し回数を知っているか否かで異なる。
2人の囚人がゲームの繰り返し回数を知っている場合は有限繰り返しゲームと呼ばれ、この場合には2人の囚人が全てのゲームで「裏切り」を選択することが知られている[7]。証明は、最終回のゲームから逆順に以下の帰納法を行うことで示せる(後退帰納法)。以下ゲームの繰り返し回数をn とする。
- n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果が二者関係に与える影響を考慮する必要がない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
- n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回目のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも2人の囚人はともに「裏切り」を選択する。
- 以下同様に考えることで、全てのゲームで2人の囚人がともに「裏切り」を選択することが分かる。
無期限繰り返しゲーム
2人の囚人がゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし,無期限繰り返しゲームではゲームが終了する確定的な期限がないので後退帰納法を適用できず、協調の可能性が生まれる。
このことを説明するため、以下の利得表で表される囚人のジレンマゲームを考える[8]。なお以下では,数学的な説明のために「囚人」を「プレーヤー」という言葉で置き換える。この表は2人のプレーヤー カテゴリ
囚人のジレンマ
「囚人のジレンマ」の例文・使い方・用例・文例
- 囚人のジレンマという,ゲームの理論
囚人のジレンマと同じ種類の言葉
- 囚人のジレンマのページへのリンク