버스나 지하철을 기다리다보면 그 대기 시간이 길게 느껴졌던 경험이 있을 것이다. 특히, 10분마다 한 번씩 오는 버스라면 평균적으로 5분을 기다리면 다음 버스가 와야하는데 그보다 더 기다리는 경우가 많았을 수도 있다. 그런데 이게 단순히 운이 나빠서 그런 것이 아닐 수도 있다는 것. 즉, 평균 10분마다 한 번씩 오는 버스의 평균 대기시간은 5분보다 더 길다는 것이 대기시간 패러독스(waiting time paradox)가 이야기하고자 하는 바이다.
이를 설명하기 위해 다음과 같은 상황을 먼저 생각해보도록 한다. 어느 학교의 한 학년의 각 반 학생 수의 평균을 계산하기 위해서, 모든 학생에게 자신이 속한 반의 학생 수가 몇인지를 물어 모은 값들을 전부 평균을 냈다고 한다. 이 때 이렇게 얻은 평균은 실제 평균과는 차이가 있게 된다. 항상 더 크게 나오는 것. 이것은 임의의 학생을 뽑을 때 그 학생이 대규모 반에 속해있을 확률이 더 크기 때문에, 더 많은 학생들이 더 큰 값을 이야기하게 되고 이들이 과대표되어버리는 sampling bias가 나타나기 때문이다. 확률에 그 값 자체가 반영되는 것.
아주 극단적인 예를 들어 이 학년엔 두 반밖에 없고 1반에 8명, 2반에 2명의 학생이 있었다면 실제 평균은 5명이어야 하지만, 위와 같은 방식으로 평균을 계산하면 명이 된다. 이를 검사 패러독스(inspection paradox)라 하며, 대기시간 패러독스 역시 이 검사 패러독스의 (연속적인) 한 케이스가 된다. 좀 더 긴 버스의 인터벌(버스가 떠나고 다음 버스가 올 때까지 걸리는 시간)에 도착할 확률이 그 인터벌의 길이만큼 높아지기 때문에 이것이 영향을 미치는 것이다. 역시 극단적인 예를 들어 어떤 버스가 있어 19분 57초, 1초, 1초, 1초의 인터벌이 되풀이되는 식으로 배치되어 있다면, 분명 평균적으로 5분에 한 번씩 오는 버스이지만 1초만에 도착하고 가버린 세 대의 버스를 타는 때보다 압도적으로 높은 확률로 19분 57초 인터벌에 버스 정류장에 도착할 것이고, 그렇게 되면 평균 대기시간은 약 10분이 되니 훨씬 길어지는 것.
이를 수학적으로 증명하도록 한다. 먼저 버스의 인터벌의 확률 밀도 함수를 라고 둔다. 그리고 이 정류장에 도착했을 때에 해당되는 인터벌의 확률 밀도 함수를
라고 합니다. 그러면
는
와도 비례하지만,
자체와도 비례하게 된다. 앞서 본 학생 수 평균 이야기처럼, 긴 인터벌 사이에 도착할 확률이 그 긴 시간만큼 더 높다는 것이다. 따라서
는
에 비례하게 되고,
의 정의역 전체에 대한 적분값이 1이어야 하므로 다음과 같은 식을 얻게 된다.
따라서 기다리는 시간 의 기대값, 즉 평균 대기시간
는
가 되고, 이 값은 의 기대값을
(주어진 예시에선 10분), 표준편차를
라 할 때
이 되어 항상
이상이 된다. 즉, 만약 이 버스가 칼같이 정확하게 10분마다 한 번씩 도착한다면
이니 예상했던 대로 평균적으로 기다리는 시간은 5분이 되어야 하나, 현실적으로는 도로 사정 같은 외부요인에 의해 변동이 생겨서 편차가 생길 수밖에 없고 그 때문에
만큼 더 기다리게 되는 것이다.
Allen Downey의 글에 첨부된 그래프. 직접 여러 날에 걸쳐 보스턴 지하철 Red Line의 4시에서 5시 사이에 도착하는 지하철의 시간을 실제로 재어본 결과, 평균 인터벌은 7.8분, 평균 대기시간은 4.4분이었다고 한다. 위 그래프는 각각 의 누적 밀도 함수를 나타낸 그래프.
검사 패러독스의 또 다른 한 예로는 사회학자 Scott Feld가 1991년 발견한 친구 패러독스 (friendship paradox)가 있다.[1] 내 친구(SNS에서는 맞팔 같은 요소로 대응할 수 있겠다) 수는 내 친구들의 친구 수보다 적게 느껴진다는 것인데, 실제로 친구들의 친구 수의 평균은 평균적으로 자신의 친구 수보다 더 크게 나타난다. 이것도 앞에서 본 이유와 같은 이유로 비슷하게 증명할 수 있다. (이 경우는 앞의 연속적인 경우와는 달리 이산적인데 친구 관계를 그래프로 만들어 코시-슈바르츠 부등식으로 증명할 수 있다)
여담이지만 검사 패러독스의 이름은 전구의 오류가 있는지 없는지를 검사하는 일에 대한 Renewal theory에서의 문제에서 유래되었다고. 이 외에도 대기시간 패러독스에 대해서 이 글도 읽어볼만하다.
Elegant Math 계정에 작성한 트윗 타래를 정리. (2018/10/28)
References
[1] S. L. Feld, “Why Your Friends Have More Friends Than You Do” American Journal of Sociology, Vol. 96, No. 6 (May, 1991), pp. 1464-1477 https://www.jstor.org/stable/2781907