버스 대기 시간이 길게 느껴지는 것에 대한 수학적 설명

버스나 지하철을 기다리다보면 그 대기 시간이 길게 느껴졌던 경험이 있을 것이다. 특히, 10분마다 한 번씩 오는 버스라면 평균적으로 5분을 기다리면 다음 버스가 와야하는데 그보다 더 기다리는 경우가 많았을 수도 있다. 그런데 이게 단순히 운이 나빠서 그런 것이 아닐 수도 있다는 것. 즉, 평균 10분마다 한 번씩 오는 버스의 평균 대기시간은 5분보다 더 길다는 것이 대기시간 패러독스(waiting time paradox)가 이야기하고자 하는 바이다.

이를 설명하기 위해 다음과 같은 상황을 먼저 생각해보도록 한다. 어느 학교의 한 학년의 각 반 학생 수의 평균을 계산하기 위해서, 모든 학생에게 자신이 속한 반의 학생 수가 몇인지를 물어 모은 값들을 전부 평균을 냈다고 한다. 이 때 이렇게 얻은 평균은 실제 평균과는 차이가 있게 된다. 항상 더 크게 나오는 것. 이것은 임의의 학생을 뽑을 때 그 학생이 대규모 반에 속해있을 확률이 더 크기 때문에, 더 많은 학생들이 더 큰 값을 이야기하게 되고 이들이 과대표되어버리는 sampling bias가 나타나기 때문이다. 확률에 그 값 자체가 반영되는 것.

아주 극단적인 예를 들어 이 학년엔 두 반밖에 없고 1반에 8명, 2반에 2명의 학생이 있었다면 실제 평균은 5명이어야 하지만, 위와 같은 방식으로 평균을 계산하면 \frac{8\cdot 8+2\cdot 2}{10}=6.8명이 된다. 이를 검사 패러독스(inspection paradox)라 하며, 대기시간 패러독스 역시 이 검사 패러독스의 (연속적인) 한 케이스가 된다. 좀 더 긴 버스의 인터벌(버스가 떠나고 다음 버스가 올 때까지 걸리는 시간)에 도착할 확률이 그 인터벌의 길이만큼 높아지기 때문에 이것이 영향을 미치는 것이다. 역시 극단적인 예를 들어 어떤 버스가 있어 19분 57초, 1초, 1초, 1초의 인터벌이 되풀이되는 식으로 배치되어 있다면, 분명 평균적으로 5분에 한 번씩 오는 버스이지만 1초만에 도착하고 가버린 세 대의 버스를 타는 때보다 압도적으로 높은 확률로 19분 57초 인터벌에 버스 정류장에 도착할 것이고, 그렇게 되면 평균 대기시간은 약 10분이 되니 훨씬 길어지는 것.

이를 수학적으로 증명하도록 한다. 먼저 버스의 인터벌의 확률 밀도 함수를 p(T)라고 둔다. 그리고 이 정류장에 도착했을 때에 해당되는 인터벌의 확률 밀도 함수를 p_{\text{exp}}(T)라고 합니다. 그러면 p_{\text{exp}}(T)p(T)와도 비례하지만, T 자체와도 비례하게 된다. 앞서 본 학생 수 평균 이야기처럼, 긴 인터벌 사이에 도착할 확률이 그 긴 시간만큼 더 높다는 것이다. 따라서 p_{\text{exp}}(T)T p(T)에 비례하게 되고, p_{\text{exp}}(T)의 정의역 전체에 대한 적분값이 1이어야 하므로 다음과 같은 식을 얻게 된다.

\displaystyle p_{\text{exp}}(T) = \frac{T p(T)}{\int_{0}^{\infty} T p(T) dt} = \frac{T p(T)}{E[t]}

따라서 기다리는 시간 W의 기대값, 즉 평균 대기시간 E[W]

\displaystyle E[W] = \frac{1}{2}E_{\text{exp}}[T] = \frac{1}{2} \int_{0}^{\infty} T p_{\text{exp}}(T) dT = \frac{1}{2E[T]} \int_{0}^{\infty} T^2 p(T) dT = \frac{E[T^2]}{2E[T]}

가 되고, 이 값은 p(T)의 기대값을 m(주어진 예시에선 10분), 표준편차를 s라 할 때 \frac{m}{2} + \frac{s^2}{2m}이 되어 항상 \frac {m}{2} 이상이 된다. 즉, 만약 이 버스가 칼같이 정확하게 10분마다 한 번씩 도착한다면 s=0이니 예상했던 대로 평균적으로 기다리는 시간은 5분이 되어야 하나, 현실적으로는 도로 사정 같은 외부요인에 의해 변동이 생겨서 편차가 생길 수밖에 없고 그 때문에 \frac{s^2}{2m}만큼 더 기다리게 되는 것이다.

Allen Downey의 에 첨부된 그래프. 직접 여러 날에 걸쳐 보스턴 지하철 Red Line의 4시에서 5시 사이에 도착하는 지하철의 시간을 실제로 재어본 결과, 평균 인터벌은 7.8분, 평균 대기시간은 4.4분이었다고 한다. 위 그래프는 각각 p, p_{\text{exp}}의 누적 밀도 함수를 나타낸 그래프.

검사 패러독스의 또 다른 한 예로는 사회학자 Scott Feld가 1991년 발견한 친구 패러독스 (friendship paradox)가 있다.[1] 내 친구(SNS에서는 맞팔 같은 요소로 대응할 수 있겠다) 수는 내 친구들의 친구 수보다 적게 느껴진다는 것인데, 실제로 친구들의 친구 수의 평균은 평균적으로 자신의 친구 수보다 더 크게 나타난다. 이것도 앞에서 본 이유와 같은 이유로 비슷하게 증명할 수 있다. (이 경우는 앞의 연속적인 경우와는 달리 이산적인데 친구 관계를 그래프로 만들어 코시-슈바르츠 부등식으로 증명할 수 있다)

여담이지만 검사 패러독스의 이름은 전구의 오류가 있는지 없는지를 검사하는 일에 대한 Renewal theory에서의 문제에서 유래되었다고. 이 외에도 대기시간 패러독스에 대해서 이 도 읽어볼만하다.

Elegant Math 계정에 작성한 트윗 타래를 정리. (2018/10/28)

References

[1] S. L. Feld, “Why Your Friends Have More Friends Than You Do” American Journal of Sociology, Vol. 96, No. 6 (May, 1991), pp. 1464-1477 https://www.jstor.org/stable/2781907

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중