Path Compression + Union by Rank | imeimi / Algorithm DB

1정의

경로 압축과 랭크 기반 합치기를 함께 적용하는 기법이다.

2구현

int parent[N], rnk[N];

void init(int n) {
    for (int i = 0; i < n; i++) parent[i] = i, rnk[i] = 0;
}

int find(int x) {
    if (parent[x] == x) return x;
    return parent[x] = find(parent[x]);
}

void unite(int x, int y) {
    x = find(x); y = find(y);
    if (x == y) return;
    if (rnk[x] < rnk[y]) swap(x, y);
    parent[y] = x;
    if (rnk[x] == rnk[y]) rnk[x]++;
}

3시간 복잡도

n개의 원소에 대해 m번의 연산을 수행하는 총 시간 복잡도는 O(m · α(n))이다.

α(n)은 역 아커만 함수(inverse Ackermann function)다.

4증명

4.1아커만 함수와 역 아커만 함수

함수 A_k(j)를 다음과 같이 정의한다 (k ≥ 0, j ≥ 1).

A_k(j) = j + 1 (k = 0)
A_k(j) = A_k−1^(j+1)(j) (k ≥ 1)

여기서 f⁽ⁱ⁾는 f를 i번 반복 적용한 합성 함수다. f⁽⁰⁾(j) = j, f⁽ⁱ⁾(j) = f(f⁽ⁱ⁻¹⁾(j)).

A₁(j) = A₀^(j+1)(j) = j + (j+1) = 2j + 1
A₂(j) = A₁^(j+1)(j) = 2^j+1(j+1) − 1
A₃(1) = A₂⁽²⁾(1) = A₂(A₂(1)) = A₂(7) = 2047

역 아커만 함수 α(n) = min{k : A_k(1) ≥ n}으로 정의한다. n ≤ 2^A₃(1) = 2²⁰⁴⁷이면 α(n) ≤ 4다.

4.2level과 iter 정의

루트가 아닌 노드 x에 대해, rnk(x) ≥ 1이면 다음을 정의한다.

level(x) = max{k : A_k(rnk(x)) ≤ rnk(parent(x))}

iter(x) = max{i ≥ 1 : A_level(x)⁽ⁱ⁾(rnk(x)) ≤ rnk(parent(x))}

rnk(x) = 0이거나 x가 루트이면 정의하지 않는다.

4.3보조 정리 1

루트가 아니고 rnk(x) ≥ 1인 노드 x에 대해 다음이 성립한다.

0 ≤ level(x) ≤ α(n) − 1
1 ≤ iter(x) ≤ rnk(x)

A_α(n)(1) ≥ n이고 n > rnk(parent(x))이므로 A_α(n)(rnk(x)) ≥ A_α(n)(1) ≥ n > rnk(parent(x))다. 따라서 level(x) ≤ α(n) − 1이다.

level(x) = k라 하면 정의에 의해 A_k(rnk(x)) ≤ rnk(parent(x)) < A_k+1(rnk(x))이다. A_k+1(rnk(x)) = A_k^(rnk(x)+1)(rnk(x))이므로 A_k^(rnk(x)+1)(rnk(x)) > rnk(parent(x))이다. 따라서 iter(x) ≤ rnk(x)다. ■

4.4포텐셜 함수

노드 x의 포텐셜 φ(x)를 다음과 같이 정의한다.

φ(x) = α(n) · rnk(x) (x가 루트이거나 rnk(x) = 0)
φ(x) = (α(n) − level(x)) · rnk(x) − iter(x) (그 외)

전체 포텐셜 Φ = ∑_x φ(x)다.

4.5보조 정리 2

모든 노드 x에 대해 0 ≤ φ(x) ≤ α(n) · rnk(x)이다.

x가 루트이거나 rnk(x) = 0일 때는 자명하다.

그 외의 경우, level(x) ≤ α(n) − 1이므로 α(n) − level(x) ≥ 1이다. 따라서

φ(x) = (α(n) − level(x)) · rnk(x) − iter(x) ≥ 1 · rnk(x) − rnk(x) = 0

이다. 또한 iter(x) ≥ 1이므로 φ(x) ≤ (α(n) − level(x)) · rnk(x) ≤ α(n) · rnk(x)이다. ■

보조 정리 2에 의해 초기 상태에서 Φ = 0이고, Φ ≥ 0이 항상 성립한다.

4.6unite의 분할 상환 비용

rnk(x) ≥ rnk(y)일 때 y가 x의 자식이 되었다고 하자.

rnk(x) = rnk(y)이면 rnk(x)가 1 증가하므로 Δφ(x) = α(n). rnk(x) > rnk(y)이면 rnk(x)는 변하지 않으므로 Δφ(x) = 0.
y는 루트에서 비루트가 된다. 보조 정리 2에 의해 새 φ(y) ≤ α(n) · rnk(y) = 이전 φ(y)이므로 Δφ(y) ≤ 0.
rnk(x)가 증가하면 x를 부모로 둔 노드의 level·iter가 증가할 수 있는데, level·iter의 증가는 φ를 감소시킬 뿐이다. 그 외 노드의 포텐셜은 변하지 않는다.

따라서 ΔΦ ≤ α(n)이다. 실제 비용 O(1)을 더하면 unite의 분할 상환 비용은 O(α(n))이다.

4.7find의 분할 상환 비용

find가 경로 v₁, v₂, ⋯, v_l = r을 탐색한다고 하자. 실제 비용은 l − 1이다. 경로 압축 후 v₁, ⋯, v_l−1의 부모가 모두 r로 바뀐다.

인접 쌍 (v_i, v_i+1)을 세 유형으로 분류하여 분할 상환 비용 â = 실제 비용 + ΔΦ를 계산한다.

4.7.1유형 1: rnk(v_i) = 0 또는 v_i = v_l−1

rnk는 경로를 따라 순증가하므로 rnk(v_i) = 0은 i = 1일 때만 가능하다. v_l−1은 루트의 직전 노드로 하나뿐이다. 따라서 유형 1은 최대 2쌍이다.

압축 후 v₁의 rnk는 0으로 불변이고, v_l−1의 부모는 이미 r이므로 두 경우 모두 Δφ = 0이다. 따라서 â₁ = 1이다.

4.7.2유형 2: 경로 상에 j > i이고 level(v_j) = level(v_i)인 j가 존재

level(r)은 정의되지 않으므로 j < l이다. level(v_i) = k, iter(v_i)의 이전/이후 값을 iter_old, iter_new라 하자.

iter의 정의에 의해 A_k^(iter_old)(rnk(v_i)) ≤ rnk(v_i+1) ≤ rnk(v_j)이고, level의 정의에 의해 A_k(rnk(v_j)) ≤ rnk(v_j+1) ≤ rnk(r)이다. 이를 합치면 A_k^(iter_old+1)(rnk(v_i)) ≤ rnk(r)이다.

φ(v_i) = (α(n) − level(v_i)) · rnk(v_i) − iter(v_i)이므로 Δφ(v_i) = −Δlevel(v_i) · rnk(v_i) − Δiter(v_i).

Δlevel(v_i) = 0이면 Δiter(v_i) ≥ 1이므로 Δφ(v_i) ≤ −1이다.
Δlevel(v_i) ≥ 1이면 Δlevel(v_i) · rnk(v_i) ≥ rnk(v_i)이고, Δiter(v_i) ≥ 1 − rnk(v_i) (iter_new ≥ 1, iter_old ≤ rnk(v_i))이므로 Δφ(v_i) ≤ −rnk(v_i) − (1 − rnk(v_i)) = −1이다.

따라서 ΔΦ ≤ −1이므로 â₂ ≤ 1 − 1 = 0이다.

4.7.3유형 3: 그 외

유형 1, 2에 해당하지 않는 쌍이다. 이 경우 경로 상에서 level(v_i)와 같은 level을 가진 후속 노드가 없다. level은 {0, ⋯, α(n) − 1}에 속하므로 유형 3은 최대 α(n)쌍이다.

iter(v_i)의 이전/이후 값을 iter_old, iter_new라 하자.

φ(v_i) = (α(n) − level(v_i)) · rnk(v_i) − iter(v_i)이므로 Δφ(v_i) = −Δlevel(v_i) · rnk(v_i) − Δiter(v_i).

Δlevel(v_i) = 0이면 Δiter(v_i) ≥ 0이므로 Δφ(v_i) ≤ 0이다.
Δlevel(v_i) ≥ 1이면 Δlevel(v_i) · rnk(v_i) ≥ rnk(v_i)이고, Δiter(v_i) ≥ 1 − rnk(v_i) (iter_new ≥ 1, iter_old ≤ rnk(v_i))이므로 Δφ(v_i) ≤ −rnk(v_i) − (1 − rnk(v_i)) = −1 < 0이다.

두 경우 모두 Δφ(v_i) ≤ 0이므로 â₃ ≤ 1이다.

4.7.4결론

â = ∑ â₁ + ∑ â₂ + ∑ â₃ ≤ 2 + 0 + α(n) = O(α(n)).

따라서 m번의 연산에 걸친 전체 시간 복잡도는 O(m · α(n))이다. ■

5하한

이 문제의 분할 상환 하한은 Ω(α(n))이다. O(α(n))은 점근적으로 최적이다.

6참고 문헌

Tarjan, R. E. (1975). Efficiency of a good but not linear set union algorithm. Journal of the ACM, 22(2), 215–225.
Fredman, M. L., & Saks, M. E. (1989). The cell probe complexity of dynamic data structures. Proceedings of the 21st Annual ACM Symposium on Theory of Computing, 345–354.
Cormen, T. H., Leiserson, C. E., Rivest, R. L., & Stein, C. (2009). Introduction to Algorithms (3rd ed.), Chapter 21. MIT Press.

1정의#

2구현#

3시간 복잡도#

4증명#

4.1아커만 함수와 역 아커만 함수#

4.2level과 iter 정의#

4.3보조 정리 1#

4.4포텐셜 함수#

4.5보조 정리 2#

4.6unite의 분할 상환 비용#

4.7find의 분할 상환 비용#

4.7.1유형 1: rnk(vi) = 0 또는 vi = vl−1#

4.7.2유형 2: 경로 상에 j > i이고 level(vj) = level(vi)인 j가 존재#

4.7.3유형 3: 그 외#

4.7.4결론#

5하한#

6참고 문헌#

1정의

2구현