【社区检测(SBM)】SBM 与社区检测:从信息论阈值到算法极限

SBM 与社区检测:从信息论阈值到算法极限

导读:随机块模型(Stochastic Block Model, SBM)是网络科学中研究社区检测的"标准模型"。本文以 Emmanuel Abbe 的综述《Community Detection and Stochastic Block Models》(2017/2023)为骨架,系统梳理 SBM 社区检测的三大恢复层级——精确恢复(Exact Recovery)、弱恢复(Weak Recovery)与部分恢复(Partial Recovery)——各自对应的信息论阈值与算法可达性。我们将看到:Chernoff–Hellinger 阈值刻画精确恢复的物理边界,Kesten–Stigum 阈值划定弱恢复的相变点,而部分恢复则呈现 SNR–互信息的最优权衡。SDP、谱方法、置信传播及其线性化版本,在不同阈值边界上各显神通。


一、引言:为什么 SBM 是社区检测的"标准模型"

随机块模型(SBM)由 Holland 等人于 1983 年提出,它将网络中的社区结构抽象为一个随机图生成过程:每个节点被赋予一个隐藏的社区标签,边的存在概率仅依赖于其两端节点的社区归属。尽管 SBM 对真实网络的建模存在简化(例如忽略了度分布的异质性),但它提供了一个可控的数学环境,使得我们能够精确回答:

  • 信息论极限:在什么参数范围内,社区结构在原理上可被恢复?
  • 计算极限:在什么范围内,存在多项式时间算法可以达到信息论最优?
  • 统计-计算鸿沟(Statistical-Computational Gap):是否存在信息论可恢复但计算不可行的参数区域?

这些问题使 SBM 成为研究高维统计推断中"相变现象"(phase transitions)的理想试验场。正如 Abbe 在其综述中所言,SBM “提供了一个肥沃的土壤,用于研究网络和数据科学中出现的统计与计算权衡”。

1.1 模型定义

一般 SBM:记为 S B M ( n , p , Q / n ) SBM(n, p, Q/n) SBM(n,p,Q/n),其中:

  • n n n 为节点数;
  • p ∈ ( 0 , 1 ) k p \in (0,1)^k p(0,1)k ∥ p ∥ 1 = 1 \|p\|_1 = 1 p1=1,为各社区的先验概率;
  • Q ∈ ( 0 , ∞ ) k × k Q \in (0,\infty)^{k \times k} Q(0,)k×k 为对称的连接强度矩阵,社区 i i i j j j 之间的边概率为 min ⁡ ( 1 , Q i j / n ) \min(1, Q_{ij}/n) min(1,Qij/n)

对称 SBM(SSBM) k k k 个等大小社区, p i = 1 / k p_i = 1/k pi=1/k Q i i = a Q_{ii} = a Qii=a Q i j = b Q_{ij} = b Qij=b i ≠ j i \neq j i=j)。边概率为 a / n a/n a/n(社区内)和 b / n b/n b/n(社区间)。

1.2 三大恢复层级

社区检测问题根据恢复精度要求,可分为三个层级:

恢复层级定义适用度体制
精确恢复(Exact Recovery)以概率 1 − o ( 1 ) 1-o(1) 1o(1) 正确恢复所有节点的社区标签对数度: a , b = Θ ( log ⁡ n ) a,b = \Theta(\log n) a,b=Θ(logn)
弱恢复(Weak Recovery / Detection)以概率 1 − o ( 1 ) 1-o(1) 1o(1) 恢复的标签与真实标签的相关性严格优于随机猜测常数度: a , b = O ( 1 ) a,b = O(1) a,b=O(1)
部分恢复(Partial Recovery)恢复一定比例(非全部)的节点标签,允许一定错误率常数度或缓慢发散度

社区检测问题

精确恢复
Exact Recovery

弱恢复
Weak Recovery

部分恢复
Partial Recovery

对数度体制
a,b = Θlog n

常数度体制
a,b = O1

常数/缓慢发散度

Chernoff-Hellinger阈值

Kesten-Stigum阈值

SNR-失真权衡


二、精确恢复:Chernoff–Hellinger 阈值

2.1 信息论阈值

在精确恢复问题中,图的平均度随 n n n 对数增长( a , b = Θ ( log ⁡ n ) a,b = \Theta(\log n) a,b=Θ(logn))。Abbe 和 Sandon(2015)证明了一个令人惊讶的结果:精确恢复的信息论阈值完全由一对社区之间的 Chernoff–Hellinger(CH)散度 决定。

定理(Abbe & Sandon, 2015):对于 S B M ( n , p , ln ⁡ ( n ) Q / n ) SBM(n, p, \ln(n)Q/n) SBM(n,p,ln(n)Q/n),精确恢复可解当且仅当

I + ( p , Q ) : = min ⁡ 1 ≤ i < j ≤ k D + ( ( diag ( p ) Q ) i ∥ ( diag ( p ) Q ) j ) > 1 I_+(p, Q) := \min_{1 \leq i < j \leq k} D_+((\text{diag}(p)Q)_i \| (\text{diag}(p)Q)_j) > 1 I+(p,Q):=1i<jkminD+((diag(p)Q)i(diag(p)Q)j)>1

其中 CH 散度定义为:

D + ( μ ∥ ν ) : = max ⁡ t ∈ [ 0 , 1 ] ∑ x ν ( x ) f t ( μ ( x ) ν ( x ) ) , f t ( y ) : = 1 − t + t y − y t D_+(\mu \| \nu) := \max_{t \in [0,1]} \sum_x \nu(x) f_t\left(\frac{\mu(x)}{\nu(x)}\right), \quad f_t(y) := 1 - t + ty - y^t D+(μν):=t[0,1]maxxν(x)ft(ν(x)μ(x)),ft(y):=1t+tyyt

直观理解 D + D_+ D+ 度量了两个社区"连接剖面"(connection profile)之间的差异。当 D + > 1 D_+ > 1 D+>1 时,社区间的统计差异足够大,使得在 n → ∞ n \to \infty n 极限下可以无错地区分所有节点;当 D + < 1 D_+ < 1 D+<1 时,即使拥有无限计算资源,精确恢复也是不可能的。

2.2 对称情形的简化

对于对称 SBM( k k k 个社区, p i = 1 / k p_i = 1/k pi=1/k Q i i = a Q_{ii} = a Qii=a Q i j = b Q_{ij} = b Qij=b),CH 散度在 t = 1 / 2 t = 1/2 t=1/2 处取最大值,退化为 Hellinger 散度,阈值简化为:

1 k ( a − b ) 2 > 1 \frac{1}{k}(\sqrt{a} - \sqrt{b})^2 > 1 k1(a b )2>1

特别地,对于两社区情形( k = 2 k=2 k=2):

( a − b ) 2 > 2 ⟺ ∣ a − b ∣ > 2 (\sqrt{a} - \sqrt{b})^2 > 2 \quad \Longleftrightarrow \quad |\sqrt{a} - \sqrt{b}| > \sqrt{2} (a b )2>2a b >2

这与 Abbe, Bandeira 和 Hall(2016)早期得到的阈值一致。

2.3 算法可达性

值得注意的是,精确恢复的阈值不仅是信息论的,也是计算可达的。Abbe 和 Sandon(2015)提出了基于图分裂(graph splitting)的两轮算法:

  1. 第一轮:将图的边以概率 γ = log ⁡ log ⁡ ( n ) / log ⁡ ( n ) \gamma = \log\log(n)/\log(n) γ=loglog(n)/log(n) 分配到 G 1 G_1 G1,剩余分配到 G 2 G_2 G2 G 1 G_1 G1 的度为 log ⁡ log ⁡ ( n ) \log\log(n) loglog(n),在此发散度下可用简单算法实现"几乎精确恢复"(almost exact recovery,即错误率为 o ( 1 ) o(1) o(1))。
  2. 第二轮:利用 G 1 G_1 G1 得到的几乎精确标签作为"近似神谕"(almost-exact genie),在 G 2 G_2 G2 上对每个节点进行局部 refine,达到精确恢复。

此外,谱方法也可以达到该阈值。在半定规划(SDP)方面,研究表明 SDP 松弛在精确恢复阈值处是紧的,提供了多项式时间的最优算法。
在这里插入图片描述


三、弱恢复:Kesten–Stigum 阈值

3.1 从树重建到图检测

在常数度体制( a , b = O ( 1 ) a,b = O(1) a,b=O(1))下,精确恢复是不可能的(因为存在线性数量的孤立节点),但"弱恢复"——即恢复的标签与真实标签有正相关——仍然有意义。这一问题的研究受到了统计物理的深刻启发。

Decelle, Krzakala, Moore 和 Zdeborová(2011)的开创性论文基于腔方法(cavity method)和置信传播(Belief Propagation, BP)提出了以下猜想:

DKMZ 猜想:对于 k k k 个对称社区,定义信噪比 S N R : = ( a − b ) 2 k ( a + ( k − 1 ) b ) SNR := \frac{(a-b)^2}{k(a+(k-1)b)} SNR:=k(a+(k1)b)(ab)2

  1. 对所有 k k k,当 S N R > 1 SNR > 1 SNR>1(即 Kesten–Stigum 阈值)时,存在高效算法实现弱恢复;
  2. k ≤ 4 k \leq 4 k4,当 S N R < 1 SNR < 1 SNR<1 时,弱恢复在信息论上是不可能的;
  3. k ≥ 5 k \geq 5 k5,存在 S N R < 1 SNR < 1 SNR<1 的区域,弱恢复信息论上可能但计算上困难。

3.2 Kesten–Stigum 阈值

KS 阈值 S N R = 1 SNR = 1 SNR=1 等价于:

( a − b ) 2 k ( a + ( k − 1 ) b ) = 1 ⟺ ( a − b ) 2 = k ( a + ( k − 1 ) b ) \frac{(a-b)^2}{k(a+(k-1)b)} = 1 \quad \Longleftrightarrow \quad (a-b)^2 = k(a+(k-1)b) k(a+(k1)b)(ab)2=1(ab)2=k(a+(k1)b)

对于两社区情形( k = 2 k=2 k=2),这简化为 ( a − b ) 2 > 2 ( a + b ) (a-b)^2 > 2(a+b) (ab)2>2(a+b)

KS 阈值的深层含义来自树上的广播过程(broadcast process on trees)。在 SBM 的局部邻域中,图的分布近似于一个 Galton-Watson 树,而社区标签的传播类似于树上的马尔可夫广播过程。Kesten 和 Stigum(1966)证明了:在树上,当且仅当 d λ 2 > 1 d\lambda^2 > 1 dλ2>1 d d d 为平均度, λ \lambda λ 为广播信道的第二特征值)时,根节点的标签可以从叶子节点的信息中重建。SBM 中的 S N R SNR SNR 正好对应于这一条件。

3.3 算法进展:谱救赎

DKMZ 猜想的正向部分(高效算法在 S N R > 1 SNR > 1 SNR>1 时可达)在 2014-2015 年间被多项工作证明:

1. 非回溯矩阵(Nonbacktracking Matrix)

Krzakala 等人(2013)提出了"谱救赎"(spectral redemption)猜想:非回溯矩阵(记为 B B B)的谱可以克服传统邻接矩阵在稀疏图上的谱退化问题。 B B B 是一个 2 m × 2 m 2m \times 2m 2m×2m 的矩阵( m m m 为边数),索引为图的有向边, B ( i → j ) , ( k → l ) = 1 j = k 1 i ≠ l B_{(i\to j), (k\to l)} = \mathbb{1}_{j=k}\mathbb{1}_{i\neq l} B(ij),(kl)=1j=k1i=l

Bordenave, Lelarge 和 Massoulié(2015)严格证明了:对于两社区对称 SBM,当 ( a − b ) 2 > 2 ( a + b ) (a-b)^2 > 2(a+b) (ab)2>2(a+b) 时, B B B 的第二特征值从"Bulk"中分离出来,其对应的特征向量携带社区信息,从而实现了弱恢复。

2. 自回避行走(Self-avoiding Walks)

Massoulié(2014)提出了基于自回避行走计数的谱方法,同样达到了 KS 阈值,但计算复杂度为 O ( n 1 + ϵ ) O(n^{1+\epsilon}) O(n1+ϵ)

3. 线性化置信传播(Linearized BP)

置信传播(BP)在 SBM 上的不动点方程可以线性化,得到与谱方法等价的算法。Abbe 和 Sandon(2015)提出了无环置信传播(Acyclic Belief Propagation, ABP),并证明其在一般 SBM 上达到 KS 阈值,时间复杂度为 O ( n log ⁡ n ) O(n \log n) O(nlogn)

弱恢复算法谱系

置信传播 BP

线性化 BP

非回溯矩阵 B

谱救赎
Krzakala et al. 2013

Bordenave et al. 2015
严格证明

ABP
Abbe & Sandon 2015

自回避行走

Massoulié 2014

Bethe Hessian

Saade et al. 2014

3.4 信息论不可能性

Mossel, Neeman 和 Sly(2015)证明了对于两社区情形,当 ( a − b ) 2 ≤ 2 ( a + b ) (a-b)^2 \leq 2(a+b) (ab)22(a+b) 时,弱恢复在信息论上是不可能的——即没有任何算法(即使计算时间无限)可以做得比随机猜测更好。他们的证明基于将 SBM 与 Erdős-Rényi 随机图耦合,展示了两个模型在此区域是相邻的(contiguous)。

最近,Mossel, Sly 和 Sohn(2023)进一步证明了对 k = 3 , 4 k=3,4 k=3,4 社区,当平均度足够大时,KS 阈值也是信息论紧的,解决了 DKMZ 猜想的剩余部分。


四、部分恢复:SNR–失真的最优权衡

4.1 问题设定

部分恢复介于弱恢复和精确恢复之间,要求在允许一定比例错误的前提下,尽可能多地恢复节点标签。在常数度体制下,SNR 定义为:

S N R : = ( a − b ) 2 k ( a + ( k − 1 ) b ) = O ( 1 ) SNR := \frac{(a-b)^2}{k(a+(k-1)b)} = O(1) SNR:=k(a+(k1)b)(ab)2=O(1)

这一体制下,最优的"失真-信噪比"(distortion-SNR)权衡是核心问题。

4.2 最优失真与树广播

Mossel, Neeman 和 Sly(2013)证明了一个深刻的结果:当 SNR 足够大时,SBM 中部分恢复的最优错误率由树上的广播问题决定。具体来说,考虑一个无限 d d d-正则树,根节点标签通过信道 P ( σ c h i l d ∣ σ p a r e n t ) P(\sigma_{child} | \sigma_{parent}) P(σchildσparent) 广播到叶子。当树的深度趋于无穷时,叶子节点包含的关于根节点标签的信息量决定了 SBM 中可恢复的最优比例。

这一结果将图上的推断问题与树上的重建问题联系起来,体现了 SBM 的局部-全局对应(local-to-global correspondence)。

4.3 互信息与 MMSE

Deshpande, Abbe 和 Montanari(2015)以及 Mossel 和 Xu(2015)在有限 SNR 且度缓慢发散的体制下,给出了互信息 I ( X ; G ) / n I(X; G)/n I(X;G)/n 的渐近表达式,以及最小均方误差(MMSE)的精确公式。

对于两社区对称 SBM,当 a , b → ∞ a,b \to \infty a,b S N R = ( a − b ) 2 2 ( a + b ) SNR = \frac{(a-b)^2}{2(a+b)} SNR=2(a+b)(ab)2 固定时,归一化互信息的极限存在,且 MMSE 可以通过固定点方程计算。这一结果与尖峰维格纳模型(spiked Wigner model)的推断理论密切相关。

4.4 部分恢复的算法

在部分恢复体制下,多种算法可以接近最优权衡:

  • 谱方法:Yun 和 Proutière(2014)以及 Chin 等人(2015)的谱算法达到了 C exp ⁡ ( − S N R / 2 ) C \exp(-SNR/2) Cexp(SNR/2) 的错误率。
  • BP 及其变体:在已知模型参数时,BP 可以接近最优的失真-SNR 权衡。
  • 图幂运算(Graph Powering):Abbe, Boix-Adserà, Ralli 和 Sandon(2020)提出了图幂运算方法,通过对图的邻接矩阵进行幂运算来增强社区信号,提高谱方法的鲁棒性。

部分恢复: SNR-失真权衡

SNR 增大

错误率下降

最优权衡曲线

谱方法

错误率 ~ exp-c·SNR

BP方法

接近最优

图幂运算

增强鲁棒性

树上广播
决定极限


五、信息-计算鸿沟:当统计可行遇上计算困难

5.1 四社区之谜

DKMZ 猜想最引人注目的部分是:当社区数 k ≥ 4 k \geq 4 k4 时,可能存在一个信息-计算鸿沟(information-computation gap)——即在 KS 阈值之下、某个信息论阈值之上的区域,弱恢复在原理上是可能的,但没有任何已知的多项式时间算法可以实现。

Abbe 和 Sandon(2015, 2018)证明了这一猜想的正向部分:对于 k ≥ 4 k \geq 4 k4 的对称 SBM,存在非高效算法可以在 S N R < 1 SNR < 1 SNR<1 时实现弱恢复。具体来说,他们通过采样一个"典型聚类"(typical clustering)——即具有正确边比例的非高效算法——展示了信息论恢复的可能性。

Banks, Moore 等人(2016)进一步刻画了信息论阈值随 k k k 增长的标度行为:当 a = 0 a = 0 a=0 时,KS 阈值要求 b ≳ k 2 b \gtrsim k^2 bk2,而信息论阈值仅要求 b ≳ k log ⁡ k b \gtrsim k \log k bklogk,鸿沟随 k k k 增大而扩大。

5.2 低阶多项式困难性证据

虽然严格证明计算困难性超出了现有复杂度理论的能力,但 低阶多项式方法(low-degree polynomial method)为计算鸿沟提供了有力证据。Hopkins 和 Steurer(2017)以及后续工作表明,在 KS 阈值之下,低阶多项式无法检测社区结构,而这类方法可以近似大多数已知的多项式时间算法(包括谱方法和 AMP)。

最近,Sohn 和 Wein(2025)进一步证明了在 q ≪ n q \ll \sqrt{n} qn 时,SBM 恢复在低阶意义下是困难的。

5.3 三社区与四社区的精确相变

Mossel, Sly 和 Sohn(2023)的最新工作精确刻画了 k = 3 , 4 k=3,4 k=3,4 时的相变:对于足够大的平均度 d d d,当 d λ 2 ≤ 1 d\lambda^2 \leq 1 dλ21 时,弱恢复在信息论上是不可能的。这意味着对于 k = 3 , 4 k=3,4 k=3,4不存在信息-计算鸿沟——KS 阈值就是信息论阈值。

然而,对于 k = 4 k=4 k=4 λ < 0 \lambda < 0 λ<0(反铁磁情形),存在一个临界度 d ∗ d^* d:当 d < d ∗ d < d^* d<d 时,KS 阈值不是紧的,信息论恢复可以在 d λ 2 < 1 d\lambda^2 < 1 dλ2<1 时实现;当 d > d ∗ d > d^* d>d 时,KS 阈值恢复紧性。对于 k ≥ 5 k \geq 5 k5,KS 阈值在铁磁和反铁磁区域都不是紧的。

信息-计算鸿沟 k≥4

弱恢复区域

KS阈值之上
高效算法可达

KS阈值与IT阈值之间
仅非高效算法可达

IT阈值之下
信息论不可能

多项式时间

超多项式时间

不可能

k≥5

无鸿沟
KS=IT

大d时无鸿沟
小d时可能有

存在鸿沟


六、算法工具箱:从谱方法到图幂运算

6.1 半定规划(SDP)

SDP 通过将离散的社区分配问题松弛为半定规划问题,提供了天然的鲁棒性。对于精确恢复,SDP 在 CH 阈值处是紧的。对于弱恢复,Montanari 和 Sen(2016)的 SDP 方法随着平均度增加而接近 KS 阈值。

SDP 的优势在于对对抗性扰动的鲁棒性:Makarychev 等人(2016)证明了 SDP 可以容忍 o ( n ) o(n) o(n) 条对抗边的添加。

6.2 非回溯谱方法

非回溯矩阵 B B B 的核心优势在于:在稀疏随机图中, B B B 的谱行为比邻接矩阵更"干净"——其特征值分布在一个半径为 ρ ( B ) \sqrt{\rho(B)} ρ(B) 的圆盘内,而社区信号对应的特征值位于圆盘之外。

Bordenave, Lelarge 和 Massoulié(2015)的严格分析表明:对于一般 SBM(不一定对称),当第二特征值 ∣ λ 2 ∣ |\lambda_2| λ2 满足某些条件时,非回溯方法可以检测社区。

Bethe Hessian 是另一种对称化的替代方案,由 Saade 等人(2014)提出,同样可以达到 KS 阈值。

6.3 图幂运算与谱鲁棒性

图幂运算(Graph Powering)是近年来提高谱方法鲁棒性的重要技术。Abbe 等人(2020)提出了通过对邻接矩阵进行幂运算 A ( ℓ ) A^{(\ell)} A()(其中 A i j ( ℓ ) A^{(\ell)}_{ij} Aij() 表示长度恰好为 ℓ \ell 的路径数)来增强社区信号。当 ℓ ∼ κ log ⁡ n \ell \sim \kappa \log n κlogn 时,图幂运算可以:

  1. 放大信号:社区内路径数与社区间路径数的差距随 ℓ \ell 指数增长;
  2. 抑制噪声:随机图中的短环被有效控制;
  3. 提高鲁棒性:对对抗性添加的小团(cliques)不敏感。

6.4 算法阈值对照表

算法精确恢复弱恢复部分恢复鲁棒性
SDP达到 CH 阈值接近 KS 阈值(大 d d d次优强(对抗 o ( n ) o(n) o(n) 边)
非回溯谱不适用(常数度)达到 KS 阈值( k = 2 k=2 k=2良好弱(对小团敏感)
线性化 BP不适用达到 KS 阈值(一般 k k k接近最优中等
图幂运算不适用达到 KS 阈值良好
两轮算法达到 CH 阈值不适用不适用中等

七、开放问题与未来方向

尽管 SBM 社区检测的理论已相当成熟,仍有若干核心问题待解:

7.1 部分恢复的精确极限

在常数度体制下,对于任意有限 SNR,部分恢复的最优失真-SNR 权衡仍是开放问题。Mossel 等人(2013)的结果仅在 SNR 足够大时成立。对于有限 SNR, I ( X ; G ) / n I(X;G)/n I(X;G)/n 的极限是否存在?其表达式如何?这些问题在 disassortative 情形( λ < 0 \lambda < 0 λ<0)已有部分进展,但 assortative 情形( λ > 0 \lambda > 0 λ>0)仍待解决。

7.2 信息-计算鸿沟的严格化

对于 k ≥ 5 k \geq 5 k5,虽然低阶多项式方法提供了计算困难的证据,但严格的计算下界(例如基于平均情形复杂度假设如 planted clique 假设的归约)仍然缺失。能否证明在 KS 阈值之下,某种标准的计算复杂性假设蕴含社区检测的困难性?

7.3 超越 SBM

真实网络往往偏离 SBM 的理想假设:度分布异质性(degree-corrected SBM)、重叠社区(overlapping communities)、动态网络、带节点属性的网络(contextual SBM)等。如何将 SBM 的阈值理论推广到这些更现实的模型?

7.4 学习 SBM 参数

在未知参数 ( p , Q ) (p, Q) (p,Q) 的情况下,能否在达到恢复阈值的同时高效学习这些参数?对于精确恢复,参数学习相对简单;但对于弱恢复,参数估计与社区检测的耦合带来了新的挑战。


八、总结:物理边界与算法对照

SBM 社区检测的研究揭示了一个优美的理论图景:

  1. 精确恢复的物理边界由 Chernoff–Hellinger 散度 刻画, D + > 1 D_+ > 1 D+>1 是充要条件,且该阈值可被高效算法达到。

  2. 弱恢复的相变点由 Kesten–Stigum 阈值 S N R = 1 SNR = 1 SNR=1 决定。对于 k = 2 , 3 k=2,3 k=2,3 以及 k = 4 k=4 k=4(大 d d d 时),这是信息论紧的;对于 k ≥ 5 k \geq 5 k5,信息论阈值严格低于 KS 阈值,产生信息-计算鸿沟。

  3. 部分恢复呈现 SNR-失真最优权衡,大 SNR 时由树上广播问题决定极限。

  4. 算法层面:SDP 提供鲁棒的最优解;非回溯谱方法和线性化 BP 在 KS 阈值处实现弱恢复;图幂运算增强了谱方法的鲁棒性;两轮算法通过"局部到全局放大"实现精确恢复。

SBM 社区检测全景图

参数空间

对数度体制
a,b = Θlog n

常数度体制
a,b = O1

精确恢复

弱恢复

部分恢复

Chernoff-Hellinger
阈值: D+ > 1

Kesten-Stigum
阈值: SNR > 1

SNR-失真
权衡曲线

SDP
两轮算法

非回溯谱
线性化BP
图幂运算

谱方法
BP变体

信息-计算鸿沟
k ≥ 4时可能出现


参考文献

  1. Abbe, E. (2017/2023). Community Detection and Stochastic Block Models: Recent Developments. Journal of Machine Learning Research, 18(1), 6446-6531. arXiv:1703.10146

  2. Abbe, E., & Sandon, C. (2015). Community detection in general stochastic block models: Fundamental limits and efficient algorithms for recovery. FOCS 2015.

  3. Abbe, E., & Sandon, C. (2018). Proof of the achievability conjectures for the general stochastic block model. Communications on Pure and Applied Mathematics, 71(7), 1334-1406.

  4. Abbe, E., Bandeira, A. S., & Hall, G. (2016). Exact recovery in the stochastic block model. IEEE Transactions on Information Theory, 62(1), 471-487.

  5. Abbe, E., Boix-Adserà, E., Ralli, P., & Sandon, C. (2020). Graph powering and spectral robustness. SIAM Journal on Mathematics of Data Science, 2(1), 132-157.

  6. Bordenave, C., Lelarge, M., & Massoulié, L. (2015). Non-backtracking spectrum of random graphs: Community detection and non-regular Ramanujan graphs. FOCS 2015.

  7. Decelle, A., Krzakala, F., Moore, C., & Zdeborová, L. (2011). Asymptotic analysis of the stochastic block model for modular networks and its algorithmic applications. Physical Review E, 84(6), 066106.

  8. Deshpande, Y., Abbe, E., & Montanari, A. (2015). Asymptotic mutual information for the two-groups stochastic block model. arXiv:1507.08685.

  9. Krzakala, F., Moore, C., Mossel, E., Neeman, J., Sly, A., Zdeborová, L., & Zhang, P. (2013). Spectral redemption in clustering sparse networks. PNAS, 110(52), 20935-20940.

  10. Massoulié, L. (2014). Community detection thresholds and the weak Ramanujan property. STOC 2014.

  11. Mossel, E., Neeman, J., & Sly, A. (2015). Reconstruction and estimation in the planted partition model. Probability Theory and Related Fields, 162(3-4), 431-461.

  12. Mossel, E., Neeman, J., & Sly, A. (2018). A proof of the block model threshold conjecture. Combinatorica, 38(3), 665-708.

  13. Mossel, E., Sly, A., & Sohn, Y. (2023). Exact phase transitions for stochastic block models and reconstruction on trees. STOC 2023.

  14. Banks, J., Moore, C., Vershynin, R., Verzelen, N., & Xu, J. (2016). Information-theoretic bounds and phase transitions in clustering, sparse PCA, and submatrix localization. arXiv:1607.05222.

  15. Hopkins, S. B., & Steurer, D. (2017). Bayesian estimation from few samples: community detection and related problems. arXiv:1710.00264.


后记:SBM 的研究展示了理论计算机科学、概率论、统计物理和信息论之间的深刻联系。从 DKMZ(2011)的物理猜想到 Abbe & Sandon(2015-2018)的严格证明,从 Mossel-Neeman-Sly 的树上重建到 Bordenave-Lelarge-Massoulié 的谱救赎,这一领域在过去十年中经历了爆炸式的发展。对于从业者而言,理解这些阈值不仅具有理论意义——当你面对一个真实的社区检测问题时,计算 CH 散度或 SNR 可以告诉你:这个问题在原理上是否可解?需要多强的算法?这正是"物理边界"思维的价值所在。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VectorShift

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值