ラベル付き木に対する極大部分木マイニングの計算複雑性

ラベル付き木に対する
極大頻出部分木マイニングの計算複雑性

名古屋大学
甲本健太, 栗田和宏, 小野廣隆

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

スライド情報

center

kentakom1213.github.io/slides/2025-enum-seminar.pdf

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

研究の全体像 (1/2)


頻出グラフとは,グラフの集合に繰り返し現れるような部分グラフである.
また,頻出グラフが他の頻出グラフに部分グラフとして含まれていないとき,
極大頻出グラフという.

center


グラフの集合が与えられたとき,その極大頻出グラフを列挙する問題は
極大頻出グラフマイニング問題と呼ばれ,以下のような応用が知られる.

  • 化学物質のデータベースからのデータ収集
  • XML などの形式で表現された文書の分析
  • RNA 配列からのパターン抽出
2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

研究の全体像 (2/2)


化学物質のデータベースからのデータ収集の例

  • 分子構造は,原子をラベルとしたラベル付きグラフとしてモデル化される
  • 分子構造が近い化合物は互いに似た性質を持つことがある

\to 頻出グラフマイニングにより化合物のデータベースから効率的にデータ収集可能

上がアンフェタミン,下がメチルヘキサンアミン,
どちらも神経を興奮させる作用を持つ.

画像: https://en.wikipedia.org/wiki/Chemical_similarity


さらに,分子構造は次数が小さく,木幅が小さいグラフであることが多い
\to 入力を限定した効率的なアルゴリズムを設計できる場合がある

本研究では,入力を木の集合に制限したときの極大頻出グラフマイニング問題の
計算複雑性について考察した.

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

準備: 頻出グラフ

グラフの集合 G\mathcal{G} とグラフ HH が与えられたとき,G\mathcal{G} の要素で,HH を部分グラフとして含むようなグラフの個数を G\mathcal{G} における HH頻度という.

グラフの集合 G\mathcal{G} と整数 t>0t>0 が与えられたとき,G\mathcal{G} における頻度が tt 以上であるようなグラフを G\mathcal{G}tt-頻出グラフという.また,tt が明らかな場合は単に頻出グラフという.特に t=Gt=|\mathcal{G}| である場合,共通グラフという.


グラフの集合 G\mathcal{G} における
グラフ HH の頻度は 22

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

頻出グラフ列挙問題 (1/2)

極大でない頻出グラフマイニング問題は以下のように定義される.

入力: グラフの集合 G\mathcal{G} と整数 t>0t>0
出力: G\mathcal{G} のすべての tt-頻出グラフからなる集合 Ft\mathcal{F}_t

center


Horváth らにより,木幅有界なグラフの集合に対する FCISM 問題は出力多項式時間で解けることが示されている [1].

[1] Horváth, T., Otaki, K., Ramon, J. (2013). Efficient Frequent Connected Induced Subgraph Mining in Graphs of Bounded Tree-Width. ECML PKDD 2013. https://doi.org/10.1007/978-3-642-40988-2_40

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

頻出グラフ列挙問題 (2/2)

頻出グラフ列挙問題の課題

頻出グラフの数は非常に多くなることがあり,あまり有用ではない情報も含まれる
→ 部分グラフについての包含関係に対する極大性でフィルタリング


center

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

極大頻出グラフ列挙問題

頻出グラフの極大性と極大頻出グラフ列挙問題の定義

グラフの集合 G\mathcal{G}tt-頻出グラフ HH が,G\mathcal{G} の他の tt-頻出グラフに部分グラフとして含まれていないとき,頻出グラフ HH極大であるという.

入力: グラフの集合 G\mathcal{G} と整数 t>0t>0
出力: G\mathcal{G} のすべての極大な tt-頻出グラフからなる集合 Ft\mathcal{F}_t

Kimelfeld らにより,入力を 2 つの木に限定しても MaxFCISM 問題は計算困難であることが示されている [2].

本研究では,入力を限定したときの MaxFCISM 問題の計算複雑性を調べた.

[2] Kimelfeld and Kolaitis. (2013). The complexity of mining maximal frequent subgraphs. PODS '13. https://doi.org/10.1145/2463664.2465222

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

結果

以下の 2 つの定理を示した.

入力を,グラフの集合 G\mathcal{G} に含まれるグラフがラベル付きのスターである場合に限定しても,MaxFCISM 問題は計算困難である.

入力を,G\mathcal{G} に含まれるグラフがすべて高さ 2 のラベルなし木かつ,t=Gt=|\mathcal{G}| である場合に限定したとき,G\mathcal{G} の共通木は一意に定まり,MaxFCISM 問題には多項式時間アルゴリズムが存在する.

本発表では,定理 1,定理 2 の証明の概略を説明する.

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

準備: 列挙アルゴリズムの計算複雑性 (1/2)

列挙アルゴリズムの計算複雑性クラス

列挙アルゴリズム AA出力多項式時間で動作するとは,AA が解をすべて出力するまでにかかる時間が入力サイズと出力サイズの多項式で抑えられることをいう.


本発表では,列挙問題 XX に出力多項式時間アルゴリズムが P=NP\mathsf{P}=\mathsf{NP} でない限り存在しないとき,列挙問題 XX計算困難であるという.

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

準備: 列挙アルゴリズムの計算複雑性 (2/2)

列挙問題の計算困難性の証明法

  • 本研究では,列挙問題を別解問題と呼ばれる決定問題に言い換えて議論する.
  • 別解問題が NP-困難であれば,もとの列挙問題も計算困難である.

別解問題とは?

  • 列挙問題
    • 問題の解をすべて出力する
  • 別解問題
    • 問題と,解の集合 S\mathcal{S} が与えられる
      S\mathcal{S} に含まれていない解が存在するか? (Yes / No)
2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

ラベル付きスターの場合の計算困難性 (1/4)


定理 1 の証明の概略
極大頻出アイテム集合列挙問題の計算困難性から帰着する.


ハイパーグラフ

  • グラフの一般化
  • 頂点集合 VV とハイパーエッジ E (V)E ~(\subseteq V) の集合 E\mathcal{E} の組

頂点 VV を列,ハイパーエッジ E\mathcal{E} を行とする,値が 0,10, 1接続行列を用いて表す.
\rightarrow nn 頂点 mm 辺のハイパーグラフでは,m×nm\times n 行列

center

center

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

ラベル付きスターの場合の計算困難性 (2/4)

m×nm\times n の 2 値行列 AA について,列の部分集合 CCtt-頻出アイテム集合であるとは,AA に,CC に属する全ての要素が 11 である行が tt 行以上あることをいう.

center


C={5,6}C = \{5,6\} と選択すると,
2,4,52,4,5CC に属する要素がすべて 11

\qquad\downarrow

CC33-頻出アイテム集合


頻出アイテム集合についても,包含関係について極大性を定義する.

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

ラベル付きスターの場合の計算困難性 (3/4)

入力: ハイパーグラフ H=(V,E)\mathcal{H} = (V, \mathcal{E}) と整数 t>0t>0
出力: H\mathcal{H} のすべての極大な頻出アイテム集合からなる集合族 Mt\mathcal{M}_t

MaxFIM 問題からラベル付きスターの MaxFCISM 問題への帰着

H\mathcal{H} の各ハイパー辺 EE に対して,根 rrvEv\in E の間に辺を張ったスターを生成する
\rightarrow 生成したスターの集合を G\mathcal{G} とする

center

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

ラベル付きスターの場合の計算困難性 (4/4)

G\mathcal{G} と整数 tt を入力とした MaxFCISM 問題が解けると仮定する.

\rightarrow 得られた 極大 tt-頻出グラフの集合 Ft\mathcal{F}_t から,
  極大 tt-頻出アイテム集合の集合族 Mt\mathcal{M}_t を復元できる

center

Boros らにより MaxFIM 問題は計算困難であることが示されている [3].

よって,MaxFIM 問題の計算困難性から MaxFCISM 問題の計算困難性が示される.

[3] Boros, Gurvich, Khachiyan, and Makino. On Maximal Frequent and Minimal Infrequent Sets in Binary Matrices. Annals of Mathematics and Artificial Intelligence 39, 211–221 (2003). https://doi.org/10.1023/A:1024605820527

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

高さ 2 の木に対する共通木マイニング (1/3)

入力を,G\mathcal{G} に含まれるグラフがすべて高さ 2 のラベルなし木かつ,t=Gt=|\mathcal{G}| である場合に限定したとき,G\mathcal{G} の共通木は一意に定まり,MaxFCISM 問題には多項式時間アルゴリズムが存在する.


次ページ以降では,定理 2 の証明の概略を説明する.

定理 1 とは異なり,グラフがラベルを持たない場合を考える.

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

高さ 2 の木に対する共通木マイニング (2/3)


高さ 22 の根付き木 T1,T2T_1, T_2 を考える.T1,T2T_1,T_2 の深さ 11 の頂点を次数が大きい順にとり,その部分木について極大な共通木をとる.\to 極大共通木はただ一つに定まる.


center


nn 個の高さ 2 の根付き木の場合でも,その極大な共通木はただ一つに定まる.
\to 共通木は多項式時間で出力可能

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

高さ 2 の木に対する共通木マイニング (3/3)


具体的な手法:

高さ 22 以下の木 TT を,
TT の深さ 11 の頂点の次数の多重集合に変換する.
(1 対 1 に対応する)

center


正整数の多重集合 A,BA,B に対して,単射 φ:AB\varphi:A\to B が存在し,任意の xAx\in A について xφ(x)x\le \varphi(x) であるとき,AABB に包含されるという.

このとき,多重集合同士の包含関係は,
グラフの部分グラフ同型性に対する包含関係
に対応する.

center

2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

まとめと今後の展望


今回わかったこと

入力を限定した MaxFCISM 問題について考え,以下の 2 つの定理を示した.

  1. 入力を,グラフの集合 G\mathcal{G} に含まれるグラフがラベル付きのスターである場合に限定しても,計算困難である.

  2. 入力を,G\mathcal{G} に含まれるグラフがすべて高さ 2 のラベルなし木であり,t=Gt=|\mathcal{G}| である場合に限定したとき,多項式時間アルゴリズムが存在する.


今後調べたいこと

定理 2 の設定について,

  • 高さ hh 以下の木の集合に対する共通木マイニングが計算困難になる hh は?
  • 高さ 22 の場合,tt を変えたときの困難性は?
2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

付録: 別解問題の NP-困難性から列挙問題の困難性への帰着

列挙問題を出力多項式時間で解ける \Rightarrow 別解問題を多項式時間で解ける」を示す.

別解問題のインスタンス: グラフの集合 G\mathcal{G},既知の頻出グラフの集合 Ft\mathcal{F}_t

Maximal-FCISM を解く出力多項式時間アルゴリズムを AA とする.
\to ある多項式 ff が存在して,AA は出力のサイズが ss であるようなサイズ ii の入力に対してf(i,s)f(i, s)時間で停止.

T=f(I,S)T = f(|\mathcal{I}|, |\mathcal{S}|) として,アルゴリズム AA を入力 I\mathcal{I} に対して TT 時間動作させる.

  • AA が時間 TT 以内に停止: その出力 O\mathcal{O}S\mathcal{S} を比較することで,
    合計で O(T+OS)O(T + |\mathcal{O}| |\mathcal{S}|) 時間で別解問題を解くことができる.
  • AA が時間 TT 以内に停止しない:
    Ft\mathcal{F}_{t} のサイズは S\mathcal{S} のサイズよりも真に大きいことがわかる.
    \to よって他の解が存在するので,別解問題の答えは YES.
いずれの場合にも別解問題を多項式時間で解くことができる.
2025/03/05-07 列挙アルゴリズムセミナー
ラベル付き木に対する極大部分木マイニングの計算複雑性

付録: 2 つの木に対する極大頻出部分木マイニングの困難性

Kimelfeld らによる証明 [2] の概要

右のような形の根付き木で
CNF 式をシミュレートする.

\qquad \downarrow

SAT の困難性から帰着

(詳細までは読めていない)

画像: [2] Kimelfeld and Kolaitis. (2013). The complexity of mining maximal frequent subgraphs. PODS '13.

2025/03/05-07 列挙アルゴリズムセミナー

頻出グラフとは,グラフの集合に繰り返し現れるような部分グラフです. また,頻出グラフが他の頻出グラフに部分グラフとして含まれていないとき,極大頻出グラフといいます. 例として,下の左側のグラフの集合を考えます.3つのグラフのうち2つ以上に含まれているグラフで,かつ,他の頻出グラフに含まれていないグラフは右の2つになります. 本研究では,入力をラベル付きスターの集合に限定しても,その極大頻出グラフを列挙することは難しいことを示しました.