最長共通部分列問題とは

最長共通部分列問題(Longest Common Subsequence Problem, LCS問題)とは、与えられた二つの列(文字列や数値の配列など)において、両方に共通して存在する部分列の中で、その長さが最も長くなるものを探索する問題を指します。

この問題は、アルゴリズムの分野で古典的な動的計画法(Dynamic Programming)の応用例として知られ、遺伝子配列の比較、ファイル差分検出(diffツール)、盗作検出など、多岐にわたる実世界の問題に応用されています。

最長共通部分列問題の基本的な概念

最長共通部分列問題は、一見するとシンプルな問いですが、その背後には効率的な解法を必要とする計算論的な側面があります。

主な概念は以下の通りです。

  1. 列(Sequence): 要素が順序付けられた並びのことです。文字列(文字の列)や、数値の配列、遺伝子の塩基配列などがこれに該当します。
  2. 部分列(Subsequence): 元の列から0個以上の要素を削除し、残った要素の相対的な順序を変えずに並べたものです。連続している必要はありません。
    • 例: 列「ABCDE」の部分列として、「ACE」「ABD」「BDE」「A」などが挙げられます。「CBA」は相対的な順序が異なるため部分列ではありません。
  3. 共通部分列(Common Subsequence): 二つ以上の列に共通して存在する部分列のことです。
    • 例: 列X「AGGTAB」と列Y「GXTXAYB」の共通部分列として、「GTAB」「GTB」「GAB」などがあります。
  4. 最長(Longest): 共通部分列の中で、要素の数が最も多いものを意味します。LCS問題では、この最長のものを求めます。

LCS問題の具体例

LCS問題を理解するために、具体的な文字列の例を見てみましょう。

  • 列X: 「ABCBDAB」
  • 列Y: 「BDCABA」

これらの二つの列の共通部分列をいくつか挙げると、以下のようになります。

  • 「BCA」
  • 「BCAB」
  • 「BDAB」
  • 「BAB」

この中で最も長い共通部分列の一つは「BCAB」であり、その長さは4です。また、「BDAB」も長さ4の共通部分列です。LCSは一つとは限りません。LCS問題では、この最長となる長さ、またはいずれかの最長共通部分列を求めることが目的となります。

LCS問題の解法:動的計画法(Dynamic Programming)

LCS問題は、その性質上、再帰的な構造を持ち、部分問題の最適解を組み合わせて全体の問題の最適解を導く動的計画法で効率的に解くことができます。素朴にすべての部分列を列挙する方法は、計算量が指数関数的に増大するため現実的ではありません。

動的計画法によるLCS問題の解法では、通常、二次元のテーブル(DPテーブル)を作成します。このテーブルの各セルには、二つの列のプレフィックス(接頭辞)に対する最長共通部分列の長さが格納されます。

DPテーブルの定義

二つの列を X=x1​x2​…xm​ と Y=y1​y2​…yn​ とします。 DPテーブル dp[i][j] を、 X の最初の i 文字 (x1​…xi​) と Y の最初の j 文字 (y1​…yj​) の最長共通部分列の長さと定義します。

漸化式

テーブルの各セル dp[i][j] の値は、以下の漸化式に基づいて計算されます。

  1. 基底ケース: dp[0][j]=0 (Xが空文字列の場合) dp[i][0]=0 (Yが空文字列の場合)
  2. xi​ と yj​ が等しい場合: もし xi​=yj​ ならば、共通部分列にこの文字を追加できるため、一つ前の状態の長さに1を加えます。

 dp[i][j] = dp[i-1][j-1] + 1

  1. xi​ と yj​ が等しくない場合: もし xi​=yj​ ならば、xi​ を含めない場合と yj​ を含めない場合のどちらか長い方を選択します。

 dp[i][j] = \max(dp[i-1][j], dp[i][j-1])

DPテーブルの計算例

例: X=「ABC」,Y=「AC」

AC
000
A011
B011
C012
DPテーブルの計算例

最終的に dp[m][n] の値が最長共通部分列の長さとなります。上記の例では dp[3][2]=2 となり、LCSは「AC」です。

実際のLCSの復元

DPテーブルを逆方向にたどることで、実際の最長共通部分列を復元することができます。dp[i][j] の値が dp[i−1][j−1]+1 から導かれた場合、その文字 (xi​ または yj​) がLCSの一部となります。それ以外の場合は、max(dp[i−1][j],dp[i][j−1]) のどちらから来たかによって、探索方向を決定します。

計算量

この動的計画法による解法の時間計算量は、二つの列の長さをそれぞれ m と n とすると、

O(mn)

となります。これは、すべてのセルを一度ずつ計算するためです。

LCS問題の応用分野

LCS問題は、その性質から多くの実用的な場面で活用されています。

  1. 遺伝子配列の比較: 生物学において、DNAやRNAの配列の類似性を比較し、進化の過程や機能的な関連性を推定するためにLCSの概念が用いられます。
  2. ファイル差分検出(Diffツール): テキストファイルやプログラムのソースコードの二つのバージョン間の変更点(追加、削除、変更)を検出するツール(diffコマンドなど)の多くは、LCSアルゴリズムを応用して、変更されていない共通部分を特定し、効率的に差分を表示します。
  3. 盗作検出/類似性検出: 文書やプログラムコードの類似性を評価し、盗作や複製を検出するために利用されます。共通する文字列の長さやパターンを分析します。
  4. スペルチェック/文字列補正: 誤って入力された文字列と正しい辞書内の単語との間の類似度をLCSに基づいて計算し、最も近い単語を提案する際に利用されることがあります。
  5. データ圧縮: 特に繰り返しが多いデータにおいて、共通部分列を特定することで圧縮効率を高める手法に応用されることもあります。

最長共通部分列問題(Longest Common Subsequence Problem, LCS問題)とは、与えられた二つの列(文字列など)に共通する部分列の中で、最も長いものを探索する問題です。部分列は元の列から要素を削除したものであり、連続している必要はありません。

この問題は、効率的な解法として二次元DPテーブルを用いた動的計画法が用いられ、その計算量は二つの列の長さを m,n とすると

O(mn)

となります。LCS問題は、遺伝子配列の比較、ファイル差分検出(diffツール)、盗作検出、スペルチェックなど、生物学から情報科学まで幅広い分野で応用されており、データ間の類似性を分析するための強力なツールとして機能します。

関連用語

動的計画法 | 今更聞けないIT用語集
最適化問題 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。