タンパク質リード最適化のための「バカの手引き」

または、Cradle-1 パイプラインの仕組みを理解することです。リード最適化とは、薬物設計におけるプロセスの一人で、「ある程度機能する分子」を入手し、それを「実際に役立つもの」へと変える段階を指します。実世界の多くの設計キャンペーンが成功に導かれたり、頓挫したりするのは、まさにこのステップにおいてとされることが多くあります。私の友人たちの尽力のおかげで、最近、タンパク質に対するリード最適化を機械学習（ML）を用いて実施することに興味を持つようになりました。数週間を通じて、彼らは私の極めて初歩的な質問にも親切に対応してくれました。本稿では、彼らから学んだことを共有し、これが皆さんにとってもこの魅力的な分野についてより深く理解する助けになれば幸いです。どの分野においても、文献には明言されず、新人にとって混乱を招くことがあります。ここでは、実際に機能するように実証されている系から学びながら、リード最適化のために真正の実システムを構築する方法について考えを進めていきます。

まず、本題に入る前に「タンパク質とは何か」という問いですが、これに完全に答えるには複数の教科書や学位が必要になるでしょう。私の生物学に関する知識は、フィリップ・ボール（Philip Ball）著『生命の働き方』という一冊の本を読み通す程度のものであるため、「生物学に関する質問への答えは何もかも恣意的かつ複雑で arcane（奥深い・難解な）」ものだと確信しています。したがって、今はタンパク質とは「生命を維持するほぼすべてのプロセスにおいて不可欠な一部である分子の一群」と述べるのに十分でしょう。タンパク質は、20 種類の異なるアミノ酸と呼ばれるより小さな分子の鎖です。1 この性質から、タンパク質は文字列として表すことができ、各文字は異なるアミノ酸を表し、アルファベットの「B」「J」「O」「U」「X」「Z」を除いた残りの文字すべてを使用します。2 例えば、酸素を細胞内へ輸送する機能を担うミオグロビンというタンパク質は、以下の文字列として記述できます：

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG

特定のアミノ酸の組み合わせが与えられた場合、この鎖は固定された立体構造へと折りたたまれ、そのタンパク質が機能を発揮することを可能にします。配列からそのフォールド（折りたたみ）形状を予測することは、控えめに言っても極めて非自明な問題であり、これをある程度「解決」してノーベル化学賞を受賞したのが AlphaFold-2 モデルです。重要なのは、アミノ酸の組み合わせには多様があり、かつ大半は規則的な予測可能な形状に折りたたまれず、何ら有益な機能も発揮しないということです。3 折りたたんだミオグロビンの見た目はこのようになります：

通常タンパク質は約 300 のアミノ酸から構成されますが、最大のものとしておかしな名前の「PKZILLA」があり、4 万以上ものアミノ酸を含んでいる場合もある一方、最小では 20 個であることもあります。人類の細胞内で機能を果たす推定されるタンパク質の種類は、8 万から 40 万の間にあるとされています。ここで注意すべきは、アミノ酸が結合してタンパク質を形成する際、それぞれの成分は「残基（residue）」と呼ばれる点です。自然界に存在するタンパク質は進化の結果であり、このためタンパク質を進化論的な類似性に基づいて家族に分類することができます。これらの家族内では、各タンパク質を代表する配列の大部分が同一であることが多いです。これでタンパク質について大まかには理解したところで、「タンパク質設計とは何か」について考えてみましょう。

タンパク質設計の究極の目標は、特定の機能を発揮する新しい分子を生成することにあります。この機能は、特定の化学反応を触媒することから、疾患原因分子への結合に至るまで幅広く及ぶ可能性があります。リード最適化は、その設計プロセスにおいて最も重要なステップの一つです。我々は、ある程度の機能はあるが、最終目標には至らない既存のテンプレート分子が存在すると仮定します。この分子は、以前失敗した設計キャンペーンの結果、あるいは別のモデルによってデ・ノボ（つまりゼロから）で生成されたもの、または自然界から選定されたものであってもよいでしょう。リード最適化のプロセスとは、この初期分子に対して変更を提案し、最終的には手掛けている課題におけるその性質を向上させることを目的とします。実際には、タンパク質の該当事業に対する機能は単一の数字で表現できることはまれであり、通常は複数の性質を同時に考慮する必要があり、それらの性質間でトレードオフが起きることが一般的です。簡略化のために、本稿では基本的に一つの性質だけを最適化しているかのように説明しますが、実際の状況は多目的最適化であることを念頭においてください。

リード最適化のプロセスは、候補となる変更案を提案し、それを実験室でテストし、その結果を組み込んでさらに新しい変更を提案するという手順を繰り返すことで進みます。従来このプロセスが行われたのは、「指向的進化（directed evolution）」を用いた方法であり、本質的にはランダムな変異を導入し、それらをテストして機能を改善したものだけを留め置き、さらに変異を加えるというループを回して、十分なパフォーマンスに達するまで続けるものでした。我々が膨大な量のタンパク質データベースを持ち、深層学習の圧倒的な力を備えている現在では、おそらくもっと良い成果を出せるはずです。5 実際、すでにそのような試みも行われています！

Cradle とは、機械学習（ML）に基づくタンパク質リード最適化システムを販売するバイオテクノロジー企業のスタートアップです。彼らは自社のウェットラボ（実験室）を運営しており、モデルの提案と実験的フィードバックとの間のループを密に保つことを可能にする独自の能力を持っていると主張している点で、バイオ・ML 企業としては少々異彩を放っています。そのシステムは市場においてリーダー的存在であり、世界中最大の製薬企業のいくつか（例：ノボノルディスク、バイエル、J&J など）と協力しています。Cradle はこれまで、様々な文脈において素晴らしい結果を披露してきました。最近、彼らは自身のシステムの全体像を説明するホワイトペーパーを発行しました。以下がそのものです：

[図略]

混乱しましたか？私もそうでした！心配しないでください。このシリーズ記事の最後まで読むことで、ここで行われていること、そしてなぜこれら色とりどりのボックスが必要なのかについて十分に理解できるでしょう。本部分では、ベースモデルの構造、ファインチューニングによってより有用な提案を生み出すようにモデルを誘導するプロセス、および与えられたタンパク質の性質を推定する方法について取り扱います。次のエディションでは、このモデルを実際に使ってさらにテストを行うためのタンパク質を生成する方法についても解説します。

ベースモデル

大図には多くのモデルが描かれており、恐ろしく多い数量に見えますが、実際にはほとんどは同一の基本的な骨格である「トランスフォーマーベースのタンパク質言語モデル」の tweaked（調整された）バージョンに過ぎません。これを理解すれば、このパイプラインを理解する上で長足が進めることができます。標準的な言語モデリングのパラダイム（Claude や ChatGPT などを動かす仕組み）は本質的に「次のトークンの予測」に基づいています。トークンとは単語や単語の一部を指し、我々はモデルに文脈から次の単語を予測させる任务を与えます。通常、 vocab（語彙）内の多数の単語に対応して 1 万個以上の可能なトークンが存在します。このパラダイムをタンパク質モデリングに直接適用するには、膨大な語彙を持つ単語を、20 種類の異なるアミノ酸という語彙に入れ替えるだけでよく、なぜならタンパク質はまさにこれらの配列だからです。モデルを訓練するためには、タンパク質配列のデータセットを取り、一部の残基を隠蔽し、他の周囲の残基に基づいてその位置にあったアミノ酸を予測させます。これは、標準的な言語モデルで行うように配列の末端を隠蔽する（次のトークン予測と呼ばれる方法）か、または配列の真ん中の残基を隠蔽する（マスクド・ランゲージ・モデリングと呼ばれる方法）かのどちらかで実施できます。Cradle パイプライン内のベースモデルは後者のアプローチを採用しているため、ここではその点に焦点を当てます。問題の大まかな形はこのようになります：

M K T A [?] G L S E R ... | L ██████ 0.42 V ███ 0.28 I █ 0.15 ...

ベースモデルは、不足している位置に埋められる可能性のあるアミノ酸に対して確率の分布を生成します。Cradle パイプラインの第一歩は、このモデル構造を取り、数千万個に及ぶ天然タンパク質のデータセットで訓練することです。これは、図中の「pre-training」とラベルされた部分の上側で行われていることです。ここでは、天然タンパク質の特徴について何らかのことを学んだモデルを生成するという考えがあります。実際、このようなモデルはそれ自体が有用であり、特定の編集によってタンパク質が破壊される（つまり、不秩序になったり発現しなくなったりする）可能性を理解する方法を与えてくれます。モデルは、特定の位置に配置すべき残基についての提案を与えるものです。例えば、既知のタンパク質中の「G」を隠蔽したとき、モデルがその位置が 0.001% の確率で「W」であり、40% の確率で「V」であるとの予測をした場合、それは「W」を含むタンパク質は機能する可能性が低いと結論付けられます。モデルは、そのような外観を持つタンパク質を自然界ではかつて見たことがないと述べているのです。我々は長い進化の歴史によって現在存在するタンパク質セットが生み出されたため、そうでないものは有用でないだろうと考えます。ただし、これが絶対的な真実ではないことに留意してください。非常に自然なものとは異なりながら機能を持つタンパクが存在する可能性があり、これらは定義により機械学習でモデル化する際、データが極めて少ないため非常に困難です。

これでベースモデルの役割（個々のアミノ酸に対する特定の編集がどれほど「自然的」かを予測すること）を理解したところで、図上側の 3 つのボックスについて説明できます。ここで次のセクションへと移れますが、こちらはより多くの要素が含まれています。

Evotuning（進化的微調整）

天然タンパク質の空間は非常に広大かつ多様です。リード最適化のプロセスとは、タンパク質を特定の用途に適合させるようにその機能を改善することにあります。全てのタンパク質の空間で訓練されたモデルを使用する場合、我々が最適化しようとする特定の機能の詳細については模型は unaware（無知）であり、それはあまりにも一般的すぎます。ベースモデルは自然的な提案を行うことができますが、それが我々の用途にとっては全く役に立たないことも考えられます。どのようにしてモデルをより関連性の高い提案を行わせるように誘導できるでしょうか？答えは「ファインチューニング」を使うことです。

ファインチューニングとは、より一般的なモデルを特定のタスクで良好に動作させるために、そのタスクから代表例となるデータセットを訓練によって適応させるプロセスです。リード最適化においては、ある程度の機能を既に有する単一のテンプレートタンパク質から始め、その機能をさらに向上させたいと考えています。我々は、モデルが機能する可能性が高いタンパク質を提案するように誘導するためのファインチューニングタスクを形成します。これは、テンプレートと進化論的に関連すると考えられる全ての天然タンパク質を見つけて、それらでモデルを訓練することで実現できます。考え方としては、これらが進化論的に関連していれば、おそらくある機能を共有しているということです。我々はモデルにこの全体のタンパク質空間の一部に「焦点」を合わせるようにさせたいのです。

テンプレート用の MSA（多重配列並列化）を形成するには、いわゆる MSA を使用します。MSA を完全に理解することは別の大きな話題になりますが、大まかな考え方は 2 つの要素からなります：第一に、巨大なタンパク質配列データベースを検索して、テンプレートと統計的に共通の祖先を共有している可能性が高いもの（これらはホモログと呼ばれます）を見つけます。次にそれらを並列化し、すなわち残基単位で揃えて配置し、同じ構造または機能の役割を果たす位置が重なり合うようにします。これは複雑であり、全てのホモログが同じ長さであるとは限らないため、挿入や欠失を考慮する必要があります。これを完了した後、配列に関する追加情報を得ることができます。以下にいくつかのアスキーアートで図示しました：

Query : M K T A Y G L S E R N Hit 1 : M K S A Y G L T E R N (91% similar) Hit 2 : L K T A Y G L S D R N (81% similar) Hit 3 : M R T A Y G I S E K N (73% similar) ───────────────────── Conserv. : x x x ✔ ✔ ✔ x x x x ✔

この例では、データベースから 3 つの類似配列が返されますが、実際には数千になります。いくつかの位置（4、5、6、11 など）で全てのタンパク質が同一のアミノ酸を共有しており、これは「保存（conserved）」されています。したがって、我々がさらにテストのために提案するあらゆるタンパク質において、これらの位置も同様に同じであるべきと十分に確信できます。実際のタンパク質においては、特定の位置だけでなくモチーフ（例えば本例の「AYG」のようなアミノ酸配列）が保存されることもあります。

テンプレートの MSA が得られたら、事前訓練済みモデルを取って、それらの配列でさらに訓練します。これにより、モデルは問題となるタンパク質の進化的文脈と一貫性のある提案を行うようになり、その提案がより機能を持つ可能性が高まると期待されます。このプロセスは「進化的微調整（evolutionary fine-tuning）」または略して「evotuning」と呼ばれます。これでファインチューニングセクションの上側の行で何が起きているかの大体な理解を得たことになります。ここで注意すべきは、MSA ボックスから"Potts-like"へ向かう矢印も存在する点です。これは次回の投稿で取り扱いますが、MSA の情報も生成において有用であり、タンパク質の構造にとって重要な位置に関する情報を教えてくれるからです。

実験室はどうだろうか？

リード最適化問題を導入した際、鍵となるステップの一つは実験室でタンパク質の機能をテストすることです。全体のプロセスの最終目標はこの測定値を最適化する 것이며、我々はこの情報をどのようにプロセスに取り込むかについて考えます。このセクションでは、順序 - 測定値ペアを用いてモデルをより良いスコアを獲得する可能性が高いタンパク質を提案するように誘導する方法、および実際に将来の候補の予測スコアを推定するためにモデルを適応させる方法について議論します。

まず、これらの測定値が実際に見てどのような形をしているかについて少なくとも表面的な理解を得る必要があります。生物学において、物質（本例ではタンパク質）の機能の側面を測定する実験室テストは「アッセイ（assay）」と呼ばれます。このアッセイが測定するのは、最適化しようとしている機能によって大きく異なりますし、前述した通り、単一のアッセイ走査で通常複数の測定値が一気に入って返されるためです。我々は同時に複数の性質を気にする傾向があるからです。ここで重要なのは、測定値は我々が関心のある真の機能に対する不正確な代理指標にほぼ常に過ぎるという点です。例えば、我々が本当に気になっているのはタンパク質が混濁した生細胞環境内でどのように振る舞うかですが、代わりに試験管中で単一精製された標的に対してタンパク質がどう機能するかを測定しているかもしれません。我々から得られるデータは通常、このように見えます：

Sequence Activity Stability ───────────────────────────────────────────────────── M K T A Y G L S E R N ... 0.82 54.1 M K T A Y G L T E R N ... 0.79 53.8 M K S A Y G L S E R N ... 0.91 52.4 M R T A Y G L S E R N ... 0.44 55.0 M K T A Y G I S E R N ... 0.88 51.9 M K T A Y G L S D R N ... 0.71 53.2

アッセイには多くの種類があります。よくあるのは、グリッド状に並んだ複数のウェールを含むプレート上でバッチとして行う場合で、各ウェールごとに異なるタンパク質がテストされます。これは意味をなすので、各回のテストラウンドでは新しいデータポイントのセットを獲得します。Cradle の構成において、これは多くの場合 96 ウェールとなっています。通常機械学習では、データセット内の点同士は統計的に独立していることを仮定します。しかし、バッチ型アッセイ測定文脈ではこの仮定が破られることがあります。グリッド内のすべての測定に同時に影響を与える測定プロセスの特性が存在するためです。さらに、グリッドのエッジ部では奇妙なことが起き、これらの測定値の信頼性が低下することがあります。我々が作成するモデルはこれらのバッチ効果を頑健である必要があります。ここではこれ以上議論しませんが、このようなシステムを構築する際には考慮しておくことが重要です。

好ましさの誘導（Pushing preferences）

これで「配列 - 機能」ボックスが大まかに何に対応するのか理解したところで、これはさらに下流に 2 つのモデルへとつながります。まずより arcane な「g-DPO」から取り扱っていきましょう。約 1 年前に私のオフィスでは、DPO（直接好ましさを最適化する手法）が誰も話している唯一の話題のように見えました。今は少し熱気が冷め、それが LLM のポストトレーニング（LLM を装飾的な自動校正から全能力を持つエージェントへと変える部分）を動かす主要な手法の一つとして確立されました。DPO は direct preference optimisation の略であり、約 100 万個のブログ記事がより優れた説明を提供しているため、ここでは言及しません（数学的なものとそうでないものが 1 つあります）。LLM 文脈での基本思想は、プロンプト（例：「B は標準的なアミノ酸ですか？」）と可能な応答のペア（例：良いもの「いいえ」、悪いもの「はい、あなたは負け組だ」）からなる好ましさをデータセットとして持ち、モデルをより良い応答が多く、悪い応答が少ないように誘導しようとするということです。DPO は、追加のスコアリングモデルや他の高度な強化学習手法を導入する必要もなく、これを行う効率的な方法を提供します。

我々の文脈では、アッセイで測定される機能値が高いタンパク質を生成するようにモデルを誘導し、低い値を持つものを減らしたいと考えています。しかし、アッセイデータの形式は元の DPO 構成での完了ペアとは一致しません。これらペアを取得するための一つの手法は、アッセイ測定値に閾値を設定することです。測定値が閾値を超えれば「良い」もの、そうでなければ「悪い」ものとなります。実際に順序をどのようにペアにするかは言語の場合ほど明確ではありませんが、すべてやや乱雑になります。結果として、DPO をここで直接適用するのは角丸（square peg round hole）に似ているため、Cradle の人々はグループ化された DPO（"g-DPO"）と呼ばれるバリエーションを導入しました。g-DPO ではタンパク質を類似する配列を持つクラスターに分け、そのグループ内からペアを形成します。考え方は、グループ内でだけなら僅かな位置の違いのみを持つ配列同士を比較することで、モデルが微細な変化がタンパク質機能にどう影響するかを学び、非常に異なる配列を比較することで明白な違いを学ぶようになることです。

我々は順序 - 機能データを採取し、g-DPO メソッドを適用して前のステップから得た evotuned モデルをさらに訓練します。この段階では、理想としてテンプレート配列に対する変更を提案するモデルができ、その結果より機能を持つタンパク質が得られるように非常に優秀であるはずです。図上のこのモデルは"logiter"6 と呼ばれています。これで次のボックスへ進みます！

機能の予言（Forecasting function）

生成を実行する前にもう一つのモデルに取りかかる必要があります。それは「予測器（predictor）」です。予測器の役割は何もかもその名前どおり、配列からアッセイ値（機能）を予言することです。次回に詳細を取り上げますが、この予測器を使用して logiter の提案をフィルタリングし、テストのために送信するものを優先付けることができます。

タンパク質配列向けの良質なモデルは、配列の有意な特徴を利用できて、それらを用いて予言を行うべきです。我々は（できれば）既にタンパク質配列向けの良質なモデルを持っています：evotuned モデルです。これは機能予測のためのモデルではなく、配列自体を予言するためのモデルです。ただし、それを良くするためにはモデルは配列の有用な表現を学ぶ必要があります。トランスフォーマー内部では、配列の各位置は数がベクトルに関連付けられており、層を通るにつれて漸進的に洗練され、最終的にその残基が全体タンパク質文脈中で何をやっているかという種の要約となります。我々が「表現（representations）」と呼ぶのはこれらのベクトルのことで、最後のアミノ酸予測はそれらに単純な演算を適用するだけであります。

このモデルの構造により、我々は学習した表現にアクセスでき、他の目的で利用できます。これが予測器を構築するために我々が取れるアプローチです。学習された evotuned モデルからの表現を入力として、それらを用いてアッセイ値を予言する単純なモデルに供給します。これを「回帰ヘッダー（regression head）」と呼び、それをモデルの上部に取り付けます。直感としては、配列上の異なる位置のアミノ酸を正確に予言できる（evotuned モデルで行うように）なら、我々は配列について有用な情報を学習したと言えるでしょう。この情報も、配列が機能を持つか否かを予言する際に有用です。素晴らしい点は、大部分の作業はすでに完了しており、我々はこの情報を新しい目的のために少しだけ適応させるだけでよいことです。

まとめ（今回限り）

さて、これほど多くの話の後、我々はどのようなものを残されているのでしょうか？これで、いくつかのタンパク質を生成するために前に進んでいく 2 つの主要なモデルを得ることができました：logiter と予測器です。生成においては、前者を用いて提案を行い、後者を用いてそれらを評価します。これまで避けていた一つ非常に重要なことがまだあります。logiter は与えられた位置でうまく機能する可能性があるアミノ酸についての予言を提供しますが、我々が変更に関心を持つ位置をすでに知っていることを仮定しています。どの位置を変更すべきかを決めることは決して自明ではなく、「マスクモデル（Masking model）」の責任であり、次回に取り扱います。

付き合ってくれてありがとう。次回、さらにタンパク質の面白さをお楽しみいただける第 2 部分を待っています！また、本稿を審査し、いくつかの見落としを指摘してくれたデイヴィッド・ミラー（David Miller）様にも心から感謝申し上げます。

タンパク質リード最適化のための「バカの手引き」

Japanese Translation:

同じ日のほかのニュース