なんでkaggle強いのに経済成長しないのか 2022.04.20

昨晩面白いツイートをみました

@Overfit
"なんでkaggle強いのに経済成長しないのかって面白い問題だよな"
午後10:01 ? 2022年4月19日?Twitter for iPhone 魚拓 元URL

先にKaggle紹介のためブログを引用します。

"Kaggleとは、世界中のデータサイエンティストが腕を競い合うプラットフォームです。
Kaggleの参加者にはTiersと呼ばれるランクが設けられており、コンペなどでメダルを獲得していくことで昇格することができます。ランクは下から、Novice、Contributor、Expert、Master、Grandmasterです...
Kaggle Masterは、世界で約1600人/770万人中、日本には200人程 (2021年9月現在)おります。" 魚拓 元URL

日本には多くのメダル持ちデータサイエンス競技者がいるのに、なぜ経済成長に反映されないのか?というのが元ツイートの主旨となります。

端的に答えると、
経済成長は課題提案に依存していて、既に定式化された問題をいくら解いても儲からないからでしょう。
課題というのはギャップで、人類の解決策ストックは極めて豊富だからギャップさえみつかれば儲かるのです。


答えが既知である問題をいくら解いても儲からないのですが、Kaggleのコンペではどれも答えが予め用意されているようです。
ブログにはKaggleのコンペとして以下のようなものが例示されていました。

参加コンペ?: メラノーマコンペ SIIM-ISIC Melanoma Classification
皮膚の画像からメラノーマ(悪性黒色腫)である確率を予測するコンペ
参加コンペ?: 鳥の鳴き声分類コンペ Cornell Birdcall Identification
音声データにどの鳥の鳴き声が含まれているかを分類するコンペ
参加コンペ?: 作用機序コンペ Mechanisms of Action (MoA) Prediction
作用機序(薬の働き)を予測するコンペ
参加コンペ?: RANCRコンペ RANZCR CLiP - Catheter and Line Position Challenge
胸部X線写真を用いて、ラインやチューブが最適な位置にあるかどうかを検出するモデルを作成することを目的としたコンペ
参加コンペ?: HPAコンペ Human Protein Atlas - Single Cell Classification
顕微鏡画像内の各細胞のタンパク質オルガネラ局在化ラベルを予測するコンペ

定義された問題を解くことはたやすいので、例えばSARS-CoV-2のゲノムを分類して日本への進入経路を推定しよう、みたいなテーマとして与えたらならKaggleの競技者はもちろん、多くの大学院生があっさり解いたはずです。
問題を最初にみつけて解くことだけが重要です。[弊社論文リスト該当部リンク]

大学院のポリシーにもそういうことが書いてありました。
"多面的な視点から取り組むべき社会的課題を提起し、その課題解決にむけた多様な研究活動を企画推進できる柔軟な応用力を身につけている。" 魚拓 元URL


なぜゲノム科学者は自分のゲノムを読まないのか 2022.01.17

ぼくは寅年なのですが、前回寅年だった2010年には日本にイルミナのシークエンサーが入ってきて、解析方法としても検体間でtotal RNAの量の比を推定する(qPCRとは一線を画す)RNA定量の方法が提案されるようになっていました。それからしばらく、必ず勉強しなければならないものが見つからず倦んでいたのですが、久々に寅年の今年それが見つかりました。それはMendelian Randomization メンデル無作為化という解析方法で、GWASを利用してランダム化比較試験のような分析を実現するものです。このページでは図表を用いず文章だけを書くことにしているので、メンデル無作為化についても文章だけで説明を試みたいのですが、メンデル無作為化の解説記事では通常、グラフが用いられます。グラフといってもX軸Y軸のプロットではなく、ノードをエッジで繋いだグラフ理論のグラフのことです。ゲノムアセンブルで出てくるde Bruijn graph のグラフです。それで要素と要素間の関係を整理するのですが、ここでは図示を避けているので違った表現をします。

メンデル無作為化を原理からではなく効能から説明すると、つまりGWASの比較研究から疾患の原因や創薬標的の絞り込みを行う手法です。ここに2つのGWASがあるとして、一方を甲、他方を乙と呼称します。GWAS甲では、甲という表現型についてGWASを行い、甲に寄与するSNPsを列挙し、それぞれのSNPごとに甲への寄与の大きさを定量的に表現しています。乙でも同様にそれぞれのSNPごとの乙への寄与の大きさを定量的に表現しています。甲乙から共通のSNPsを取り出し、それぞれSNPごとに甲への寄与の大きさと乙への寄与の大きさを得ることができます。この(甲への寄与の大きさ)と(乙への寄与の大きさ)をX軸Y軸にすると、SNPひとつを散布図の中の1点としてプロットすることができます。メンデル無作為化では、複数のSNPsをこの散布図にプロットしていくことによって、甲と乙の関連を調べます。例えば文献(PMID: 25064373)では、甲が血中LDL-コレステロール量であり、乙が心筋梗塞である事例で、9つのSNPsについて血中LDLコレステロール減少への効果と、心筋梗塞減少への効果を調べているのですが、SNPの甲乙への貢献が比例しているので9つのSNPが甲乙の正比例の直線の上に乗ります(PMID: 25064373 の Figure. 2)。血中LDLコレステロールと心筋梗塞の関係がただの全体の相関に止まらず、SNP毎に分けてみてもすべてで相関が見えるのでとても確からしい関係だと言えます。同じ現象を違う切り口で覗いているのは気分が良いです。

甲乙には好きなものを入れて良いので、和文誌実験医学のVol.38 No.4 (2020)のp.562から紹介されている事例では甲にEWASから見出されたCpGメチル化サイトのメチル化効果を、乙に糖尿病憎悪効果を入れて2つのSNPをプロットし、甲と乙の関係を調べています。また、総説、Human Genomics and Drug Development (PMID: 34649961)では甲にトランスクリプトームデータやプロテオームデータを挿入することによるマルチオミックスアプローチを提案しています。例えば甲乙に疾患を入れれば、適用拡大に使えるかもしれません。気になる疾患の開発方針は妥当でしょうか。血漿中や脳脊髄液中のアミロイドベータではアルツハイマー病を説明できなさそうです(PMID: 32929646)。GWASはその後の介入をどうしたらいいのかアイデアが湧かないためにあまり期待してこなかったので、メンデル無作為化を大変面白く感じています。

大規模なGWAS解析は、生物学的な洞察をほとんどもたらさない「末梢的であまり重要でない」遺伝的関連を掘り起こしているだけ(原文 “Large analyses dredge up 'peripheral' genetic associations that offer little biological insight, researchers say.”)とまでGWASは悪口を言われてきましたが(New concerns raised over value of genome-wide disease studies. Nature 546, 463 (2017). https://doi.org/10.1038/nature.2017.22152 )、ぼくもGWASはあまり面白くないと思ってきました。多くのゲノム研究者が十分な能力を持ちながら自分のゲノムを調べてみることにほとんど興味を持たないのは、GWASで何かが見つかっていたとしても打つ手がないからです。例えば自分のゲノムをよく調べて、ある疾患について自分がハイリスクな遺伝子型を持っていることがわかったとします。ところが、その疾患の一般的な予防法が自分の疾患リスクを減らすかどうかがわからないので、どうすることもできません。これを解決するには遺伝子型で層別化した上での介入試験の結果が必要で、それを待つ間に寿命が尽きるでしょう。メンデル無作為化を利用することによって、GWASの比較からメカニズムの解析ができるようになった今、できるだけ多種多様な人間の表現型、形質についてGWASが実施されることを望みます。

…みんなのGWASが楽しみになっても、自分のゲノムには興味出ませんね。


写真の証拠能力 2021.12.15

"写真には、なんの現実性もありません。それはたんに映像なのです。"
p.115 ゲルハルト・リヒター 写真論/絵画論 増補版 淡交社

分子生物学の論文には時々、電気泳動像の写真が登場します。不思議なことにゲルの写真をそのまま載せるのではなくて、バンドのあたりを切り抜いて載せているので、明暗の他に読み取れる情報がないものです。どうせ切り取られているのなら写真はあってもなくても同じで、たんに文章で記述すれば足りると思っていました。どう考えてもあまりにもねつ造に弱いのです。適当なPCR産物を電気泳動して撮影する方法など、自身の論文に電気泳動像の写真を載せたことのない素人でも証拠の残らないねつ造を思いつきます。これまた不思議なことに、なぜか現実のねつ造論文では撮影した後の電気泳動像が切り貼りされてしまい、切り取り元を特定されることによって簡単に言い逃れられなくなってしまっています[鳥取大学の研究不正報告書PDF]。もしかすると誰かに気づいて欲しいというメッセージかも知れません。

このように電気泳動像の扱いには謎が多いのですが、無敵のディープラーニングが今回すべての問題を解決しました。

fake_electrophoresis

この研究では電気泳動像を学習し、電気泳動像と見分けのつかない画像を生成しています。たまにノイズの入ったものも生成されますが、何枚でも作れるので問題にはならないでしょう。従来のねつ造画像検出においては、切り貼り作業によって生じたバックグラウンドノイズの不自然な接合面を探していましたが、生成された画像に接合された箇所はありません。

生成された電気泳動像について、私は科学に問題のないものと思っています。そもそも研究についてよその証拠を信じる必要はないのです。自分で実験に手を動かすほど重要なことであれば再現試験をすれば良いですし、周辺の調査によっても防衛可能です。いまはDDBJ SRAに精緻なデータが登録されているので、近縁生物のトランスクリプトームデータを取って調べることも有効でいつも助けられています。怪しい科学ネタがあればぜひ一緒に検証しましょう。科学実験の証拠そのものとしての性質を改善するには、誰かに実験に立ち会ってもらうのも良いかも知れません。ボイルが空気バネの論文を書いた時代には実際に立ち会ってもらっていましたし、そうすることで科学実験の楽しさを伝えることにも役割を果たしていたようです。また、弁理士さんに相談することもできると思います。実験に立ち会った上で事実実験公正証書というものを作成していただく公証制度があります。


De novo 動物ゲノムは自動車より安い 2021.11.10

2010年にNGS(next generation sequencing)が日本に来てから10年、いまだにこの技術は次世代(next generation)と呼ばれたままにありますが、この世代の中でも小さな世代交代は着々と進められています。NGSの市場が開かれて最初の覇権は100塩基にも達しない短い解読塩基を100億本よりずっと多く得られるショートリードのシークエンサーでした。ひとつひとつではほとんど意味のない情報を多数並列に取得して、データ解析ありきで意味を取り出す装置であったわけです。当然、読み取り塩基配列長を伸ばして意味のある情報を取れる装置への改善が目指されてきました。ショートリードからロングリードへの転換です。

それぞれの2015年時点での費用イメージは、たとえば哺乳類のゲノムを新規に解読しようとすると日本で外注先にお願いして、ショートリードを用いたもので2000万円、ロングリードを用いたもので6000万円でした。もちろんロングリードの方がずっといいゲノムが得られるのですが、当時はアセンブルの方法もよくわからずハードウエアから用意したりしていました[弊社出版リスト該当部link]。2017年になるとロングリードで3000万まで値段は下がり、これならどんな生物のゲノムも読めると思ったものです。それからsequel2という装置の発表がありまして、これを使った見積をお願いしたところ哺乳類ゲノムが300万円になってしまいました。2020年のことです。届いたPDFが信じられず、電話で「桁間違えてますよね」と確認したことを覚えています。追加で取ったカブトムシのゲノムシークエンスの見積は130万でしたのでただちにお願いしました。

できたものがこちらです。
Whole-Genome Sequence of the Trypoxylus dichotomus Japanese rhinoceros beetle
Norichika Ogata, microPublication Biology.
https://doi.org/10.17912/micropub.biology.000487
RNAseqのマップ率が90%を越えるのでふつうに使える品質です。

自動車よりも安くゲノムが手に入ってしまう!こんなことになってなお自分の好きな生き物のゲノムを読まない人はいないでしょう。もしかすると日ごろ目にする動物のゲノムはすでに読まれているかもしれません。

二子玉川のあたりで手のひらくらいのが見られるモクズガニはどうでしょうか。何度も読まれていますね[論文Link, 論文Link, 論文Link]。 スーパーの海老よりずっと美味しいアメリカザリガニも解読済みです[論文Link]。多摩川第3京浜下で泳いでいるとかなり大きいのが寄ってくるコイも解読済みです[論文Link]。
ncbiによればanimalsが4088種、Land plantsが872種登録されているので、身のまわりにいるような重要な生物のゲノムはほとんど解読済みと思ってよさそうです。ゲノム解読済みの食材だけでゲノム弁当をつくるなどと冗談を言って笑っていたのが懐かしいです。


分子時計の針の音 2021.10.22

 DNAの変化速度は一定であると考えてよいので我々はDNA鑑定などの技術を論証に使えているのですが、実際に何かしらの生き物のゲノムを経時的に解析して、DNAの変化と時間経過をプロットすることはこれまで大変に困難でした。理論的には確からしいことを実際に見てみることができなかったのです。まずそんな研究は予算が取れないでしょう。いくら安くなったとは言え、いまでも全ゲノムシークエンスには少なくとも1万円ほどはかかるので同じ種の生き物について何万検体ものゲノムを解読することは不可能です。そして得られるものはほとんど確実な理論の通りでしかありません。そういうわけで、分子時計を実際には見たことがないままに分子時計が確かであることを信じて今までやってきました。いや、信じてはいなかったので他の人が分子時計に関連する問題を扱うときには特に口を挟まないでおいて、自分の研究には未確証のそれに依存することがないように気をつけてきました。

 ところがところが、SARS-CoV-2という外来種が世界のあらゆる生態系に入り込んで急速に分布を広げはじめたのです。奇しくも時は2020年、次世代シークエンサーが普及しはじめてから10年を過ごし、世界のあらゆる生き物好きたちに装置と技術が普及して、かつゲノムシークエンスに皆がモチベーションを持てる類い希なタイミングでした。数年前にずれるだけでも、数万のSARS-CoV-2ゲノムが検体取得日と共に公共データベースに登録されることにはならなかったかもしれません。このようにして人類がはじめて得た、時間経過とゲノム変異数の比較による分子時計の表示がこれのFigure 1Bです。分子の時間あたりの変化量は時計のように正確で、まさしく分子時計でした。

N Engl J Med. 2021 Aug 5;385(6):562-566. doi: 10.1056/NEJMsb2104756.
SARS-CoV-2 Variants in Patients with Immunosuppression
Lawrence Corey, Chris Beyrer, Myron S Cohen, Nelson L Michael, Trevor Bedford, Morgane Rolland

 ラボのデータではなく実際の地球のデータなので、たとえばこの図を見たあとに尚、鋳型となる原始の配列が残存してDNAの変化は元本保証と多様性創出を両立するなどと述べることはできないでしょう。自然のDNAの変化は木村資生の言うとおりに中立で、変化速度は一定でした。たとえSARS-CoV-2のように急拡大する集団であったとしてもほとんどの配列は遺伝的浮動により消滅していくのですから、集団サイズがSARS-CoV-2ほどには拡大しない通常の集団で原始の配列が残存する可能性はとても低くなります。

もちろん自然にはあらゆる例外が存在します。分子時計があたかも止まったかのように見える事例がこれです。

Nature. 2021 Sep;597(7877):539-543. doi: 10.1038/s41586-021-03901-9. Epub 2021 Sep 15.
Resurgence of Ebola virus in 2021 in Guinea suggests a new paradigm for outbreaks
Alpha Kabinet Keita, et al.

 2021年にギニアで発生したエボラウイルスのゲノムは2014-2016年に発生したエボラウイルスのゲノムとあまりにも一致していました。もしこのウイルスが野生動物の中に潜んでいたのであれば、世代交代のために分子時計を進めていなければなりません。著者によればこの矛盾を解決する説明は以下の通りです。すなわち、2014-2016年に発生していたエボラウイルスが2021年のギニアでの発生までヒトの体内で過ごしていたというのです。エボラウイルスが世代交代をしながら元の配列を維持していたのか、それともじっと潜伏していたのかはSARS-CoV-2以前であれば議論になったのかもしれません。

生き物が社会に損害をもたらしたときに研究者が取るべき態度は、戦後アメリカシロヒトリの移入が問題になる中で半世紀前に述べられていたので引用します。

"この本はアメリカシロヒトリの概説を目的としたものではない。 われわれの目標は、アメリカシロヒトリという一つの外来種の歴史を追うことによって、種というものの存在様式をあきらかにしようということであった。" p.i
"そもそも、生物が示す、みごとな適応と、おどろくほどに多様な種をうみだしたその分化の機構は、十八世紀以来の生物学の中心課題であった。 一つの種が、どのようにして以前の適応様式からはなれ、他の種に分化し、その分布圏をひろげ、繁栄し、そしてほろびてゆくのか、という問題には、生物学の全分野が結びついている。 またそれは、あらゆる生物学的研究の発想の土台ともなるものである。それにもかかわらず、こんにち、日本の生物学者の多くは、この課題を忘れかけているようにみえる。 最近の数十年間に、生物学はめざましい進歩をとげた。その結果、たくさんの生物学者が、分子的モデルの形式的整合性や、酵素反応の1ステップの決定や、個体群の電子計算機モデルの作成だけに、自らのエネルギーを費やしかねない状態がうまれている。そこからは、生物の全体像を見失った酵素実験家や生態システム工学者がそだっても、生物の本質の重要な一部である歴史性の認識はうすれてゆくおそれがある。公害をまきちらした工業技術万能主義への反省から「生命科学」への期待が高まってきても、これでは一時しのぎの策しか出てきそうもない。 残念ながら、日本の昆虫学においては、状況はさらに悪い。不思議なことに、種の認識がかれらの仕事の前提となるはずの、多数の昆虫分類学者たちは、種の問題と関連した昆虫学の他の分野ならはまったく隔絶した場所で、同定と記載のみに専念している。" p.ii
"しかし、さりとてわれわれは、いまさらファーブルにもどろうとするものではない。新しい研究技術とアイデアを駆使しながら、可能なかぎり現代的な種の全体像を描いてみようと思うのである。" p.iii
伊藤嘉昭編、アメリカシロヒトリ研究会、アメリカシロヒトリ 種の歴史の断面、中公新書 280

いつの細胞を測ったの? 2021.09.10

 単一の細胞を分け取って、その細胞の発現しているメッセンジャーRNA(mRNA)をすべて測定しようとするシングルセルRNA-seq(scRNA-seq)がかなり普及してきました。scRNA-seqは日本勢がベンチマーキングでトップを取っている分野でもあり[外部論文link]、各所のサポートもあって他国と比べても導入し易いのではないでしょうか。我々も理研のサポートを受けて培養細胞のscRNA-seqを発表しています[弊社出版リスト該当部link]。scRNA-seqのための細胞を分取する方法には、セルソーターを使った方法、マイクロ流路を使った方法、ミセルを使った方法などがあります。いずれの方法でも、細胞が元々住んでいたところから取り出してくる必要があり、取り出してくるのには時間もかかります。この取り出しにかかる間、細胞は生体や培養環境から取り出されて、ソーティングのためのバッファーなどに静置されます。この静置されている時間に、細胞の遺伝子発現はどのように変化するでしょうか。

 今回、弊社の松田はこの問題に取り組み、フラスコから取り出した細胞からRNAを安定化させる作業にかけた時間がRNA-Seqデータに及ぼす影響を調べました[弊社出版リスト該当部link]。RNA抽出にはQIAGEN社のRNeasy Mini Kitを使用しています。この方法では、細胞に試薬(Buffer RLT)を添加し懸濁した段階で、RNA分解酵素が不活性化されてRNAが安定化されます。フラスコから取り出した細胞に試薬(Buffer RLT)を添加して懸濁するまでの時間(以下、「RNA処理時間」とする)を15分、30分、45分、60分としたサンプルを準備してRNA-Seqを行い、遺伝子発現に違いがあるかどうかを調べました。情報エントロピー [弊社出版リスト該当部link,同link] の解析、主成分分析、およびクラスタリングでは、RNA処理時間による違いは見られず、培養日数によってトランスクリプトームを説明できていましたが、発現変動遺伝子解析を行って個々の遺伝子レベルでの影響を調べたところ、アポトーシスに関連した遺伝子の発現量がRNA処理時間に応じて変化していました。処理時間が45分以上となると変化が大きかったので、細胞をフラスコから取り出してから30分以内にRNAを安定化させることが望ましいようです。ソーティングに時間のかかるscRNA-seqでは影響がさらに拡大しそうなので、ソーティングにかかる時間をRNA処理時間とした場合の発現変動をあらかじめチェックしておくとプロジェクトの脱線を防げるかもしれません。

 NGSが普及したことにより、公共データベースを利用して実験をすることなく研究を進められるようになりました。実際私たちも公共データベースから取得したSARS-CoV-2ゲノムデータを用いて系統解析を行っています [弊社出版リスト該当部link]。一方で公共データは玉石混淆であり、現状では利用する側のリテラシーが求められる状態です。この問題の解決のためには様々な取り組みがなされており、例えば公共データに紐づくメタデータのスタンダードやプロトコルレポジトリの利用などがあります。本論文で検討したRNA処理時間は、通常メタデータに記述するべき項目として指定されていませんが、アポトーシス関連の遺伝子発現に影響の大きい要素であることが分かりました。公共データをいじってこれらの遺伝子が出てきた場合には見直した方が良いと考えます。

 弊社のメンバーは課程博士が多く、在学中には1st authorとして論文を発表してきています。自信がついていて、「研究はほとんど自分でやった」という気持ちを持っていたりします。確かに、新しい分析技術や試薬については指導教官を上回る知識を持っていてしかるべきでしょう。一方で、手元の研究を俯瞰して、より広範な文脈の中に位置づけるスキルはどうでしょうか。論点を整理して、ある証拠がある主張の論拠となることを論証するスキルはどうでしょうか。これらのスキルは生物データの解析をまとめるため、あるいは実験結果から思いついた発明を特許出願にまとめるために有用ですが、所属ラボで元々整理されていたイントロダクションの文脈を借用したり、すでに論拠として利用された前例のある測定系を用いてこれまでやって来た場合には、未獲得である可能性があります。

 これを解決するため、弊社のメンバーにはcorresponding author として論文発表することが要求されてきました。どうすれば前述のスキルを身につけられるかはわからないので、独力でつくることに時間を割いて勝手に解決してもらうしかないということになったのです。このような環境でしたが、松田は無事論文にまとめることができるようになりました。2015年以来の達成者です。ひとりでも増やせるように今後も丸投げ環境は続きます。




個性を持った製造装置 2021.08.06

 顕微鏡で細胞を覗いていると、それぞれの細胞に個性があることがわかります。まず形が違います。はじめて培養細胞をみたときは「こんなに自分勝手そうな細胞が集まって、まともに統合された身体をつくれるのかな?」と思いました。初代培養の細胞に比べると樹立されたセルラインの細胞はずっと個性が少なく、兵士のような顔ぶれですが、それでも個性は感じられます。この個性を決める要因はなんでしょうか。すべてが単純なばらつきの結果であるのか、それとも明確な理由があって差異がうまれるのでしょうか。単純なばらつきの結果であれば、半導体加工分野で見られるように、シミュレーション結果のようなきれいな釣り鐘型の分布が得られてきます。細胞の大きさの分布の場合には、とても偏った形が出てきますので、そこには明らかに単純なばらつき以外の要因があります。ある研究では、細胞の群の中での位置によってウイルス感受性が変化することが報告されています。これは細胞の個性を決める要因が特定された例ですが、細胞の個性の中から単純なばらつきを取り出して眺める作業というのは実行できないので、いずれにせよこの分野の研究は細胞の個性をつくる要因をひとつずつ選り分けていく作業になります。

 実は細胞の個性というのは、なんとなく面白いだけでなく産業上または健康を守るためにも注目されている現象です。今日、世界で売り上げの大きな医薬品の多くは抗体医薬品であり、これは生きた細胞に抗体をつくらせることで製造されています。このように生きたままのものを原料に用いて製造する医薬品はバイオ医薬品と呼ばれますが、感染症対策で注目されている組み換えタンパク質ワクチンや、市場の成長が注目されている遺伝子治療薬もバイオ医薬品です。細胞の個性は、ここでは製造の邪魔者となります。製品の品質管理を難しくし、また、生産の効率を予測不能にします。従来、細胞の個性に起因するリスクを小さくするために、細胞のクローニングが求められてきました。医薬品原料の細胞を、ある単一の細胞から分裂したクローン集団にすれば、細胞の個性は小さくなるだろうという考えです。実際には、クローニングした細胞も継代で染色体数が多様化することなどが知られているので、クローニングで細胞の個性消失が保証されるわけではありません。

 むしろクローニングをしなくとも、培養の制御によって細胞の個性を管理できる可能性も議論されています。この議論には、細胞の個性の広さ、多様さが測定できることが前提になります。single cell rna-seq技術が普及し、数万個の遺伝子についてひとつひとつそれぞれの細胞での発現量が測定できるようになってきたので、いま使用されている抗体医薬品のほとんどの原料であるCHO細胞について細胞個性の広さ、多様性を測定してみることにしました。結果は昨年のBiotechnology and Bioengineering 誌にまとめています[弊社出版リスト該当部link]。

 材料はCHO-K1細胞を無血清培地で馴化して浮遊化させたものです。通常、哺乳類の細胞はどこか足場にくっついて生活しますが、浮遊化というのは液体の培地の中にプカプカ浮いたまま細胞を生活させ、増殖させることを言います。浮遊化した細胞はタンクの中でかき混ぜながら培養できるので、足場の上でしか生活できない細胞に比べて培養工場の大きさを小さくすることができます。こうなると、前述の「細胞の群の中での位置」は消滅することになります。ところで、よく混ぜたフラスコの中に浮いている細胞はどの細胞も同じような経験をしているのでしょうか。一般に混ぜた液体は、空間平均と時間平均が一致するものと考えられています。ところが生物の場合、例えば36℃から38℃への環境変化と、38℃から36℃への変化は全く異なる意味を持ちます。もちろん培養温度は一定にできるのですが、培養細胞に与えられる加速度はどのようになるのか分かっていませんでした。そこでまず、フラスコの中でかき混ぜながら培養している細胞それぞれに加わる加速度を計算することにしました。

 流体のシミュレーションには、格子法と粒子法があります。格子法というのは計算したい容器をメッシュに切り、それぞれの格子を計算の単位にします。粒子法では、液体を粒の集まりと考え、計算したい容器に粒子を与えて粒子を計算の単位にします。今回は、格子法でフラスコの中でかき混ぜている培地を計算し、その培地の中にプカプカ浮いている細胞を計算して細胞の経験を解析しました。流体解析環境としてOpenFOAMを採用し、これにはもともとエンペラで容器の中をかき混ぜるソルバはあったのですが、フラスコを台ごと振盪させてかき混ぜるソルバはなかったので、各格子に垂直軸の周りを回る力を書き加えてソルバをつくりました。フラスコの形状や培地の粘性は標準化されていて、どこでも購入できる製品を用いるので固定できるのですが、フラスコに入れる培地の量はそれぞれの現場で決まります。培地の量を変えてシミュレーションを繰り返したところ、細胞に加わる加速度の経験は液量によってばらついたりまとまったりしました。加速度の経験の細胞間の差異が、細胞の個性の測定にでてきてしまうといやなので、加速度の経験のまとまりのよい条件で培養することにしました。

 測定するCHO-K1細胞は、培養の4日目(増えていくフェーズ)、8日目(増殖の止まるフェーズ)、11日目(死滅していくフェーズ)で取りました。CHO-K1細胞のscRNA-seqは前例がなかったので、ただ培養しただけで変化するかどうかわからなかったのです。細胞の多様性の測定には、scRNA-seqによって取得したデータの主成分分析を用いました。まず、scRNA-seqによって取得されるデータというのは、ひとつの細胞が発現しているメッセンジャーRNA(mRNA)をバラバラに千切ってから1塩基ずつ解読した文字のデータです。これを整理して、どの遺伝子が何本みつかったのかというデータにします。遺伝子は数万種ありますから、数万種の遺伝子それぞれについて存在量が幾つであった、というデータになり、全体では測定した細胞の数(数百)に遺伝子の数(数万)を乗じた数百万点の発現量のデータができます。遺伝子の数万という数は、ひとつずつグラフを描いて眺めてみる分には可能な数ですから遺伝子毎にグラフを描いて全部眺めればよいし、そこから特徴を感じることもできます。それでは測定になりませんので、客観的にモノが言えるように定量的に分析するべきです。分かりやすく図示するために主成分分析を行ったところ、培養日数の経過に合わせて細胞は多様性を増していくことが可視化できました。ひとつの継代培養の中で、細胞の多様性が増大していく様は、個体発生における砂時計モデルとも共通点があります[外部論文link]。個体発生の砂時計モデルでは、受精卵から成体への発生の中で途中に生物種間の多様性が少なくなるところがあると説明します。受精卵はその個体にとって最初であると同時に親にとっては最期ですので、成体と受精卵は世代を越えて接続しています。個体発生は多様性のちいさくなる、ところどころのくびれを持った帯であり、これを世代の継ぎ目で切断するとたくさんの砂時計が出来上がります。培養細胞においては対数増殖期に多様性のちいさくなる、くびれをもった多様性の帯を示し、これも継代の継ぎ目で切ると砂時計になります。

 ちまたのscRNA-seqの主成分分析図に頻出するのは、細胞周期依存的な細胞のサブポピュレーションです。すなわち主成分分析図の中に、細胞周期によって明らかに見分けられる集団が見出されます。従来、これは細胞周期そのものが細胞の遺伝子発現をコントロールしていると説明されてきました。しかし、CHO-K1細胞のscRNA-seqの主成分分析図にはそのような小集団は出てきません。念のため細胞周期に同調して発現する遺伝子の発現をチェックしましたが、それらの遺伝子の発現量によって主成分分析図を説明することはできませんでした。先行研究を見直すと、細胞周期のサブポピュレーションがscRNA-seqの主成分分析図に現れてくるのは、どれも接着培養のセルラインです。CHO-K1細胞は元来接着性の細胞ですので、シャーレの表面に接着培養したCHO-K1であれば、細胞周期依存的な細胞のサブポピュレーションが取れるかもしれません。実際に測定してみると接着培養のCHO-K1細胞のscRNA-seqの主成分分析図には細胞周期依存的な細胞のサブポピュレーションが得られました。従来接着性のセルラインのscRNA-seqで見出されてきた細胞周期依存的な細胞のサブポピュレーションは、実は細胞周期そのものが細胞の遺伝子発現を支配していたのではなく、細胞周期によって変化する細胞の微小環境を変化させることで、間接的に細胞の遺伝子発現を変化させていた可能性があります。接着性の細胞の分裂をよく観察すると、分裂の直前に細胞が底面から浮き上がって分裂し、それから底面に再度接着することがわかります。接着培養では細胞周期の過程で細胞の微小環境はめまぐるしく変化しているのです。

 先にクローニングの話題にふれましたが、細胞はクローニング(単一細胞の分取)が出来ていることを確認しながら作業するには小さすぎます。そこで、実際の産業の場面ではクローニング操作の成功確率を計算して、得られたクローンがクローン集団であることを示します。例えば10個のウェルあたり平均して3個ずつ細胞が落ちるように限界希釈した場合、ウェルあたりの細胞の数をポワソン分布に従うと仮定して、10000個のウェルそれぞれに分中された細胞の数はそれぞれ0個(7355ウェル)、1個(2301ウェル)、2個(307ウェル)、3個(34ウェル)、4個(3ウェル)となるので、ウェル内で増えてきた細胞の87%がクローンであり、残りの13%はクローンではないことになります。この限界希釈を2回やって取れた細胞は98%クローンという計算になり、これをクローンとして扱うことにしています。

(Rコード)
> table(rpois(10000,0.3))
0 1 2 3 4
7355 2301 307 34 3
> 2301/(2301+307+34+3)
[1] 0.8699433
> 1-(1-2301/(2301+307+34+3))^2
[1] 0.9830853

 逆に、所与の細胞についてクローン集団であるかどうかを議論する術はありませんでした。scRNA-seqでは塩基配列データを取得してますので、遺伝子の発現量のデータを得ることも、遺伝子の配列変化のデータを得ることも可能です。もしそれぞれの細胞に配列の多様性が見出されるのであれば、所与の細胞について由来細胞の多様性を議論できるかもしれません。2016年のにシンガポールで開催したMammalian Systems Biotechnology Workshop でCHO細胞は集団としてヘテロプラスミー(ミトコンドリア配列の多様性)を持つことを聞いたので、scRNA-seqデータからヘテロプラスミーを探してみることにしました。今回シークエンスしているCHO-K1細胞はATCCから取り寄せたもので、クローニングは行なっていません。もし手元のデータで調べた時に細胞間でミトコンドリアのゲノム配列に多様性があるなら、クローニングした時に質的に多様性が小さくなるマーカーとして利用することができそうです。果たして変異点解析をすると、ミトコンドリアには細胞ごとに見分けられるだけの多数の変異が入っていることがわかりました。これらのミトコンドリアの変異の由来ですが、先行研究によれば、もともとミトコンドリアには変異が起こりやすく[外部論文リンク]、自然に生じる変異が培養環境下では残りやすいらしいのです。というのも、培養することによって生じるミトコンドリアの変異がiPS細胞をドナー本人に移植した際に起こる拒絶反応の原因になっているからです[外部論文link,同link]。細胞膜の内側にあるミトコンドリアの変異が異物として見つかってしまうのは不思議な感じがします。

 先に、遺伝子はどうせ数万個しかないのだからすべて目で見ればよいということを書きました。何かを探すとき、知らないものを探すことはできません。ここで先に知っていたのは、発現量の観点から細胞を2つのグループに分けることができ、かつそれらの細胞がすべての遺伝子を使った主成分分析図の中で2つのグループに分かれているような遺伝子の存在です。探索の際の身体の負担を軽くするために、遺伝子発現量のヒストグラムを描くとともに主成分分析図を該当の遺伝子の発現量によって塗り分けたものを次々と表示するようなコードを書きました。今回のデータでは、エノラーゼという酵素の遺伝子がこれに該当しました。培養四日目の細胞ごとのこの遺伝子の発現量をヒストグラムに描くとキレイな2つの山が現れます。さらにそれぞれの山の細胞を全遺伝子の主成分分析図の中に塗り分けるとキレイに2つのグループが見えました。わざわざ目で見なくとも主成分分析の結果、例えば主成分負荷量をみることで見つけ出せたのではないかと査読者とのやり取りの中でも話したのですが、実際にやってみると主成分負荷量からこの遺伝子を見出すことはできませんでした。主成分分析図では一般に寄与率の最大であった主成分と、寄与率が第二位であった主成分とで散布図を描くのですが、この図の中に斜めに分離されるサブポピュレーションはどちらの主成分だけでもキレイには分離できないのでしょう。

 弊社の緒方は大学を出てからはじめてCHO細胞を触るようになり、次世代バイオ医薬品製造技術研究組合での取り組みを中心にCHO細胞のことを勉強してきたのですが、CHO細胞を中心とした生物工学の研究をはじめてまとめることのできた思い入れのある論文です。これまでの研究の中でもデータが最も多く、初稿では実験結果がやった順に羅列されたいわば日記のようなものになってしまいました。何度も真っ赤になるまで添削し、ときには実習のクラスも見学させてくださりながらご指導くださった大政先生にこの場を借りて御礼申し上げます。

 この研究以来、皆さまからは沢山のCHO細胞トランスクリプトーム解析のお仕事をいただきました。バイオ医薬品製造のために培養されたCHO細胞は、通常の培養細胞に比べてはるかに高密度で培養されており、培養細胞の極端な姿を示しています。実際にこの細胞を医薬品製造に用いている各地の事業所ではそれぞれで限界まで培養がチューンナップされていて、とても同じプロトコルでは十分なトランスクリプトーム解析ができない多様性がありました。製造現場にある磨き抜かれた生産装置としての細胞は、ATCCから入手可能なモデルの培養細胞からは想像できない性能を見せてくれます。ものづくりの周りでバイオインフォマティクスをやらせてもらうことは、経済合理性のみならず生き物の未知の姿をあぶり出せる特等席だと感じています。