研究テーマ
私たちの研究室では、ゲノムやアミノ酸配列の解析に新たなアプローチを採用しています。ゲノムやアミノ酸それぞれに物理的特性などを考慮したベクトルを割り当て、グラフ表示することで計算量を削減し、視覚的な理解を高めています。これにより、膨大な情報を効率的に解析できます。グラフ表示画像の解析には
を主に用いて、生物種分類やタンパク質ファミリー分類を行っています。具体的な画像の精製方法については、下図を用いて説明します。
左図のように、アミノ酸Aとアミノ酸Cに、(1, 1)と(-1, 1)のベクトルをそれぞれ割り当てます。このベクトルを用いてアミノ酸配列ACCをグラフ表示すると右図のようになります。原点を視点として、アミノ酸配列のアミノ酸を先頭から順番に足し合わせてプロットし、その前後の点を線で結ぶことでグラフ表示を行います。
生物種分類(アミノ酸配列)
生物は共通の祖先から派生しており、その祖先が持っていた遺伝子が後代に受け継がれることで、近縁種同士が似た遺伝子を共有することになります。この『近縁種同士は似ている遺伝子を持つ』という性質を用いて、生物種に分類することができます。遺伝子や配列の文字列は一般的に長く、直接比較しても直観的に理解することは難しいですが、グラフ表示を用いることで直感的に理解しやすくなります。
20種のアミノ酸に、疎水性度を考慮したベクトルをそれぞれ割り当てます。割り当てたベクトルは下図のようになります。
このベクトルとアミノ酸配列(ミトコンドリアND5)を用いて作成したグラフ表示画像は下図のようになります。
このように、近縁種同士のグラフの概形が似ていることが直観的にわかります。このグラフを用いて、生物種の分類を行います。
タンパク質ファミリー分類(アミノ酸配列)
タンパク質も生物と同様に進化しており、共通の祖先を持つタンパク質は類似したアミノ酸配列を持っているため、その構造や性質が似ています。この共通の祖先を持つタンパク質のグループをファミリーといいます。未知のタンパク質をファミリーに分類することで、そのタンパク質の構造や性質などを予測することができます。BIASPROFSが提供してるGPCRデータセットを用いています。GPCRとは、Gタンパク質共役受容体とよばれ市販の約50%は、GPCRをターゲットにしていると言われています。GPCRデータセットの概要を下表に示します。
クラス | 説明 | データ数 |
A | ロドプシン様受容体 | 5392 |
B | セクレチン様受容体 | 463 |
C | 代謝型グルタミン酸受容体 | 2052 |
D | フェロモン受容体 | 13 |
E | cAMP受容体 | 19 |
20種類のアミノ酸に、疎水性度や大きさなどの物理的特性を考慮したベクトルをそれぞれ割り当てます。(下図)
このベクトルを用いて作成したグラフ表示画像を以下に示します。