DNA情報の取得とApEでの操作 - 花井@産総研


ショウジョウバエ時計遺伝子Clockを例に、NCBIから遺伝子情報(DNA塩基配列)をダウンロードする手順を述べます。挿絵の一部は、クリックすると大きく表示されます。

●↓NCBI Geneのページで目的遺伝子を探す
●↓RefSeqをNCBI Geneのページからダウンロードする
●↓cDNA(mRNA)のRefSeqの見方
●↓GenomeのRefSeqの見方
●↓ApEでGenBank形式ファイルを開く

■↓ApEの使い方 非公式簡易マニュアル


●NCBI Geneのページで目的遺伝子を探す

NCBI Gene
NCBI Geneので遺伝子を探す
○動物の時計遺伝子ならば、主な物を時計遺伝子のページに置いたのでリンクから進んで下さい。

Geneのページで適当な遺伝子名称を入れて検索します。Limitで生物種を指定した方が良いでしょう。


Clock 検索結果の例
右は、clock(大文字小文字は無視)をキーワードで、ショウジョウバエ(Drosophila melanogaster)のリミットで検索した結果の例です。

公式名称はよく使う名前とは異なる場合が多いので気をつけましょう。「Clk」をクリックし、ショウジョウバエClockのページに進みます。

○ちょっと裏道です。ヒト・マウスで正確な遺伝子名が分かる場合に限られますが、比較的簡単に特定遺伝子を検索できるNIHのツールがあります。
Gene Finder を開く
"1. Select organism"でヒトかマウスをえらぶ。
"2. Enter a unique identifier" にclock, per2など遺伝子シンボルを入れる(periodだけではダメ)。
結果が表示されたら、"Gene Info" をクリック、Database Linksの中にある、Entrez Gene を開きます。(ヒトCLOCKの例)
元々ガン研究に特化したデータベースですが、ガン関連遺伝子以外も検索できます。

●RefSeqをNCBI Geneのページからダウンロードする



NCBI Geneページの例
右はNCBI Gene ページの例です。
こののページは、塩基配列、タンパク情報だけでなく、
機能ドメイン(Conserved Domains)
マイクロアレイのデータ(GEO Profiles)
他の生物のホモログ情報(HomoloGene)
ゲノム情報(Map Viewer)
遺伝学的情報(OMIM or MIM, Online Mendelian Inheritance in Man なので人間の遺伝子の場合のみ
など、様々な情報にリンクしています。
Genomic regions, transcripts, and products (遺伝子構造図)からRefSeqを表示します。
ゲノムは NT_XXXXX から、cDNA (mRNA)は NM_XXXXX若しくはエクソンイントロン構造図からGenBankを選択します。

※遺伝子構造図をクリックしても反応しない場合。
mRNAは下部のreference sequence detailsから取ります。
遺伝子は、右メニューMapViewerを開き、目的遺伝子の
「Clk      ↑  fb    sv    ev    pr    dl    mm    hm」
の「dl」をクリックします。

その場合は、遺伝子の方向(plus minus)を指定し、形式をGenBankに変更する必要があります。
○RefSeqとは?
cDNAなら >NM_123456のようにN○_で始まるレコードを「Refseq (reference sequence)」と呼びます。(多分、NM=NCBI mRNA, NT=NCBI conttig, NC=NCBI chromosome, NP=NCBI protein)。研究者がクローニングして登録したものや、ゲノムプロジェクト・ESTから予想された配列(XM_, XP_ eXpected由来か)を統合して作成されています。信頼できる重宝な配列ですが、系統によりSNPsがあったり、稀にORFの取り方が違うものもありました。

○GenBank?FASTA?
 遺伝子情報のフォーマットは複数有ります。私は主にGenBankとFASTAを使います。
後述のApE(無料)やGENETYX(有料)など、対応したソフトで扱う場合はGenBank形式が良いでしょう。
 塩基配列・アミノ酸配列だけが欲しい場合にはFASTA形式が便利です。以降GenBank形式で説明します。GenBank、FASTA形式の見方は別ページのサンプルをご参照下さい。

●cDNA(mRNA)のRefSeqの見方

GenBankフォーマットは
LOCUS       NM_001014576            3696 bp    mRNA    linear   INV 04-JAN-2008
で始まり、DEFINITION、ACCESSION、などの項目が続き、FEATURES、ORIGIN 塩基配列 //で終了します。
詳しくは、「GenBank形式の見本」を御覧下さい。
ApEでのグラフィック表示に必要なのはFEATURES以降ですが、一応全体を保存します。
ダウンロードは、

Send toメニューから、Fileを選び保存します。デフォルト名 sequences.gb は必要なら変更します(拡張子.gbはそのまま)。

●GenomeのRefSeqの見方

書式はcDNAと同じですが、目的遺伝子の部分だけが遺伝子のセンス側が表示されています。
ショウジョウバエClockの場合は NT_037436 の 7757071..7768703 が表示され、しかも、遺伝子が染色体に対して逆向きなので塩基配列をひっくり返して(Reverse) complemented strandで表示されています。上流・下流の配列が必要な場合は、Rangeを変更します。表示方向をプラスに戻したい場合には ■ Reverse complemented strandを外します。

Send toメニューから、Fileを選び保存します。

ApEでGenBank形式ファイルを開く

ApEをダウンロードして下さい。Windows, Mac OSX (PPC, Intel), Linux 用が有ります。IntelMacはOS10.4まで、ウィンドウズはXPまで対応です。なお、Vista(ビスタ)では問題なく動作しています。
ApEではGenBankやABIシークエンサーなど様々な形式の塩基配列を開くことが出来ます。

ヒトClock遺伝子の例
ApEの保存ファイル形式はGenBankです。ダウンロードしたファイルの FEATURES情報は、ApE上では塩基配列の着色で表示され、模式図の表示も出来ます(Enzymesメニューの Graphic Map)。 プライマー設定など、ApEで追加した Features はGenBank形式の FEATURES に追加されてゆきます。
模式図はepsで保存できます。ショウジョウバエClockはスプライシングが複雑すぎるので、ヒトClock遺伝子の例を右に載せます。


pUASTの例
ちなみにプラスミドなど環状DNAの場合は Circularに切り換えれば、下図のように表示されます(pUASTの例)
 (おまけ:pUASTの配列pCaSpeR-hsの配列 ※Featureは後から加えたので色遣いは適当です。pUASTではMCSが逆に表示されています。UASTプライマーのFw, Rvは登録情報に対する向きで、ORFに対する向きではないので逆にクローニングにないように気をつけましょう。詳しい情報は、FlyBaseのFilesメニュー、Vectors & Constructsにあります: pUAST, pCaSpeR-hs


以下に簡単な操作説明を記しました。
詳しい操作方法は、作者の説明書(MS Word形式。英語)を御覧下さい。

■ApEの使い方 非公式簡易マニュアル

 基本的にMac環境に基づいて説明します。
  1. 動作環境とインストール
  2. 扱えるファイル形式
  3. 塩基配列の操作
  4. 検索
  5. Feature(特徴)
  6. 制限酵素
  7. 翻訳
  8. プライマー検索
  9. アライメント

●動作環境とインストール


MacOS10.4でのインストール

動作環境

ApEはMacOSX, Windows, Linuxで使用できます。適当な版を作者のホームページからダウンロードします。
MacOSXではPowerPCの10.3, 10.4で動作しています。
IntelMacではOS10.4に対応、10.5未対応とありますが、10.5でも動いています。
WindowsではXP, Vistaで動作しています。

インストール

マックでは Ape_OSX_current.dmg をダウンロードします。開くとディスクイメージがマウントされますので、ApEとDocs(説明書)をアプリケーションフォルダにコピーします。
Windows, Linuxでは zip ファイルで配布されているので、解凍して使用します。移動すると開かなくなる事があるので、作者の説明書(MS Word形式。英語)を良く読んで使用しましょう。

●扱えるファイル形式

塩基配列

ApEが保存するファイル形式はGenBankフォーマットです(DNA striderにも変更可能)。
拡張子は「.gb」がつきますが、テキストなのでワープロでも開くことが出来ます。
他の汎用塩基配列フォーマット、エディタソフトのファイルなら大抵は開くことが出来ます。
ワープロで加工した塩基配列をApEで開くには、テキストフォーマット(.txt)にします。
内容が所定の形式でも、リッチテキスト(.rtf)、ワード(.doc)で保存された文書は受け付けません。
※拡張子の表示について。

MacOSXで拡張子を表示する

シークエンスファイル

ABIフォーマットの波形図
ApEで開いたABIファイル
(16年前のデータです)
ABIシークエンサーで得られた波形ファイル(拡張子「.ab1」など※拡張子は無くても可)も表示できます。
後述のアライメントも可能です。
10年以上前にABI373で解析した波形ファイルでも表示できました。
読み上げたり、配列を編集、書き出すことも出来ます。
波形を4〜5段に割り付けた印刷も出来ます。プリンタの性能なのかガクガクした波形になって美しくありませんでした。

●塩基配列の操作

塩基配列の入力

塩基の追加はCopy&Paste、キーボードからの入力で行います。
ACGTはテンキーでも入力できます。キー設定はPreferencesから変更できます(右:設定変更)。
ACGTN以外を扱う場合(R = A or Gなど)は、Preferencesから変更できます(右:設定変更)。
改行やスペースなど塩基配列以外は入力できません。
大文字、小文字は区別して保存されますが、表示以外には影響しません。気になった場所に一時的に印を付けるのに役に立ちます。大文字小文字の変換は、ツールバーのボタン(右:大文字・小文字)か、ショートカットで行います。

環状・直鎖状

右上の linear/circular ボタンで設定します。

塩基配列の反転(相補鎖)

ApEでは反転(相補鎖)表示は出来ません。全体を選択して、メニュー/Edit/Reverse-Complemet を選べば逆転します。
Reverse や Complemet は使うことがないと思います。

塩基配列の印刷

メインウィンドウでは印刷が出来ません。
塩基配列の印刷は メニュー/Enzyme/Text Map から行います。
"Enzymes" をオフにするか、酵素を選択しなければ塩基配列だけが表示されます。
"Characters/lane"は適当にセットします。 30の倍数が見やすいでしょう。プリンターにもよりますが180だと右が切れるかもしれません。
 "2nd Strand" をオンにして二本鎖表示にした方がプライマー作成には良いでしょう。
 "Features" は特に必要無ければオフにします。
後述の、アミノ酸配列も並べて表示・印刷できます。

●検索

塩基配列の検索


検索方法
ツールバー「虫眼鏡」か、コマンド+Fで検索画面を開きます(右図)。
配列をキーボードから入力 or Copy&Paste。
Enter or "Find next"をクリックします。
結果は白黒反転でハイライト表示されます。
相補鎖も検索したい場合(リバースプライマーの確認など)は、also find rev-com string をオンにします。

塩基番号による検索

「100塩基目〜200塩基目」のような検索はツールバーか、
メニューバー/Edit/Select From-To ↑⌘A から検索窓を開き、数字を入力します。

●Feature(特徴)

塩基配列ウィンドウでのFeatureの表示

登録されているFeatureは自動的に着色表示されます。
一覧は メニューバー/Features/List Features で表示され、リスト中のFeatureをクリックするとメインウィンドウの塩基配列がハイライトされます。

グラフィックウィンドウの表示


ヒトClock遺伝子の例
以下の方法でGraphic Mapを表示します。

pUASTの例
プラスミドが環状に表示されない場合は、メインウィンドウ右上の linear/circular ボタンで設定します。

グラフィック上のFeatureをクリックするとメインウィンドウの塩基配列がハイライトされます。

Featureの追加・編集

新規Featureの追加
範囲を塩基配列ウィンドウで選択します。
右クリック又はメニューバー/Features/New Features で右図:Edit Feature... を表示します。
Featureの 変更
塩基配列上で、右クリック又はメニューバー/Features/Edit Features で 一覧表示し、ダブルクリックし右図:Edit Feature... を表示します。
名称や方向、表示色(赤は避ける)、種類を設定します。キャンセルする場合はこのウィンドウを閉じます。位置は変更できないので、変更したい場合は削除して設定し直します。

Featureの順序設定・削除

塩基配列ウィンドウのメニューバー/Features/Edit Features で 一覧表示します。順序を変更したいFeatureを選択し(複数可)、Raise, Lowerボタンで変更します。
この画面で、個別Featureの削除も行えます。
全てのFeatureを削除する場合は、メニューバー/Features/Clear Featuresで一括消去できます。
なお、これらの操作は取り消し(Undo)ができません。
Featureはコピペや相補鎖を反転しても保持されます。配列を挿入すると分割される場合があります。

●制限酵素


Enzyme selectionを開く

Enzyme selectionウィンドウ

制限酵素の選択

Enzyme selection ウィンドウを開く。
コマンド+E、メニューバー/Enzymes/Enzymes Selector、またはメインウィンドウのボタン。
目的の酵素をクリックするか、uniqueなど条件を絞って選択します。
選択した酵素は次の選択変更が有るまで有効です。リセットは clear all ボタンを押します。

酵素の追加・削除

Enzyme selection ウィンドウのメニューバーから行います。
「ラボにある酵素」のような酵素ファイルやグループを作成しておくと便利でしょう。
酵素ファイルはEnzyme selection ウィンドウのFileメニューで開いたり保存します。

メチル化選択

このウィンドウやメインウィンドウにDam/Dcmのチェックボックスがあります。通常のクローニング用大腸菌はこれらのメチル化酵素を持つので、ONにします。
メチル化についてはタカラの「制限酵素活性に対するメチル化の影響」などをご参照下さい。
PCR産物の直接消化ではOFFでも可です。

ハイライト表示

メインウィンドウの配列上で、選んだ酵素サイトをハイライト表示できます。
ハイライト色は赤がデフォルトで、変更できます。Featureに赤を使うと区別出来ないので配色に気をつけましょう。
酵素を選んだら、Enzyme selection ウィンドウ、又はEnzymesメニューの Highlight で実行します。
解除はEnzymesメニュー/ Clear Highlighting です。

制限酵素マップ表示

酵素を選択したら、Enzyme selection ウィンドウ、又はEnzymesメニューの Graphic Map (コマンド+Y) で表示します。
Graphic Map +U では選択した以外のユニークサイトも表示されます。
マップ上の制限酵素名をクリックするとメインウインドウの塩基配列にカーソルが移動します。
マップ表示の直線/環状設定はメインウィンドウ 右上の linear/circular ボタンで設定します。
画像は eps 形式で保存できます。画像サイズは、メニュー/Image/Scale で変更できます。

TEXT表示

制限酵素サイトを配列上に表示するには、Enzymesメニューの Text 、メニュー/Enzymes/Text Map から表示します。 表示設定の変更は前述の「●塩基配列の操作」を御覧下さい。

電気泳動パターン表示(Digest)

バンドパターンの例
ApEによるバンド表示例

選択した制限酵素で消化し、電気泳動した場合のパターンを表示できます。
バンドをクリックすると、対応する塩基配列がハイライトされます。
右は配列のサンプルをPst Iで切断した例です。

表示されているマーカーはInvitrogenの "1kb Plus ladder" のようです。デフォルトでは、1kb plus とラムダHin dIIIが登録されており、任意のマーカー設定も可能です。Enzymes/Ladder のメニューから設定できます。

制限酵素リスト表示

認識サイト数などの制限酵素リスト(「切断しない酵素」など)を表示できます。
メニューバー/Enzymes/List Enzymes... (または Quick Lists)

●翻訳

ApEによるORF検索1
メインウィンドウでのORF検索

メインウィンドウでのORF検索

メニューのORFsから、Find Next でORF(タンパク質コード領域、CDS: coding sequence とも)がハイライト表示されます。なお、これは、開始コドンからストップコドンであり、真のタンパク質コード領域とは限りません。

ORFマップの表示

ApEによるORF表示の例
ApEによるORF表示の例
メニューのORFsから、ORF map を選ぶと、6つの可能なフレーム(表3通り、裏3通り)が一括表されます。上から読み枠1,2,3で、短い線が、開始コドン(ATG)、長い線はストップコドンを示しています。

※ORFの検索が目的ならば、NCBIのORF Finderが分かり易く便利です。


タンパク質配列への翻訳と結果の保存

ApEによる翻訳結果の例
タンパク質配列への翻訳
(ninaE mRNAのDL)
目的の範囲を選択し、メニューのORFsから、Translate を選ぶと、翻訳設定が表示されます。
アミノ酸配列のみを表示したい場合は「DNA: None」をチェックします。
OKで翻訳結果が表示されます。停止コドンは*で表示されます。
結果はテキスト形式で保存できます。
保存結果はワープロで開けます(※ApEはアミノ酸配列を開けない)。
表示されているDNAや数字も保存されてしまうので、必要なければNoneに設定します。
Translateでは一つのORFのみしか表示できません。
複数のORFを同時に表示するには、次の方法があります。

タンパク質配列と制限酵素マップの同時表示・複数フレームの表示

Enzymesから、Text Mapを選びます。TranslationのShowをオンにします。
表示するフレーム数と、表示方法(一文字表記 or 3文字表記)を選択します。
必要なら制限酵素、Featureの表示も設定します。
OKで翻訳結果が表示されます。
結果はテキスト形式で保存できますが、DNAを非表示には出来ませんので、アミノ酸配列だけの表示や保存は先述のTranslateで行ってください。

●プライマー検索

研究関連リンク集を御覧下さい。

●アライメント

Apeでは2つの塩基配列のアライメントが可能です。
手順は以下のようにします。
  1. 二つの塩基配列を開きます。
  2. Align Sequences (MacはCommand + L) → Align DNA ウィンドウが開きます。
    • Window のプルダウンメニューで、目的の配列を選びましょう。(下段は最初に選んだ配列、上段は最後に選んだ配列がデフォルト。複数の配列を扱うときはコンセンサス配列を下段に固定すると作業が楽)
    • 範囲を決めて比較する場合は、予め目的範囲をハイライトしておき、□Selection onlyにチェックを入れます。
    • +鎖とー鎖を比較したい場合は、ひっくり返したい方の□Rev-com にチェックを入れます。
    • Featureを表示したい場合は、□Copy hilighting... にチェックを入れるます。
  3. アライメントが表示されます。
    • 塩基をダブルクリックすると解析した配列が手前になり、該当塩基の手前にカーソルが位置します。
    • 解析した配列を手前に表示するには、Textメニュー/Raise Window1, Raise Window2も使えます。
    • 結果はテキスト形式で保存出来ます。
    • 範囲を選択してコピーで出来ます。
    • 結果は印刷出来ます(Textメニュー/Print)。モノクロ印刷はTextメニュー/Print with color...を外す。

以下アンカースクロール用の余白です。