Bioinformatics Issue๐Ÿงฌ

์ธ์ฝ”๋ Œํƒˆ ์„œ๋น„์Šค๋ฅผ ์ด์šฉํ•œ NGS ๋ฐ์ดํ„ฐ ๋ถ„์„ (feat. ์‚ฌ์šฉ๋ฐฉ๋ฒ•, ์žฅ๋‹จ์  ๋ฐ ํ›„๊ธฐ)

ํžˆ์Šคํ†ค 2024. 4. 23. 10:35

์˜ค๋Š˜์€ NGS ๋ถ„์„๊ณผ ๊ด€๋ จํ•˜์—ฌ ์ธ์ฝ”๋ Œํƒˆ์ด๋ผ๋Š” ์ƒ๋ฌผ์ •๋ณด ๋ถ„์„ ์†”๋ฃจ์…˜ ๋‹จ๊ธฐ ์ž„๋Œ€ ์„œ๋น„์Šค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ํ‰์†Œ์— NGS ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌํ•˜๊ฑฐ๋‚˜ ๋ถ„์„์„ ์ง„ํ–‰ํ•˜๋Š” ๋ถ„๋“ค๊ป˜ ์œ ์šฉํ•œ ์„œ๋น„์Šค์ผ ๊ฒƒ ๊ฐ™์•„ ์†Œ๊ฐœํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

 

1. ์ธ์ฝ”๋ Œํƒˆ์ด๋ž€?

ใˆœ์ธ์‹ค๋ฆฌ์ฝ”์  ์—์„œ๋Š” ์—ฐ๊ตฌ์ž๋“ค์ด ์ƒ๋ฌผ์ •๋ณด๋ฅผ ๋”์šฑ ํŽธ๋ฆฌํ•˜๊ฒŒ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ฃผ๋Š” ์ƒ๋ฌผ์ •๋ณด ๋ถ„์„ ์†”๋ฃจ์…˜(IPA with Analysis Match, CLC Genomics Workbench ๋“ฑ)์„ ๊ณต๊ธ‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ธ์ฝ”๋ Œํƒˆ์€ ์ƒ๋ฌผ์ •๋ณด ๋ถ„์„ ์†”๋ฃจ์…˜์„ ์›ํ•˜๋Š” ๋งŒํผ ์œ ์—ฐํ•˜๊ฒŒ ๋Œ€์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ์„œ๋น„์Šค๋กœ ์ง์ ‘ ์ฝ”๋”ฉํ•˜์ง€ ๋ชปํ•˜๋”๋ผ๋„ GUI ํ™˜๊ฒฝ์—์„œ ๊ฐ„ํŽธํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒŒ ์ •๋ง ํฐ ์žฅ์ ์ž…๋‹ˆ๋‹ค.


2. ์ธ์ฝ”๋ Œํƒˆ์„ ์ด์šฉํ•œ RNA seq ๋ถ„์„ ๋ฐ ๊ฒฐ๊ณผ Review

 

์ธ์ฝ”๋ Œํƒˆ์„ ์ด์šฉํ•˜์—ฌ ๋ถ„์„ํ•  ๋ฐ์ดํ„ฐ๋Š” SRA์— ๋“ฑ์žฌ๋œ RNA Seq ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. Ovarian cancer tumor ๋ฐ์ดํ„ฐ๋กœ Fastq ๋ฐ์ดํ„ฐ๋กœ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์•„์„œ ์ด๋ฒˆ ๋ถ„์„์— ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

 

 

SRA Archive: NCBI

Updated: Wed Dec 6 10:54:10 EST 2023

trace.ncbi.nlm.nih.gov

 

์˜ค๋Š˜ ์ง„ํ–‰ํ•  ๋ถ„์„์€ RNA ๋ถ„์„์œผ๋กœ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์— ์–ด๋–ค ์œ ์ „์ž๋“ค์ด ๋ฐœํ˜„๋˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•ด๋ณผ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

 

RNA seq ๋ถ„์„์€ ์ƒ๊ฐ๋ณด๋‹ค ๋ฐ์ดํ„ฐ๊ฐ€ ์ž‘์•„์„œ ์‹œ๊ฐ„์ด ์ ๊ฒŒ ์†Œ์š”๋˜๋Š”๋ฐ ์ธ์ฝ”๋ Œํƒˆ์€ ๋‹จ๊ธฐ ์‚ฌ์šฉ๋„ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ ํ•„์š”ํ•œ ๋ถ„์„์— ํšจ์œจ์ ์œผ๋กœ ์ด์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ์ข‹์€ ๊ฒƒ ๊ฐ™๋‹ค๊ณ  ๋А๊ผˆ์Šต๋‹ˆ๋‹ค.


3. RNA seq ๋ถ„์„ ์ง„ํ–‰ ๋ฐฉ๋ฒ•

<๋ถ„์„ ๋ฐ์ดํ„ฐ ์ค€๋น„ํ•˜๊ธฐ>

๋จผ์ € ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ์œ„์™€ ๊ฐ™์ด Fastq ๊ฐ™์€ raw ๋ฐ์ดํ„ฐ๋ฅผ ์—…๋กœ๋“œ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

ํŒŒ์ผ ์—…๋กœ๋“œ๋ฅผ ์œ„ํ•ด์„œ๋Š” FileZilla๋ผ๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ๋จผ์ € ์„ค์น˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

1) Remote Ripple ๋‹ค์šด๋กœ๋“œ

 

2) CLC Genomics Workbench ์‹คํ–‰

โ— CLC Genomics Workbench๋ž€?

: QIAGEN์—์„œ ๋งŒ๋“  Next Generation Sequencing (NGS) ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ GUI ๊ธฐ๋ฐ˜์˜ ์†Œํ”„ํŠธ์›จ์–ด ์ž…๋‹ˆ๋‹ค. Sanger/ Illumina/ Ion Torrent/ PacBio/ Nanopore ๋“ฑ ๋‹ค์–‘ํ•œ NGS ํฌ๋งท์„ ์ง€์›ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์œผ๋ฉฐ SIMD ๊ธฐ์ˆ ์„ ์ ์šฉํ•œ ์ดˆ๊ณ ์† NGS ๋ฐ์ดํ„ฐ ๋ถ„์„์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

 

 

์œ„์™€ ๊ฐ™์ด ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ์— ํ†ตํ•ฉ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” Tool์„ ์ œ๊ณตํ•˜๋ฉฐ, Genomics/ Transcriptomics/ Epigenomics/ Metagenomics ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

 

3) FileZilla ์„ค์น˜ ๋ฐ ์‹คํ–‰ (๋ฐ์ดํ„ฐ ์—…๋กœ๋“œ)

File Zilla๋ฅผ ์„ค์น˜ํ•ด์ฃผ๊ณ  ์•„๋ž˜์™€ ๊ฐ™์ด ๋ถ€์—ฌ๋ฐ›์€ ID, PW๋กœ ์„œ๋ฒ„์— ๋กœ๊ทธ์ธํ•ด์„œ ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ๋ฅผ ์—…๋กœ๋“œ ์‹œ์ผœ์ค๋‹ˆ๋‹ค.

File Ziilla๋ฅผ ์„ค์น˜ํ•˜๋ฉด ํ”„๋กœํ† ์ฝœ ๋ฐ ํ˜ธ์ŠคํŠธ ์ •๋ณด๋ฅผ ์ž…๋ ฅํ•˜๋ผ๊ณ  ํ•˜๋Š” ์ฐฝ์ด ๋œจ๋Š”๋ฐ, ์ด๋•Œ ์ธ์‹ค๋ฆฌ์ฝ”์  ์—์„œ ๋ถ€์—ฌ๋ฐ›์€ ๊ณ„์ •์„ ์ž…๋ ฅํ•ด์ฃผ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

์œ„์™€ ๊ฐ™์ด ๋‹ค์‹œ ์ ‘์†๋˜๋ฉด ์—ฐ๊ฒฐ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ƒˆ ์‚ฌ์ดํŠธ์— ์„ค์ •ํ•ด์ค€ ์ด๋ฆ„์„ ํด๋ฆญํ•ฉ๋‹ˆ๋‹ค.

 

ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐœ์ธ ์ปดํ“จํ„ฐ์—์„œ(์™ผ์ชฝ ํ™”๋ฉด) /home/ubuntu ๋กœ ๋“œ๋ž˜๊ทธํ•˜์—ฌ ์˜ฎ๊ฒจ์ค๋‹ˆ๋‹ค.(์˜ค๋ฅธ์ชฝ)

 

์ด๋ ‡๊ฒŒ ๋ถ„์„์— ์‚ฌ์šฉ๋  data๋ฅผ ์„œ๋ฒ„์— ์—…๋กœ๋“œ ํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค

 

4) CLC Genomics Workbench ๋ฐ์ดํ„ฐ ๊ฐ€์ ธ์˜ค๊ธฐ

โ— ๋ถ„์„์šฉ data ์—…๋กœ๋“œ

โ‘ ์ผ๋ฐ˜์ ์ธ data ์—…๋กœ๋“œ ๋ฐฉ๋ฒ•

CLC Genomics Workbench 24๋ฅผ ์„ ํƒํ•ด์„œ ์‹คํ–‰์‹œ์ผœ์ค๋‹ˆ๋‹ค.

 

์ ‘์†ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฐฝ์ด ๋œน๋‹ˆ๋‹ค.

 

 

Import ๋ฒ„ํŠผ์„ ํ†ตํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.

 

 

Add files๋ฅผ ์„ ํƒํ•˜๊ณ 

 

FileZilla๋ฅผ ํ†ตํ•ด ์˜ฎ๊ฒจ๋‘์—ˆ๋˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•ด์„œ import ํ•ด์ค๋‹ˆ๋‹ค.

 

 

Import๊ฐ€ ์™„๋ฃŒ๋˜๋ฉด ์™ผ์ชฝ ์ƒ๋‹จ ๋ฐ•์Šค์— ์—…๋กœ๋“œ ํ•ด์ค€ ์ƒ˜ํ”Œ์ด ์ƒ๊ธด ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

โ‘ก Fastq ์—…๋กœ๋“œ ๋ฐฉ๋ฒ•

Fastq๋ฅผ ์—…๋กœ๋“œ ํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ์—…๋กœ๋“œ ํ•ด์ฃผ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

Import ํƒญ์—์„œ Fastq๋ฅผ ๋ถ„์„ํ•œ ์‹œํ€€์„œ ์ข…๋ฅ˜๋ฅผ ๊ณจ๋ผ์ค๋‹ˆ๋‹ค. ์ผ๋ฃจ๋ฏธ๋‚˜ ์žฅ๋น„๋ฅผ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฏ€๋กœ illumina๋ฅผ ์„ ํƒํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

Fastq์—์„œ๋Š” Quality score, ์„œ์—ด์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์œ„์™€ ๊ฐ™์€ ์ •๋ณด๋“ค์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

โ‘ข VCF ์—…๋กœ๋“œ ๋ฐฉ๋ฒ•

VCF ์—…๋กœ๋“œ๋ฅผ ํ†ตํ•˜์—ฌ Variant calling ๊ฒฐ๊ณผ๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


5) Reference Download

๊ทธ๋‹ค์Œ ๋ถ„์„์— ํ•„์š”ํ•œ ๋ถ€๊ฐ€์ ์ธ ํŒŒ์ผ๋“ค์„ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

โ‘   reference ๋ฐ›๊ธฐ

์‚ฌ๋žŒ RNA seq ๋ฐ์ดํ„ฐ์ด๋ฏ€๋กœ human hg19๋กœ reference genome์„ ๋ฐ›์•„์ค๋‹ˆ๋‹ค. CLC Genomics Workbench์—์„œ ์šฐ์ธก ์ƒ๋‹จ์— References๋ผ๊ณ  ๋˜์–ด์žˆ๋Š” ๋ถ€๋ถ„์„ ๋ˆ„๋ฅด๋ฉด ์—ฐ๊ตฌ์ž๋“ค์ด ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋Š” human, mouse ๋“ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์‰ฝ๊ฒŒ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

 

์ €๋Š” human ๋ฐ์ดํ„ฐ์ด๋ฏ€๋กœ hg19 reference๋ฅผ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.

 

Homo sapiens-hg19๋ฅผ ์„ ํƒํ•ด์„œ human hg19 reference๋ฅผ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.

 

NCBI, UCSC ๋“ฑ ๋‹ค์–‘ํ•œ DB๋ฅผ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์„ ํƒํ–ˆ๋‹ค๋ฉด Download ๋ฒ„ํŠผ์„ ๋ˆ„๋ฆ…๋‹ˆ๋‹ค.

์ด ์ž‘์—…์€ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ์†Œ์š”๋˜๋‹ˆ ๊ผญ ํ•„์š”ํ•œ DB๋งŒ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์œผ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ์ด๋ฏธ ์„œ๋ฒ„์ƒ์— ์˜ฌ๋ผ์™€ ์žˆ์–ด reference๋ฅผ web ํŽ˜์ด์ง€์—์„œ ๋”ฐ๋กœ ์ฐพ์„ ํ•„์š”๊ฐ€ ์—†์–ด์„œ ์ข‹์•˜์Šต๋‹ˆ๋‹ค.


โ‘ก RNA-seq analysis with CLC Genomic Workbench ๋ถ„์„

RNA-seq์˜ ์ „๋ฐ˜์ ์ธ ๋ถ„์„ ๊ณผ์ •์€ [Data import/ Reference] – [Preprocessing] – [RNA-seq analysis] – [Visualization] ์ž…๋‹ˆ๋‹ค.

์œ„์—์„œ ํ•„์š”ํ•œ Data ๋“ค์€ import ํ•ด์™”๊ธฐ ๋•Œ๋ฌธ์— preprocessing๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.

 

6) Preprocessing

Preprocessing ๋‹จ๊ณ„๋Š” trimming ํ•˜๋Š” ๋‹จ๊ณ„๋กœ NGS ๋ถ„์„ ์‹œ, contamination ๋˜๊ฑฐ๋‚˜ ๋‚ฎ์€ ํ€„๋ฆฌํ‹ฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ์ž‘์—…์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ฆ‰, ์‹œํ€€์‹ฑ ํ•œ raw ๋ฐ์ดํ„ฐ๋Š” trimming ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์„œ clean ํ•œ ๋ฐ์ดํ„ฐ๋กœ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.

 

Trimmingํ•  ๋ฐ์ดํ„ฐ๋ฅผ ๊ณจ๋ผ์ค๋‹ˆ๋‹ค.

 

์ดํ›„ Quality trimming ์‹œ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉํ•  score๋ฅผ ์ •ํ•ด์ค๋‹ˆ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ์ตœ์ข… ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์ €์žฅํ• ์ง€ ์ง€์ •ํ•ด์ฃผ๋ฉด trimming ๋ถ„์„์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.


7) Trimming Result

 

Table of contents

Trimming ๊ฒฐ๊ณผ๋Š” Trim summary, Read length, Trim setting, Detailed trim result, Automatic adapter  read-through trimming์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ด๋ฒˆ์— ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ, Read ์ˆ˜๊ฐ€ 312,402๊ฐœ์˜€๋Š”๋ฐ trimming์ด ๋œ sequence ๋“ค์ด 16654์˜€๋˜ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

trimming์ดํ›„์— total read ์ˆ˜๋Š” 21,007๊ฐœ๋กœ ๊ฐ์†Œํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ Trimming ์‹œ ์„ธํŒ…ํ–ˆ์—ˆ๋˜ limit ๊ธฐ์ค€๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €๋Š” low quality sequence limit์„ ๊ธฐ๋ณธ ๊ฐ’์ด์—ˆ๋˜ 0.05๋กœ ์„ค์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

 

์ž์„ธํ•œ trim result๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ์š”, quality๋กœ ์ธํ•ด์„œ trimming ๋œ read์˜ ๊ฐœ์ˆ˜๋„ ์•Œ ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋ฒˆ์— 5,466๊ฐœ๊ฐ€ quality fail๋กœ ์ธํ•ด์„œ trimming ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

 

์ด์™€ ๊ฐ™์ด trimming์ด ์–ผ๋งˆ๋‚˜ ๋˜์—ˆ๊ณ , trimming ๋œ ์ด์ „๊ณผ ์ดํ›„๋ฅผ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

8) RNA-seq analysis

Trimming ์™„๋ฃŒ ํ›„ trimming ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ RNA-seq ๋ถ„์„์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

๋ถ„์„์— ์‚ฌ์šฉํ•  Trimming ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•ด์ค๋‹ˆ๋‹ค.

 

 

์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ reference ๋ฐ์ดํ„ฐ, Gene track, mRNA track ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์ง€์ •ํ•ด์ค๋‹ˆ๋‹ค. ์ €๋Š” reference ๋ฐ์ดํ„ฐ๋กœ hg19๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. Gene track, mRNA track ๋ฐ์ดํ„ฐ๋Š” reference ๋‹ค์šด๋กœ๋“œ ์‹œ ํ•จ๊ป˜ ๋‹ค์šด๋กœ๋“œ ๋˜๋‹ˆ ๋”ฐ๋กœ ์ค€๋น„ํ•  ํ•„์š”๋Š” ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

 

Read ๊ฐ€ reference ์‹œํ€€์Šค์™€ ๊ฐ™์•„์•ผ ํ•˜๋Š” ์ตœ์†Œ๊ธธ์ด๋ฅผ ์ง€์ •ํ•ด์ฃผ๊ณ  similarity fraction๋„ ์„ค์ •ํ•ด์ค๋‹ˆ๋‹ค. CLC Genomics Workbench์—์„œ ๊ถŒ์žฅํ•˜๊ณ  ์žˆ๋Š” ๊ธฐ๋ณธ๊ฐ’์œผ๋กœ ๋ถ„์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

 

๋งˆ์ง€๋ง‰์œผ๋กœ Strand setting์„ ํ•ด์ฃผ๋ฉฐ Expression level๋„ RPKM์œผ๋กœ ์„ค์ •ํ•ด์คฌ์Šต๋‹ˆ๋‹ค.


9) RNA-Seq Result

RNA-Seq result

RNA-Seq ๊ฒฐ๊ณผ๋ฌผ์€ Selected input sequence, References, Read Quality control, mapping statistics, fragment statistics, Distribution, Transcript length coverage ๊ด€๋ จํ•œ ๊ฒฐ๊ณผ๋“ค์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ถ„์„์ด ์ œ๋Œ€๋กœ ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด read quality control์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Trimming์„ ํ•˜๊ณ  ๋ถ„์„์„ ์ง„ํ–‰ํ•˜์˜€๊ธฐ์— ๋ถ„์„ quality๋Š” ์ข‹์€ ์ˆ˜์น˜๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆฌ๊ณ  ๊ฒฐ๊ณผ๋ฌผ๋กœ Gene expression, Transcript expression ๊ฒฐ๊ณผ์— ๊ด€๋ จํ•˜์—ฌ์„œ๋„ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.

 

<Gene expression>

RNA Seq์„ ํ•˜๋Š” ๋ชฉ์  ๋Œ€๋ถ€๋ถ„์€ Gene expression์„ ๋ณด๊ธฐ ์œ„ํ•จ์œผ๋กœ mRNA์˜ ๋ฐœํ˜„๋Ÿ‰์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ RPKM(Reads per kilobase per million reads) ๋˜๋Š” FPKM(Fragments Per Kilobase per Million reads) ๋“ฑ์˜ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

<Transcript expression>

Transcription expression๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ด๋ฒˆ ๋ถ„์„์˜ ๋ชฉ์ ์€ RNA Fusion ํ™•์ธ์ด๊ธฐ ๋•Œ๋ฌธ์— gene expression์— ๋Œ€ํ•ด์„œ๋Š” ์ž์„ธํ•˜๊ฒŒ ํ™•์ธํ•˜์ง€๋Š” ์•Š์•˜์Šต๋‹ˆ๋‹ค.

 

<Mapping visualization>

Mapping ๋œ ๊ฒฐ๊ณผ๋ฌผ์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ ์–‘์ƒ์— ๋Œ€ํ•ด์„œ๋„ visualization ํ•ด์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์–ด๋–ค ์˜์—ญ์— Depth๊ฐ€ ๋งŽ์ด ์Œ“์˜€๋Š”์ง€ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


10)  Fusion gene detection

RNA Fusion์ด๋ž€ ์œ ์ „์ž ์žฌ์กฐํ•ฉ์œผ๋กœ ์ธํ•ด ๋‘ ๊ฐœ์˜ ์œ ์ „์ž์˜ ์ผ๋ถ€๊ฐ€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ˜•ํƒœ๋กœ ํ•ฉ์ณ์ง„ ์œตํ•ฉ(Fusion) RNA๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ธ‰์„ฑ ๋ฐฑํ˜ˆ๋ณ‘, ํ์•” ๋“ฑ ์ผ๋ถ€ ์•”์ข…์—์„œ ์œ ์ „์ž ์žฌ์กฐํ•ฉ(rearrangement)์ด ์ข…์–‘๋ฐœ์ƒ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋ฏ€๋กœ ์ด๋ฅผ ๊ฒ€์ถœํ•˜๋Š” ๊ฒƒ์ด ์ง„๋‹จ๊ณผ ์น˜๋ฃŒ์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

 

11) Fusion gene detection ๋ฐฉ๋ฒ•

โ‘  ์™ผ์ชฝ ํ•˜๋‹จ์— Toolbox์—์„œ RNA-Seq tool์ธ Detection and Refine Fusion Genes๋ฅผ ํด๋ฆญํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฒˆ์— ํ™•์ธํ•  ๋ฐ์ดํ„ฐ๋Š” human์˜ solid tumor data์ž…๋‹ˆ๋‹ค.

 

โ‘ก ์‚ฌ์šฉํ•  Solid tumor data๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ RNA seq mapping data๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

 

โ‘ข ์•„๋ž˜์™€ ๊ฐ™์ด ๋ถ„์„์— ํ•„์š”ํ•œ RNA mapping data, reference, mRNA track data, Gene track data๋ฅผ ํ•จ๊ป˜ ๋„ฃ์–ด์ค๋‹ˆ๋‹ค.

 

โ‘ฃ ๋ถ„์„ ์‹œ, maximum number of fusion, read count ๋“ฑ cut-off๋ฅผ ์„ค์ •ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์•„๋ž˜์™€ ๊ฐ™์ด ๊ธฐ๋ณธ์ ์œผ๋กœ ์ œ๊ณต๋˜๋Š” cut-off๋ฅผ ์„ค์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

โ‘ค ๋งˆ์ง€๋ง‰์— ๊ฒฐ๊ณผ๋ฌผ์„ ๋”ฐ๋กœ ์ €์žฅํ•˜๊ณ  ์‹ถ์œผ๋ฉด, Save๋ฅผ ์„ ํƒํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฌผ ํ™•์ธ๋งŒ ํ•˜๊ณ  ์‹ถ์œผ๋ฉด Open์„ ์„ ํƒํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.


12) RNA Fusion Result

 

์ƒ์„ฑ๋œ Fusion ๊ฒฐ๊ณผ๋ฌผ์„ pdf๋กœ๋„ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

Fusion ๊ฒฐ๊ณผ pdf์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ๋‚ด์šฉ์€ Summary, Unaligned Ends, Fusion ์ •๋ณด๋“ค์ด๋ฉฐ, ๊ฒ€์ถœ๋œ Fusion ๋“ค์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์ •๋ณด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ด๋‹น ์ƒ˜ํ”Œ์—์„œ GRM8-EXOC3๊ฐ€ fusion์„ ์ด๋ฃจ๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. Fusion annotation ์ •๋ณด๋ฅผ ๋ณด๋ฉด 5’ gene, 3’ gene ๊ทธ๋ฆฌ๊ณ  ๊ฐ fusion์˜ exon ์ •๋ณด, Translocation name, read coverage ๋“ฑ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ด๋‹น fusion์˜ read coverage๋Š” 2๋กœ z-score๋„ 31.61๋กœ ๋‚˜์˜จ ๊ฒƒ์œผ๋กœ ํ™•์ธ๋ฉ๋‹ˆ๋‹ค. Read coverage๊ฐ€ ๋„ˆ๋ฌด ์ž‘์•„์„œ ํ•ด๋‹น fusion์€ false call์ด ์˜์‹ฌ๋ฉ๋‹ˆ๋‹ค.

 

 

๋ฐ˜๋ฉด์— ARFGEF2-EXOC3 Fusion ๊ฒฐ๊ณผ์˜ ๊ฒฝ์šฐ ARFGEF2 ์œ ์ „์ž์˜ 20๋ฒˆ ์—‘์†๊ณผ EXOC3 ์œ ์ „์ž์˜ 3๋ฒˆ ์—‘์†์ด Fusion ๋˜์—ˆ์œผ๋ฉฐ, coverage depth๊ฐ€ 694๋กœ ์‹ค์ œ BAM ํŒŒ์ผ๋กœ ํ™•์ธํ•˜์˜€์„ ๋•Œ๋„ fusion์ด ํ™•์ธ๋ฉ๋‹ˆ๋‹ค.


4. ์‚ฌ์šฉ ํ›„๊ธฐ

<์žฅ์ >

ํ‰์†Œ์— ๋‹ค์–‘ํ•œ ์ƒ๋ฌผ์ •๋ณด ๋ถ„์„ Tool์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋Š”๋ฐ, tool ์„ค์น˜๋ถ€ํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ์„ธํŒ…์— ๋งŽ์€ ์‹œ๊ฐ„์ด ์†Œ์š”๋์—ˆ์Šต๋‹ˆ๋‹ค. ์ธ์ฝ”๋ Œํƒˆ์„ ์ด์šฉํ•˜๋‹ˆ ์ด๋Ÿฌํ•œ ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•ด์„œ ๋”์šฑ ์—ฐ๊ตฌ์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์—ˆ์–ด์š”. ๋˜ํ•œ ์ง์ ‘ ์ฝ”๋”ฉํ•˜์ง€ ์•Š๊ณ  ํด๋ฆญ๋งŒ์œผ๋กœ๋„ ์‰ฝ๊ฒŒ ๋ถ„์„ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ , ๊ทธ๋ฆฌ๊ณ  ๋ถ„์„ ์‹œ๊ฐ„์ด ๊ธฐ์กด์— ์„œ๋ฒ„๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉํ•˜๋˜ ์‹œ๊ฐ„์— ๋น„ํ•ด์„œ ์งง๋‹ค๋Š” ๊ฒƒ๋„ ํฐ ์žฅ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

 

<๋‹จ์ >

์•„๋ฌด๋ž˜๋„ ์ฒ˜์Œ ์‚ฌ์šฉํ•  ๋•Œ ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์—…๋กœ๋“œํ•ด์•ผ ํ•˜๋Š”์ง€, ์–ด๋–ค ๊ธฐ๋Šฅ๋“ค์ด ์–ด๋””์— ์กด์žฌํ•˜๋Š”์ง€ ์ต์ˆ™ํ•ด์ง€๋Š” ๋ฐ๊นŒ์ง€ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฌ๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž ์นœํ™”์ ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์„œ๋น„์Šค์ด์ง€๋งŒ ๋ถ„์„์— ์‚ฌ์šฉ๋˜๋Š” format์„ ๋งŒ๋“ค๊ฑฐ๋‚˜ ์ƒ์„ฑ๋˜๋Š” ๊ฒฐ๊ณผ๋ฌผ์ด ์–ด๋–ค ๊ฒฐ๊ณผ๋ฅผ ํ•˜๊ณ  ์žˆ๋Š”์ง€ ๋ฏธ๋ฆฌ ํŒŒ์•…ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์šด ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

๋ถ„์„ ์‹œ๊ฐ„์ด ์งง๊ฒŒ ๊ฑธ๋ฆฐ๋‹ค๋Š” ์žฅ์ ์„ ํ†ตํ•˜์—ฌ ์—ฐ๊ตฌ์— ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•ด์ค„ ๊ฒƒ ๊ฐ™์œผ๋ฉฐ, RNA Fusion ๊ฒฐ๊ณผ๋„ ํ•œ๋ˆˆ์— ์•Œ์•„๋ณด๊ธฐ ์‰ฝ๊ฒŒ pdf๋กœ ์‹œ๊ฐํ™” ๋ฐ ์ •๋ฆฌ๋˜์–ด ์ƒ์„ฑ๋˜์–ด ์ƒ˜ํ”Œ๋งˆ๋‹ค ๋น„๊ตํ•˜๊ธฐ ์ˆ˜์›”ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  Fusion์˜ ๊ฒฝ์šฐ์— ์–ด๋–ค exon๋ผ๋ฆฌ ์—ฐ๊ฒฐ๋˜์–ด์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ๋ฐ ์ด ๋ถ€๋ถ„์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ๊ฐํ™” ํ•ด์ค˜์„œ ๊ฒฐ๊ณผ ํ•ด์„ํ•˜๊ธฐ์— ์œ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ธ์ฝ”๋ Œํƒˆ์„ ์ด์šฉํ•˜๊ฒŒ ๋œ๋‹ค๋ฉด ์ƒ๋ฌผ ์ •๋ณด ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์ข€ ๋” ๋„์›€์ด ๋  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

'ํ•ด๋‹น ํฌ์ŠคํŒ…์€ ์—…์ฒด๋กœ๋ถ€ํ„ฐ ์ œํ’ˆ๊ณผ ์›๊ณ ๋ฃŒ๋ฅผ ์ง€์›๋ฐ›์•„ ์‹ค์ œ ์‚ฌ์šฉํ•œ ํ›„๊ธฐ๋ฅผ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.'