SAV사용법
시퀀싱 LOW 파일이 존재하면 SAV 프로그램을 활용한다.
Yield : 생산된 염기서열(base)의 수. 몇십기가라고 하면 그게 파일 크기가 아니라 염기서열 개수이다.
error rate: percentage of bases called incorrectly. PhiX를 같이 섞어서 넣어주어야한다.
Q30: 99.9%의 정확도이다. 염기서열 1000개중 1개가 정확한 것이다.
Density: 프롤우셀에서 cluster가 제대로 형성되는지. 너무 빽빽하면 사진찍을 때 염기를 확인하기 어렵다. 적당히 깔아줘야한다. 너무 적게 깔면 Sequencing yield가 너무 적게 나온다.
Cluster PF: 일루미나 장비에서 제대로 필터를 통과하였는지.(Passing Fileter)
Raw Fastq
Fast QC : q30 필터링 이후 fastq 파일
Alignment: read가 reference에 mapping된다.
PCT_PF_READS_ALIGNED: reference sequence에 align한 pf read의 비율
insert size
adapter를 제외한 것을 inset size라고 한다. 150 정도. 만일 insert size가 작으면 read1과 read2가 겹쳐 읽힐 수도 있다.
duplicate marking
duplication 되기도 한다. paired end, 방향도 고려한다. 일반적으로 hybe는 duplication을 제거한다.
unmapped_read: mapping되지 않은 read. gid가 들어가 있을 수 있다.
unpaired read duplication
Uniformity
-uniformity5x: 평균값의 50%이상이 되는 값의 비율
-uniformity2x: 평균값의 20% 이상이 되는 값들의 비율
amplicon일 때 왜 duplicate 제거를 하지 않는가?
실험방식 자체가 pcr한 것이라서 중복이 되게 만든것이라 제거해버리면 대부분 날라간다.
duplicate 제거를 picard로 하고 있는데, alignment하고 나서 100%시퀀스가 동일한 것 만 제거한다.
날짜_장비번호_run회수_flowcell