grep 그리고 wc 는 자주 쓰니까 다 잘 알고 있다고 생각 합니다. 예를 들어
- grep ATGC my.fasta : 이건 my.fasta안에서 ATGC가 있는 모든 줄을 표시 합니다
- grep -c ATGC my.fasta : 이건 my.fasta안에서 ATGC가 있는 줄이 몇 줄인지 알려줍니다
- wc -l my.count_table : 이건 my.count_table안에 몇 줄이 있는지 알려줍니다, 따라서 1을 빼면 unique sequence 수를 알 수 있고 “grep -c ‘>’ my.fasta 와 동일 한 숫자가 나와야합니다
다음은 awk 입니다. 아주 좋은 command인데 생각 보다 많은 사람들이 쓰지 않고 Excel로 처리 하고 있는데 awk가 더 편합니다 awk는 “행” 말고 “열”을 표시 할때 사용 합니다. 예를 들며 column5개 있는 excel 데이터를 메모장에 copy paste 해서 a.txt 랑 이름으로 저장 해서 3번째 column만 보여주고 싶으면 1 command. 2번째가 0.05 이하인 경우 5번째 표시 하고싶으면 2 command. 3번째 column, 4번째 column을 표시 하고 싶고 사이사이를 <tab>으로 separation표시 할려면 3command
- awk ‘{print $3}’ a.txt
- awk ‘{if($2<0.05) print $5}’ a.txt
- awk ‘{print $3″\t”$4}’ a.txt
다음은 sed 라고 하는 command 인데 sed는 문자를 치환 해줍니다. 예를 들어 a.txt랑 메모장에 ABcDEFG 라고 있는데 그걸 ABCDEFG로 수정 해서 b.txt에 저장 하고싶다면 command 1처럼 실행 하면 c를 C로 치환 해줍니다. 모든 줄에 적용 됩니다. 하지만 첫번째 c만 치환 해주고 같은 줄에 한번 더 c가 있으면 치환 안해줍니다. 한줄에 있는 모든 c를 C로 치환을 원한다면 g를 추가 하시면 됩니다 (command 2)
- sed ‘s/c/C/’ a.txt >b.txt
- sed ‘s/c/C/g’ a.txt >b.txt