常见fasta序列文件处理
FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。
从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。可以仅包含一条序列,也可以包含多条序列。
本程序调用seqkit软件处理,参考:https://bioinf.shenwei.me/seqkit/
输入
|
>ENSMUSG00000020122
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT
TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA
GGGCCCACCTGTTCTCTGGT
>ENSMUSG00000020123
GAGTCAGGTTGAAGCTGCCCTGAACACTACAGAGAAGAGAGGCCTTGGTGTCCTGTTGTC
TCCAGAACCCCAATATGTCTTGTGAAGGGCACACAACCCCTCAAAGGGGTGTCACTTCTT
CTGATCACTTTTGTTACTGTTTACTAACTGATCCTATGAATCACTGTGTCTTCTCAGAGG
CCGTGAACCACGTCTGCAAT
|
输出 |
fasta基本统计信息。 根据不同的功能类型,输出不同的结果
|
常见问题
1,如何作图?
1,准备作图数据;2,用excel打开数据,调整为示例格式;3,将调整后的数据粘贴到输入框;4,选择参数;5,提交出图
2,为什么不出图?
程序对输入格式有严格要求。请务必仔细查看右侧说明及示例数据。常见错误包括:非制表符分割,数据列数不对,没有带title等
3,导出图片?
默认提供3种类型图片供下载:pdf, svg和png(300 dpi),部分未提供的,请在生成图片上点击鼠标右键,选择另存为(直接是svg格式文件,文件后缀不用改)。推荐使用
chrome浏览器
4,编辑图片,以满足杂志需求?
默认Arial字体,8 x 6(或6 x 6)大小(inch)。下载
Inkscape软件(最兼容,推荐,
inkscape常用技巧),打开另存的svg文件,修改布局,文字等后,导出pdf或其他格式图片
5,如何引用
本站内容未公开发表paper,如需引用,请使用如下格式,或者原生R包:
Heatmap was plotted by http://www.bioinformatics.com.cn, an online platform for data analysis and visualization.