[转载]Structure 2.2使用指南

2010-08-18 14:18 · sciencewu

群体遗传学——人群结构推断软件Structure 2.2使用指南 http://pritch.bsd.uchicago.edu/structure.html The basic algorithm was described by Pritchard, Steph

群体遗传学——人群结构推断软件Structure 2.2使用指南

https://pritch.bsd.uchicago.edu/structure.html

The basic algorithm was described by Pritchard, Stephens & Donnelly (2000). Extensions to the method were published by Falush, Stephens and Pritchard (2003) and (2007) and by Hubisz, Falush, Stephens and Pritchard (2009).

1、待分析数据文件的编辑

可新建文本文件并命名为project_data,以文本编辑的方式编辑数列:

第一列:样品代码,每一样品占两行,每一行为其一个基因型,如样品1的基因型为AA,样品2的基因型为AT,样品3的基因型为TT,则编辑为:

1      1

1      1

2      1

2      2

3      2

3      2

如果有多个等位基因,可以按1,2,3,4,5等顺序编码各样品的基因型;

第二列:人群代码,即第一群人的代码全为1,第二群人的代码全为2,第三群人的代码全为3;

第三列:位点1的分型结果。如上所述,如果有2个等位基因,可用1、2代表;如果有多个等位基因,可分别以1,2,3,4,5等代表;

第四列:位点2的分型结果。编码方法同上。

2、打开Structure软件,选择File-->OPEN DATA FILE-->选中所编辑好的打他data文件,查看格式、数据,如有修改应保存退出;

3、选择File-->NEW PROJECT-->STEP 1-->命名Project Name-->选择存放路径-->选择保存过的待分析文件;

4、STEP 2-->填入待分析样品数量,如220-->Ploidy of data即选择单倍体或二倍体,选2-->Number of loci,选位点个数-->MiMissing data value,一般选-9;

5、STEP 3-->依次选择row of marker names, row of recessive alleles, map distance between loci, phase information等,没有就不选;最下面,如果没有data file stores data for individuals in a single line就不选;

6、STEP 4-->Individual ID for each individual(选择) ,putative population origin for each individual(选择),USEPOPINFO selection flag(不选),Phenotype information(不选),other extra column(不选)以及number of extra column(不选);

7、点击“Finish”;Proceed;

8、点击Parameter set-->new-->length of burnin peroid (填写10000)-->Number of MCMC Reps after burnin (填写10000);

9、Ancestry Models,Allele frequency model,Advanced等均选Default setting; enter the name: 输入名字,运行完毕将产生一个由该名字命名的文件夹以保存运算结果和绘图。

10、点击“Start a job”,单击选中命名的文件夹名称,设置K从2到7等,其它不选,点击Start。

11、点击“Plotting”,选择刚才命名job的名字,result file选择run_1, run_2等,即可看到聚类的三角图形。

12、注意:运行完毕后产生的以“job名字”命名的文件夹中自动含有project_data文件,其内容与最初编辑的project_data文件完全一致,故原编辑的project_data文件可以删去。

柱形图绘制软件Distruct使用指南

当Structure软件运行完毕获得结果后,往往需要以CLUMPP或distruct软件绘制柱形图。distruct用法如下:

1、从https://rosenberglab.bioinformatics.med.umich.edu/distruct.html下载并解压缩Distruct 1.1压缩包,可以看到含7个以casia为名的文件及5个名字字首为distruct的文件,还有一个drawparams的文件和一个颜色文件夹;

2、运行casia.postscript文件,应该能产生一个含9个群体柱形图的casia.pdf文件,这表明系统及软件正常;

3、打开casia.popq和casia.indivq将其原内容清空并置换为前述Structure软件运行后所产生的_run_1_f文件的内容 (拷贝并粘贴),其中_run_1_f文件同时含有individual和population两者的数据。以Word打开casia.indivq文 件,将_run_1_f文件后半部分的内容自“Inferred ancestry of individuals”行以下的数据拷贝并粘贴到casia.indivq文件中,全部替换原来的210行数据;以Excel打开casia.popq 文件,将_run_1_f文件前半部分含有“Proportion of membership of each pre-defined population in each of the 3 clusters”的行下面的数据拷贝并粘贴到casia.popq中,并替换原来的内容(K=3是可变的!)。新产生的内容注意仍然保持原来210行数 据的那种格式。

4、打开casia.languages文件,将原内容

“50 Indo-European

51 Dravidian

57 Indo-European

59 Indo-European

58 Indo-European

52 Linguistic isolate

54 Indo-European

629 Altaic

699 Altaic

56 Indo-European”

替换为现内容

“1 CEU

 CHB

3 YRI”;

保存为原格式;

5、打开casia.names文件,将原内容

"50 Balochi

51 Brahui

57 Makrani

59 Sindhi

58 Pathan

52 Burusho

54 Hazara

629 Uygur

699 Yakut

56 Kalash"

替换为现内容

"1 CEU

2 CHB

3 YRI"

保存为原格式;

6、打开casia.perm文件,将原内容

"5 yellOw

4 Pink

1 Red

2 green

3 blue_Purple"

中的4、5颜色删去,并保存为原格式;

7、以文本格式打开drawparams文件,将drawparams文件中的

#define K 5    // (int) number of clusters 

#define NUMPOPS 9    // (int) number of pre-defined populations

#define NUMINDS 210  // (int) number of individuals

中的5,9,210改为3,3,220,并保存;

8、将原distruct1.1文件夹中的casia_f文件删去,将_run_1_f文件整个拷贝并粘贴到解压缩后获得的distruct1.1文件夹中,重命名为casia_f;

9、运行distruct1.1文件夹中的distructWindows1.1应用程序,将修改导入Windows系统;

10、点击casia.postscript文件即可产生casia.pdf文件,这便是所需的结果。

(版权所有,转载请注明出自本博!)

关键词: