Skip to content

签字、抽血、化验——我的Y染色体正在被科研

周六晚上Geography版版聚 + 饭局,得知好友刚刚去复旦大学现代人类学教育部重点实验室抽了血。很早就在Geography版听说过这个实验室在《Science》、《Nature》上狂飙文章。大老板叫金力,生命科学院院长,大概学而优则仕吧,已经升副校长了。这个实验室做的东西很有趣——根据遗传信息研究各个族群的亲缘关系,以此绘制人类迁徙地图。

这事儿我当然很感兴趣,了解自己的祖先是我的夙愿。我家那模糊不清的家谱只记载到明末,家族某人为官不慎,先人为避满门抄斩之灾,埋名改姓,从贵州桐梓县迁移到重庆璧山县,开驿馆商铺,行仗义豪侠之类之类。再之前?不知道——没准儿是某大奸大雄的之后?于是要了他们实验室某人的联系方式,周日和两个朋友一起跑过去抽血。

现代人类学实验室的位置(地图中的绿色箭头)相当低调:遗传学楼北侧、本北高速旁边的那堆实验田后的一排小平房,实验室是1号楼。正门没开,只能走边门。穿过一个长长的两侧都是冰箱的走廊。帅帅的polyhedron同学跑出来迎接。

抽血之前需要先签一份知情同意书。点下图有清晰版供细看:

除了对安全性、隐私之类的承诺之外,知情同意书提到了这项研究可能为被测试者提供的信息:

……每个人的细胞内,都有一套遗传密码,不只控制着每个人的生命活动,还记录着祖先经历的历史。从DNA中,我们可以分析得出各个民族的来龙去脉,解开许多历史之谜,或者是从未想到过的您的族群和家族的传奇来历。这对历史学、民族学、人类遗传学、流行病学等各学科的发展都有重要的意义,也会给您和族人带来有益的影响……

除了血样之外,实验还需要输入的信息有:志愿者姓氏、民族、籍贯,父亲的民族和籍贯,母亲的民族和籍贯,已知最远祖先的籍贯、是否聚居、有无家谱等等。实验名称叫做“东亚民族遗传结构调查”,相当的人类学。

接下来就是抽血,每人5毫升。然后我们三个人分别被编号成YCH340、YCH341、YCH342。大约两三个月之后,会收到实验结果的email。实验结果我到时候再与诸位看官分享。

折腾完之后,和polyhedron同学聊了聊天。这个实验室居然就是前两天号称要测试曹操遗骨染色体以分辨真伪的那个实验室。他们直接老板是李辉,金力是大组的老板。实验室自己开了一个核心期刊《现代人类学通讯》,我笑道:“这下你们组的硕士们发paper可就方便了”。polyhedron笑言在国内,这个领域他们也算是老大了。撤退的时候抓了一期2007年的过刊,回京的火车上看得兴致勃勃。

那么这个测试的原理到底是什么?5ml血就能知道你的祖先从何而来?顺手读了一些资料,半懂不懂。作为生物学门外汉,板门弄斧显然很不明智。我也就是以软件工程师视角写写读书笔记吧。还请路过的生科牛们(如dy等,请自觉举手)点评订正之。

首先请看一个科普视频:人類學、族群、姓氏和Y染色體 [2] ,里面介绍了分子人类学的基础知识。我们送去待测定的遗传信息是Y染色体。男性的两条性染色体之一。根据下图 [3],Y染色体是在祖父-父亲-儿子之间继承的。不仅如此,Y染色体本身有一定的突变率(尽管不高)。因此某个父系祖先的某段Y染色体突变,会作为稳定的特征留给他的子孙,那么他的子孙群体中的所有人都会携带这个突变信息。

把观察范围放到全人类——如果把父系的遗传结构看成一棵如下图所示的多叉树,祖父在根节点,儿子们在子节点,每个儿子繁衍后均形成一棵子树——这些子树是不可能交叉的,因为一个人不可能同时有两个父亲。所以,假如某个孩子发生了Y染色体变异,那么这个变异只会“污染”他的子树,不会对他的祖先们的其他孩子产生影响。有意思的是,这种突变呈现出互相包含的层次结构。例如:如果C发生了突变,那么C、G、L、M、O、H、N、P节点都会携带突变C;如果G又发生了突变,那么G、L、M、O节点均会携带突变C和突变G,而H、N、P节点就不会有突变G了。因此,两位男性之间Y染色体基因序列差别越大(貌似可以用两个基因字符串的编辑距离表征),表明他们与共同祖先分离的时间越长,亲缘越疏,反之则越近。

这些突变本身也构成了一棵树。如下图所示(猛击这里查看更详细的版本,以及pdf版分布地图),每个节点是一个著名突变,这被称为人类Y染色体DNA单倍型类群(Human Y-chromosome DNA haplogroup)。如果某人发生了Y染色体突变,而他的后代又特别多,那么这个人/这个突变就会成为这棵树的一个节点。这个图能解读出很多信息:首先是亲缘关系,例如M89和M130突变是M168突变的后代;其次是时序关系,例如汉族最常见的M175变异的出现晚于M89变异,逻辑上可以推理出:汉族的祖先是从现今仅有M89而没有M175变异的地区迁徙而来——不知道人类起源自非洲是不是就是这样分析出来的。

所以接下来的工作就变成在Y染色体ATCG的长链条中寻找这样的标识共同祖先的片段。这样的事情IT民工肯定非常熟悉。如果抽象成一个数学问题或者数据挖掘问题,那么可以这样描述:在n个ATCG组成的字符串集合中,搜索m个字符串组成的子集,这个子集具有相同的子串。其中,字符串的长度(Y染色体的碱基对个数)大致为5000万 [4],n的数量(被抽样人群的个数)按polyhedron同学的说法,大致为10万量级。这个事情比较像是一个聚类问题——收敛困难、运算量超级大的聚类问题。困难之处在于如何抽取片段。如果是长度为n的字符串抽取任意长度的字串,那么计算量会高到不可接受。所以肯定有剪枝的方法,比如最大子串长度,或者一些基于生物学本身的知识进行搜索空间的裁剪。我不清楚搞遗传的同志们是如何从比裹脚布还长、让人头晕眼花的碱基对序列中找到这些片段的——靠超级计算机一阵猛算,还是靠某些不为人知的heuristic approach?

无论如何,这个东西牛的:能自圆其说,而且能够和更加宏观的体质人类学、语言学、文化人类学、考古学、历史学等做到互相印证。例如对于棕色人种C=M130走出非洲的分析,以及这篇关于丝绸之路古代种族的起源与迁徙(这篇文章分析了斯基泰人、雅利安人、吐火罗人的迁徙路径,多学科猛力交叉,看得人很过瘾)的文章等等。

mm们看到这里可能有点沮丧,都在说父系Y染色体的事情。其实母系这边也有类似的玩意儿:线粒体DNA(Mitochondrial DNA)可以用来追踪母系族谱。好像那个非洲的人类共同母亲“线粒体夏娃”的段子,原理我估计是类似的。

顺便打个广告,复旦大学人类Y染色体测试方法。听polyhedron说:5月是免费测试的末班车,6月起就要开始收费了。材料费¥1xx,测试一次可能会上¥200。所以,有兴趣去测试的男生,赶早吧。或者女生,把你们的父亲、兄弟抓去抽血吧~~~

另外,理论上,今天是娘校105周年校庆。此文也算是适时应景。

参考资料:

  1. 复旦大学现代人类学教育部重点实验室官方网站
  2. polyhedron同学原创,人類學、族群、姓氏和Y染色體,很好的科普片。
  3. 科学时报,在稳定中”突变” Y染色体:与姓氏宗族”演变”
  4. 百度百科,Y染色体
  5. 中国恐龙网,古生物、分子人类学、动植物论坛
  6. 现代人类学通讯》,力荐,里面的文章均可免费下载pdf

17 thoughts on “签字、抽血、化验——我的Y染色体正在被科研

  1. fivestone says:

    我家那模糊不清的家谱只上溯到解放初期某劳动人民。。。

    回复
    • ninety says:

      楼上你那姓在唐朝就是河北望族,估计一直没怎么挪窝
      ps,要是能在buzz里直接读和写comment一站式服务就舒坦了

      回复
      • 郭胖达 says:

        这事儿目前我这里只做了 friendfeed > blog 和 twitter > blog 的单向管道。如果双向,估计有点乱。

        buzz好像也是开放了API的矣。还没人弄?

        回复
        • ninety says:

          貌似如果我在greader里订的不仅是全文,而是能订”全文+评论”,则内容随评论更新而同步更新,那么在reader/buzz下看就不会错过什么信息,也不会乱

          回复
          • 郭胖达 says:

            这是因为他们根本就是一家人啊….同一份数据库……

            难的是网站之间的互联互通。

          • ninety says:

            没明白。
            我的意思是,如果你能输出一个”全文+评论”的feed(不晓得可实现否,我不懂),则我只要在reader里订了这个feed,share一下,我就可以在reader/buzz里既看这里的评论,也看reader/buzz里的评论。

            你说的大概是怎么把buzz里的comment发到这里来吧

            现在网站之间的互联互通,无论是reader->blog (google reader: send to),还是blog->buzz (buzz: connected sites),貌似都只有正文可以,comments不知怎么搞

          • fivestone says:

            用cocomment配上firefox的插件,网站会自动追踪你留言过的网站的留言更新。至少wordpress之类的主流大引擎都是支持的。管理页面有些乱,不过勉强还能用

  2. chalet says:

    线粒体DNA比染色体少的多了……555

    回复
  3. 郭胖达 says:

    转发polyhedron发在Linguistics的表格,解读测序结果的时候,应该会有用。

    Y染色體各大單倍群及中國常見單倍群速查

    A和B:Y染色體最古老的分支,只分佈在非洲
    C-M130:較早期到達東亞的人群,高頻於阿爾泰語系的蒙古、滿、哈薩克等族及澳大利亞土著等,漢人中通常5-10%
    D-M174:較早期到達東亞的人群,在西藏、日本等地將近一半,在漢族和南方少數民族也有較低比例分佈
     D1-M15:藏族及周邊民族較高頻、漢族及南方部分少數民族有較低比例分佈
     D2-M55:僅分佈於日本,占日本40%以上,繩文人的主要成分
     D3-P99:青藏高原東部(康區)、白馬人及納西族等高頻
    E:非洲高頻,南歐及中東有一定分佈,中國極少
    F*-M89(G至T的祖群):中國零星分佈,個別少數民族高頻
    G:土耳其、高加索、哈薩克斯坦西部高頻,中國零星分佈
    H:印度次大陸,中國極少
    I:主要分佈在歐洲,北歐和巴爾幹高頻,中國極少
    J:阿拉伯、猶太人等高頻,中國零星分佈
    K*-M9(L至T的祖群):中國零星分佈,個別少數民族高頻
    L:西亞至南亞低頻分佈
    M:新幾內亞土著和美拉尼西亞
    N-M231:較晚期到達東亞的人群。阿爾泰語系、芬蘭人等中高頻分佈,在中國廣泛分佈,漢人中通常10%以下,部分少數民族中較高頻
     N1c-Tat:烏拉爾語系的標誌性單倍群,中國少量分佈
    O-M175:較晚期到達東亞的人群,廣泛高頻分佈於東亞,占漢族70%以上
     O1a-M119:中國東南沿海、壯侗族群、臺灣原住民分佈較集中,東南亞島嶼也有廣泛分佈
     O2a-M95:華南、南方少數民族、中南半島及印度Munda人群分佈較多
     O2b-M176:最主要集中於朝鮮半島、朝鮮族和日本彌生人,越南和漢族也有少量分佈
     O3-M122:中國最常見的單倍群,遍及整個東亞和東南亞,占漢族50-60%左右
       O3a3b-M7:苗瑤族群特徵類型,通常占漢族5%以下
       O3a3c-M134:漢族30%左右,廣泛分佈於東亞、東南亞
        O3a3c1-M117:漢族和藏緬語族的特徵類型,漢族15%以上
       O3a4-002611:漢族常見類型,來源尚未知,漢族10%以上
    P*-M45(Q和R的祖群):很少見
    Q-M242:印第安人的絕大部分,北亞一些群體高頻,漢族2%左右
    R-M207:印歐語系的主要群體,高頻分佈於歐洲至中亞、南亞,漢族2%左右,中國部分少數民族較高
    S:新幾內亞土著和美拉尼西亞
    T:印度、中東、地中海、東非等地較低頻分佈

    回复
  4. 小马 says:

    好强,一直想验证一下我家的那本家谱的前谱是不是真实的,,,

    回复
  5. zenith says:

    再论丝绸之路古代种族的起源与迁徙
    收稿日期:2007年10月28日 修回日期:2007年11月4日 联系人:陈致勇 nickchen1@vip.sina.com
    ~~~~~ ~~~~~~~~~~

    O my Lady Gaga…. what a paper

    回复
  6. melody says:

    好高级的树。。zenzen看不懂。。#_#
    好奇那天还有谁被您一起忽悠去做小白鼠了?@.@

    回复
    • 郭胖达 says:

      fircst和老柯啊。
      然后今天看到geo版又有两个人被忽悠过去的。

      回复
  7. kuuba says:

    帝都沙漠东瀛魔都,位置好飘忽

    回复
  8. 叟头卦弃 says:

    瓦哈哈,花了半个下午拜读你的文章,胜读十年书啊,,,

    回复
  9. liang qiao says:

    熊猫,最后的检测结果是个怎样一个描述啊?

    回复

发表评论

电子邮件地址不会被公开。 必填项已用*标注