生信入门|生物/医学人的生信启蒙之路

时间:2020-08-25 11:43:04 来源:华大基因学院 浏览数:11283



背景

本人医学小硕一枚,毕业后在某医院遗传实验室工作三年余,以往接触的基本都是湿实验,可以说是货真价实的零基础。最早对生物信息学的印象就是高大上,甚至有一种“偏见”,觉得这门学科只适合精通计算机的童鞋们,而像我这样计算机只会Windows Office(都不能说是精通),统计用SPSS又有点笨的女生,可能一辈子都学不会。



那我为什么入坑生物信息学?


原因有两点,一是出于专业需要和自己的一点好奇心;二是因此觉得这门学科前景好发展潜力大。


随着人类基因组计划的完成和测序技术的飞速发展,二代测序技术在医学领域的应用也日益广泛,如癌症、生殖医学、产前筛查和诊断等方面。


我工作的医院平时也会经常将临床样本外送至第三方检测单位的做二代测序,其中包括医学全外显子组测序、无创产前检测等。但最初拿到测序结果报告时,我连报告上备注的测序深度是什么都不知道。虽然看过二代测序湿实验的protocol,也了解过一些测序平台的原理,但是从下机后到出检测报告这大段的分析过程,我的脑海中是一片空白。由于本人求知欲作怪,对任何问题都喜欢刨根问底直到弄明白为止,于是我开始在网上找一些二代数据分析的学习资料,慢慢地知道了生物信息学这门学科。但随着越来越深入的了解,我越发觉得生物信息学这门学科非常有趣。


说实话,当初上大学的时候连一代测序都还是一个新技术,没想到仅十年时间,现在最火的技术竟是单分子测序(三代测序)。10年后,生物信息学成为最热门的专业之一,而基因产业正进入热潮期,许多IT巨头都纷纷入局基因行业。学生物信息专业的人不管是找工作还是继续深造,都非常抢手。现在计算机和生命科学发展如此迅速,而我们又处于一个大数据时代,自己感觉如果再不及时更新知识库,我可能就要作为前浪被后浪拍死在沙滩上了。学习新知识不被时代淘汰,这也是我学习生物信息学的强大动力之一。


何为生物信息学?

生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门科学,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。


培训针对人群?

我觉得只要想学、感兴趣,任何人都可以去学。

对生命科学领域、医学领域的童鞋们用处更大,也更好上手。



我 的 学 习 之 路


医学生学生信“隔行如隔山”,我对这门学科的缺乏一个整体框架结构的认知,当面对网上海量的学习资料时,光是有一腔学习的热情但又不知从何学起。又由于缺乏理论基础,使我无法透析数据背后的生物学知识,完成从测序数据到生物问题的连接,也无法充分理解数据分析结果并给出可靠的结论。


零基础小白仅仅靠自己像无头苍蝇一样乱摸索,整个过程是低效的、缓慢的并且令人沮丧的。所幸,2019年12月份,我在网上搜到华大基因有个慕序认证平台,一直想入门生物信息学的我购买了一系列生物信息分析认证课程(从生物信息分析员 生物信息分析工程师 复杂疾病生物信息分析专家)。随后了解到了华大基因组织的生物信息分析员考试每年四次,一季度一次;生物信息分析工程师考试每年两次,半年一次。于是定下了2020年的目标:一定要通过生物信息分析员和生物信息分析工程师考试。



我 的 学 习 经 验


(2019年12月-2020年7月)

课程的学习主要分为三个阶段:(1)购买课程 制定学习目标和计划(2天);(2)视频学习和实操(1.5个月-2个月);(3)集中复习考试(1个月)。



01






树立目标,熟悉大纲,合理安排时间,制定学习计划。

购买完课程之后我做的第一件事情就是先仔细阅读课程大纲,了解接下来需要学习的内容。因为我自己的目标比较明确,2020年3月考生信分析员,6月考生信工程师,因此每个阶段计划投入三个月时间。之后根据这个时间表再安排了自己具体的学习计划,大概就是每天学习多少内容,多长时间学完。



02






打好理论基础:看视频做好笔记(两遍视频 做笔记);

第一遍看视频的时候,我是一边看视频一边手写笔记。我比较笨,学的内容又比较难,特别是Linux系统之前完全没接触过,所以我坚信好记性不如烂笔头。虽然一边看一边手写笔记就比较慢,但在写的过程中能够帮助自己更好地思考每一个陌生的名词、命令,遇到不懂的概念也可以随时百度之后记在笔记本里。



第二遍看视频的时候,我会截图视频的重点PPT再用有道云记笔记APP整理成电子笔记。主要是用Markdown模式编辑(推荐这种简洁的文本编辑模式),也会采用思维导图来辅助整理思路和归纳总结。


图片来自作者:璐璐仔同学


图片来自作者:璐璐仔同学



03






注重实践操作

在Linux、Perl和R语言这三部分的时候,我觉得实践操作很重要。特别是在学习生物信息工程师的课程,大部分都是在讲实用的分析流程和分析软件操作演示。光是看视频,很难记住和理解,只有自己敲了命令,反馈了结果才能真正学懂。


3.1 实操一:Linux操作平台建立

如何建立自己的Linux操作平台?

(以下三种方式我全部都折腾过,最后选择了云服务器长期练习。可能因为胡乱折腾吧,所以Linux现在用的还算是熟练)

(1) 购买云服务器:百度搜索云服务器,几个互联网巨头都有做云服务器平台,初学者不用买配置很高的,一般99元/年就可以先练手,先把常用命令练熟再说后续的,不然也是浪费。

(2) 安装虚拟机:华大基因学院慕序平台上面有免费的课程“Linux操作基础”,建议大家先去看这个,然后视频里面有教如何装虚拟机。大家可以在自己Windows系统里装一个虚拟机来练习;

(3) Windows10系统安装Ubuntu子系统:在Windows电脑的应用商店搜索Ubuntu就可以看到,下载安装即可。


3.2 实操二:R语言和RStudio平台建立

R语言可以下载R和RStudio, RStudio是R的一个集成开发环境(IDE),使用界面非常友好。不管是Linux还是Windows都可以自己装。网上也有下载安装教程,跟着就能学会安装。


04






学会利用好网上的学习资源

不管是学什么,正确的学习方法很重要,解决学习中遇到的问题的能力也同样重要。遇到学习中不懂得问题:我一般是会搜索百度、谷歌、简书、GitHub、生信技能树论坛;实在不会了再求助大神。简书上面也有很多生物信息学的学习资源,有好多人一路自学写下来的宝贵经验,还有很多生信大牛的文章,可以多看看。生物信息学软件的安装使用可以去原网页仔细研究一下,也有一些网上使用教程可阅读。


05






最后一个月集中复习考试

临近考试华大基因学院会发放考试大纲,同时发起一个学习打卡的活动,在那个时候我已经结束了两轮视频学习,总结好了笔记,接下来会制定好复习时间表,每天结合笔记和练习题集中复习。


图片来自作者:璐璐仔同学



图片来自作者:璐璐仔同学




我 的 收 获


(1)去年立下的flag在今年7月完成了, 3月份通过了生物信息分析员的考试,7月通过了生物信息工程师的考试。虽然感觉自己还是一个小白,但拿到证书那一刻满满都是成就感。没有计划漫无目的的学习,通常会比较低效,而考试能更好地激励自己学习。



(2)通过这次的学习让我对生物信息学有了一个全面的、正确的认识,帮助我构建了一个清晰的知识体系,原来这门课不仅仅能用到医学领域,还应用于植物、动物、人类、起源学等学科。接下来我也会继续完成复杂疾病的生物信息分析专家课程。

(3)希望有一天自己能够独立做生物信息分析项目,能把学到的知识运用到今后自己的研究领域。