tiezhengyuan的个人博客分享 http://blog.sciencenet.cn/u/tiezhengyuan

博文

基因组学研究的数据分析之二:安装和配置Linux系统

已有 5048 次阅读 2012-9-1 00:32 |系统分类:科研笔记|关键词:学者| 基因组, Linux, 安装, style, 系统

“如何建立基因组学研究的数据分析平台?”之    安装和配置Linux系统

   本文目的是帮助只有生物学背景的研究者尽快搭建一个Linux工作平台,够用就行,篇幅所限仅提供关键信息点,详细学习请自行阅读相关书籍。

系统规划

    首先需要一台计算机,如果你需要大型、高性能计算机,将不在本文讨论范围内,下面的建议可能不适合你的要求。选择什么样的计算机这取决于实验室的预算,就是量力而行,如果只有1万块钱,5000元用于购买主机(Intel CPU),然后根据预算扩充内存和硬盘,内存至少4 GB,最好16 GB,一个2TBSATA硬盘,下载免费的Fedora Linux或者其它免费linux。如果有3万元预算,15000可以买到一台低端服务器主机(塔式机箱),双CPURAID5,然后扩充内存和硬盘,内存至少16GB,最好64GB以上,硬盘能装多少装多少(至少4x3TB),余下的钱购买软件RedHat Enterprise Linux(大概1CPU 6600元,2CPU 9000元),但是只有第一年免费技术支持和自动升级,以后则要花钱延续这两项服务。

    然后开始安装Linux,这里不赘述如何安装的细节,一个建议是如果主板不支持RAID5,但是有多个硬盘,建议只带一个硬盘安装linux,其它硬盘待系统装好后再挂上去,前一个硬盘用于安装系统,单独划一个分区作为自己的工作目录,用于保存自己编写的所有脚本和运行结果,挂上去的硬盘用于保存原始数据(文件一般都比较大或者数量多,比如从NCBI下载的序列或者Illumina测序出来的FASTQ文件或者质谱出来的数据文件);如果支持RAID5,首先进行RAID5设置,然后分区(最好每个分区4TB以下,因为单机版Redhat Enterprise Linux对大于4TB的空间支持不好),然后再安装Enterprise Linux。下面是某台计算机分区规划(2TB:

   /boot   100MB

   swap   32GB

   /       300GB

   /home   300GB 工作目录

   /data   ~1.4TB   数据目录

给出几个建议:

l       尽快地熟悉命令行式的操作,因为不是做linux网管,没必要知道所有命令,熟悉常用命令就可以了(大约二十几个,文中会提到)。

l       windows不同,linux运行过程中一般不需要重启,尽量使用正常关机程序,最好不要硬关机。由于包依赖性的问题,一旦系统安装和配置完毕,一般不进行大规模软件自动升级或者强制卸载某个包,除非你已经确认这样做不会影响已有软件的正常运行。

l       做好研究记录,从安装系统开始,包括主要操作步骤,出现的异常情况以及如何解决的等等。

l       注意数据备份,特别是你的工作目录和数据库目录要勤作备份(每天)。

l       做好目录规划,脚本程序(perlSQLR)、运行结果以及原始数据要根据不同研究项目分门别类存放。

 用户身份

    linux分为root用户(管理员权限,所有权限)和普通用户,一般使用普通用户名登陆系统,使用su命令在root用户和普通用户之间切换,出于安全考虑(root密码知道的人越少越好),尽量少使用su命令进行这样的操作,可以使用sudo功能针对性赋予普通用户部分超级权限,下面例子是为biotech组用户yuan添加sudo功能:­­­­­

# adduser -g biotech yuan    linux新建用户yuan

# passwd yuan            为用户yuan设定密码yuan

# visudo              打开文件/etc/sudoers,找到其中这行(# %wheel ALL=(ALL)       ALL),将注释放开(去掉#)

# exit

    安装软件

l       linux一旦安装完毕,立即使用yum命令升级所有软件包,一般情况下,在服务器配置和所有软件安装完毕后开始运行后,就不适合进行这样的大规模软件升级操作了,因为如果出现问题很难回溯。
# yum -y update
或者 # yum -y upgrade

l       由于包依赖性的问题,linux软件安装和卸载尽量使用yum命令自动安装和卸载,会省很多时间, 根据基因组学研究和数据分析的特点,选择自动安装以下一些包:
# yum -y install R R-*  
安装R软件及相关包
# yum -y install perl-bioperl
安装Bio-perl
# yum -y install httpd mysql mysql-server php php-mysql
安装WWWLAMP)服务器

注:下面使用通配符自动安装所有包的做法属于偷懒行为,如果网络带宽不够或者对文件系统有要求,就不能这样,只安装需要的软件包。
# yum -y install *-DBI 
安装数据库借口相关包
# yum -y install mysql*
安装mySQL数据库相关包
# yum -y install perl-* 
安装所有perl软件包
# yum -y install graphviz* 
安装所有图形显示相关软件包

l       包的手动安装:建议将包解压缩到/usr/local/src/下,并统一安装到/usr/local/下,注意任何一步提示出错都根据提示解决完了才能进行下一步,不过多数情况可能是由于包依赖性的问题导致的。例如下面一系列命令将下载到/home/yuan/downloada.tar.gz解压缩到/usr/local/src目录下并安装,
#cd /usr/local/src
#sudo tar -zxvf /home/yuan/download/a.tar.gz
#cd a
#sudo ./configure
#sudo make
#sudo make test
#sudo make install

  常见Linux命令 下面列出上文没有提到的但是可能经常用到的Linux命令供参考:

命令

说明

cat

文件链接

cd

改变当前目录

chmod

chmod -R 754 /home/mysql_pre   修改用户对文件夹/home/mysql_pre以及下面子目录文件权限(r可读,w可写,x执行权限,-无权限,分别对应4210分),所有者对/home/mysql_pre可读可写可执行(rwx=7),所有者所在组可读不可写可执行(r-x=5),其它用户可读不可写不可执行(r--=4)

chown

sudo chown -R yuan:yuan /home/mysql_pre 改变目录以及子目录文件所有者为组yuan中的用户yuan

cp

cp -r /home/mysql_pre /home/yuan/  拷贝目录/home/mysql_pre到目录/home/yuan/下,参数-r指连同源文件中的子目录一同拷贝

kill/killall

杀死进程

locate/find

搜索文件

ls

ls   列举目录下面的文件

ls -l 使用长格式显示文件, 查看目录或者文件的属性

ls -a  显示文件包括隐藏文件

man

对命令提供帮助解释

mkdir

创建目录

mount/umount

加载或卸掉某个硬件设备或文件系统

mv

移走目录或者改文件名

ps

查看系统进程

pwd

查看当前所在目录完整路径

rm

删除文件和目录

sftp

远程传输文件

ssh

远程连接到服务器上

            

https://m.sciencenet.cn/blog-753445-607967.html

上一篇:基因组学研究的数据分析之一:学习相关领域的书籍
下一篇:基因组学研究的数据分析之三:MySQL数据库

1 孙彧

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 15:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部