56星座屋
当前位置: 首页 星座百科

生信分析的方法(一招教你学会生信分析的)

时间:2023-05-26 作者: 小编 阅读量: 2 栏目名: 星座百科

图中每个点代表每个样本在UMAP降维后在两个方向中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。数据要求PCA文件不能大于50M,列数最多为500列,行数最多50000。每行的分组最多是5个。注意,第一列的命名不能重复。UMAP目前仙桃学术的UMAP图绘制采用的是云端数据。上传数据后,点击“确定”进行绘图,并保存结果。

一击学会降维打击!

小伙伴们,大家好,欢迎来到小洋专栏!不知道上期的细胞毒IC50图大家学会了嘛?这一期,小洋将向大家介绍如何利用仙桃学术工具来绘制PCA和UMAP图。

基本概念

基本概念:PCA:即主成分分析,是数据降维的方法。从高纬数据中提取数据的特征向量(成分),转换为低维数据并且用二维或者三维的图来展示这些特征。从特征向量中提取最能体现数据特征(差异)的 2 个特征向量(成分)用于可视化,这就是 PCA 图。

UMAP :也是数据降维的一种方法和可视化。在高纬度构建一个图,然后经过优化(拓扑学和几何学)后,在低维度中寻找类似的图来尽可能表征高纬度的差异。

应用场景

应用场景:PCA:可以用于查看数据特征情况,比如可以用于高通量数据中样本之间聚类的分布情况。

UMAP:用于查看数据特征情况,例如可查看数据集表达谱中样本间差异。

主要结果

PCA

典型的 PCA 图为点图

  • x 轴和 y 轴分别代表主成分1(PC1)和主成分2(PC2),其中图中(x 轴标题)PC1 能体现 28.4%的数据的特征差异,其中图中(y 轴标题)PC2 能体现 23,7%的数据的特征差异,故整个 PCA 图能体现数据接近一半的差异。(因为数据是高维数据,前两个主成分未必就能体现绝大部分的差异,具体数据具体分析)。
  • 图中每个点代表每个样本在主成分 1 和主成分 2 中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。点与点(样本与样本)间的距离情况能体现样本间的差异。
  • 图中不同的颜色表征不同样本所属的组。
  • 右图中给样本不同组增加了椭圆的圈(如果分组内样本差异差异过大,可能会没办法圈住样本的椭圆的圈)。

UMAP

典型的 UMAP 图为点图

  • x 轴和 y 轴分别代表 UMAP 降维后的两个方向的具体情况。
  • 图中每个点代表每个样本在 UMAP 降维后在两个方向中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。点与点(样本与样本)间的距离情况能体现样本间的差异。
  • 图中不同的颜色表征不同样本所属的分组(group1 是参考组和 group2 是实验组)。
  • 从图上来看,两组的样本并不能很好分开,说明最终差异分析的结果可能不会太好。

数据要求

PCA

文件不能大于 50M,列数最多为 500 列,行数最多 50000。仅支持 csv 或者 text格式文件。除了头部的注释行(#开头),下面的内容中不能含有非数值的内容。

  • 头部注释行(#开头):用于表征每个样本所属的分组。敲黑板!!!小伙伴们注意啦!注释信息不是一定要提供三行,至少1行就可以!!!至少1行就可以!!!至少1行就可以!!!每行的分组最多是 5 个。注意,第一列的命名不能重复。只要满足在 5 个分类以及 5 个分类下,这部分数据会出现在右侧「点」中的“显示”的参数中,可以选择想要用颜色表征的分组。
  • 主体部分(必须):
  • 主体的第一行为样本编号(如图中的第 4 行),这一行不能含有重复命名。
  • 主体的第一列为基因名(未必需要提供基因名,只要是能表征样本各个维度的情况即可,因为这里为表达谱数据,所以用的是基因名)。
  • 主体的其他部分为样本在各个维度对应的数值

UMAP

目前仙桃学术的UMAP图绘制采用的是云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。

实战演练

下面让我们来看一篇2021年8月发表在“Computational and Structural Biotechnology Journal”(IF= 7.271)杂志上的一篇文章。题名为“The molecular feature of macrophages in tumor immune microenvironment of glioma patients”。

期刊简介

使用工具

仙桃学术(https://www.xiantao.love

表格复现

PCA

复现过程

进入仙桃学术,点击【生信工具】

【高级版】 → 【立即使用】

【基础绘图】 → 【PCA图】 → 上传数据

我们参考文献中的PCA图,模拟一份数据,然后进行绘图:

上面的数据是模拟数据,所以并不会和文献中的图片完全一致。不过复现我们主要掌握方法即可,不需要完全复现。上传数据后,点击“确定”进行绘图,并保存结果。

UMAP

【数据集模块】 → 【UMAP图】 → 云端数据→确定

目前仙桃学术绘制UMAP图只能针对云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。如果有小伙伴们还不清楚该如何利用仙桃工具来进行数据集分析,那么,可以回看小洋专栏之前的推文,里面有详细的步骤哦~

好啦,本期有PCA和UMAP图的相关内容就介绍到这里,希望对大家的科研工作有所帮助。我是小洋,我们下期再见~

    推荐阅读
  • 貔貅戴脖子上佩戴方法(有什么说法)

    貔貅戴脖子上佩戴方法貔貅戴脖子上佩戴方法是以貔貅的头部朝上佩戴为佳。人们认为,这样可以集日月之精华,融天地之度量,为我们带来更好的招财效果,貔貅带脖子上可以将貔貅放置衣服之内,也可以将貔貅放置衣服之外。但是禁忌他人触摸,这会影响到貔貅的招财效果。日常生活中,洗澡或是房事的时候需要将貔貅取下放好,放置早干净平稳的地方,以免貔貅吊坠跌落损坏。开闪光灯照相的时候要把貔貅取下或放入衣内,貔貅忌强光。

  • 控释肥不浇水可以吗(缓释肥不浇水会释放吗)

    回答施用控释肥之后可以不浇水,但是在缺少水分的情况下它的养分会无法被有效地释放,这可能会导致农作物因为无法吸收到足够的养分而影响到自身的长势,严重时甚至会造成减产,因此建议在施肥后适量浇一点水。

  • 兰花养殖方法和注意事项(兰花养殖方法和注意事项简单介绍)

    兰花养殖方法和注意事项土壤:栽培基质要疏松肥沃、排水良好,透水性是最主要的原则。如果是肥份不足可以通过后期施肥的方式来补充,但是一定要透水,不能过于细腻。通常在5度以上到25度以下,这个温度环境下它会生长的比较健壮。

  • 可乐加牛奶出现的沉淀可以喝吗(一长一排好搭档)

    最典型的例子就是出租车司机和货车司机,他们是肾结石的高发人群。可乐是碳酸饮料,一直流传的可乐排肾结石,是希望可乐中的碳酸能溶解结石。所以,可乐既没有溶解结石的作用,也不可能促进结石的排出,甚至有的肾结石患者,喝完可乐后还会加重病情。

  • 古代园林设计特点(古代园林设计和现代园林景观设计)

    说起园林景观,一般都会想到古代皇帝的后花园和有钱人的大院。一般园林景观设计分三大类:1.城市区域性的园林景观设计:主要是针对城市的整体区域规划和城市公共区域设计规划,梳理整体的水系、山脉及交通等布局。更多园林设计了解,关注BuildMost平台,不迷路!

  • 被抛弃的小王子建模(一位25岁的模型玩家去世了)

    几个月前,这家店的关注数还不到1000▼这家店的店主叫王任飞,25岁,因心脏问题,已于今年5月21日去世。这种病症表现为肌肉萎缩,会导致下肢瘫痪、心肌问题等,诱因是先天基因缺陷,因为没有家族病史,所以医院的推断是基因突变。5月21日下午,牛牛照常在工作间制作模型,却突然晕倒,后被家人发现。在差评君介绍RELIC芯片时,牛牛母亲并不知情,而听完后她几近失声。

  • 元宵冷冻可以保存多久(元宵放冰箱冷冻很久了还能吃吗)

    元宵冷冻可以保存2-3个月。准备好保鲜袋或者是密封的保鲜盒,将元宵放入袋子或者盒子里,然后再放入冰箱进行冷冻,不过冷冻时间太久,会对于食物的口感以及品质有影响,因此尽量在1-2个月之内将其吃掉。

  • 中华书局各版本二十四史(几十年如一日打造最权威的)

    2月刚刚推出的《隋书》修订本很快便位居京东“二十四史”相关图书销量第一。中华书局对于这一修订工程的重视程度可见一斑。审定委员会及各史审定者,负责修订本各环节的审定工作。任何疑难问题,需经修订工程审定委员会以书面或会议研讨方式研究解决。各史清样需送交修订承担者审阅,以便共同把关,确保修订本的编校质量。据介绍,修订本对点校本进行了全面复核,并按照当代学术规范,大量增加校勘记。

  • 经期可以洗澡洗头吗(经期能洗澡洗头吗)

    经期可以洗澡洗头吗?下面希望有你要的答案,我们一起来看看吧!洗澡最好是选择淋浴,不能盆浴,以免污水感染引起妇科炎症。在月经期间,要注意外阴的清洁卫生,可每天晚上用温水清洗。由于血液是细菌的良好培养基,容易导致细菌生长、繁殖。所以来月经的时候,女性更要重视清洁卫生的问题,注意勤换卫生巾,避免妇科疾病的发生。

  • 二手车如何检查车况是否良好(二手车跑多少公里就不要买了)

    了解车辆的历史车况信息,所有数据一查便知,足不出户即可查询。