将 BED 文件读入 pandas 数据框 (windows)

Question

对于一个生物信息学项目，我想将 .BED 文件读入 pandas 数据帧，但不知道我该怎么做以及需要什么 tools/programs。我在互联网上找到的任何东西都不适用于我，因为我正在使用 Python 3.7（Anaconda 发行版）开发 windows10。

如有任何帮助，我们将不胜感激。

Answer 1

根据https://software.broadinstitute.org/software/igv/BED：

A BED file (.bed) is a tab-delimited text file that defines a feature track.

根据 http://genome.ucsc.edu/FAQ/FAQformat#format1 最多包含 12 个字段（列）和可能以单词 'track' 开头的注释行。以下是将这样的 bed 文件读入 pandas 数据帧的最小程序。

import pandas as pd

df = pd.read_csv('so58178958.bed', sep='\t', comment='t', header=None)
header = ['chrom', 'chromStart', 'chromEnd', 'name', 'score', 'strand', 'thickStart', 'thickEnd', 'itemRgb', 'blockCount', 'blockSizes', 'blockStarts']
df.columns = header[:len(df.columns)]

这只是一个非常简单的代码片段，将所有以 't' 开头的行都视为注释。这应该有效，因为所有 'chrom' 字段条目应以 'c'、's' 或数字开头。

Answer 2

如果您使用 pyranges，df 将被赋予名称和相应数据类型的列。

import pyranges as pr

df = pr.read_bed("your.bed", as_df=True)

它还有 gtfs 和 gff3s 等不整洁的生物信息学格式的读者。

将 BED 文件读入 pandas 数据框 (windows)

Reading BED files into pandas dataframe (windows)

windows

format

bioinformatics

pandas

bed