关于RSCB中不提供PDB文件格式的问题

最近利用pymol批量下载结构文件的时候发现很多pdb格式的文件无法下载,而且pymol下载结构文件的时候默认是下载mmcif格式的,大概研究了一下这种情况的原因。

关于文件格式

PDB,PDBx/mmCIF

  • PDBx和mmCIF格式是官方支持的文件格式
  • PDB数据库中所有的结构都会有PDBx/mmCIF格式(而不是PDB格式)
  • PDBx/mmCIF会将会不断扩展包含新的内容,但是也会保证向前兼容

使用PDBx/mmCIF而不是PDB的原因

  • 由于PDB格式从2012年以来它的文件格式没有进行扩展,因此它支持的数据量会比较局限,之后的结构数据因为技术手段的革新会发生较大的变化,但是pdb格式的扩展性较弱。
  • 之后的数据会主要是使用PBDx/mmCIF来保存结构的数据。

注:PDB数据库目前也会接受NMR和EM产生的PDB格式文件,这些PDB格式的数据文件也会被转换为PDBx/mmCIF储存下来,也就是说所有的结构都有PDBx/mmCIF格式文件,只有部分结构有PDB格式文件。