洞察市场格局
解锁药品研发情报

客服电话

400-9696-311
医药数据查询

小分子化合物数据集API接口调用,案例一览!

李又又
06/10
2472

在药物研发、材料科学和环境监测等领域,化合物数据是驱动创新的核心燃料。随着化学信息学平台的蓬勃发展,通过API(应用程序编程接口)获取化合物数据已成为最高效、最灵活的方式。本文将系统介绍化合物API接口数据的获取途径、字段概览、数据结构样例,帮助科研人员和技术开发者快速上手。

摩熵数科开放平台举例,在其生化分子栏目下包含了化合物的预计算性质(小分子LogP、重原子数、可旋转键数、环数、sp3杂化碳原子占比等核心结构与类药特征参数)、化合物分类(层级分类树)、化合物标识信息(名称,化学式,分子量,CAS号,结构式、编码)、化合物安全信息(险品标志、安全说明、危险类别码、危险品运输UN编号、GHS危险性说明/防范说明/标识、德国水危害等级、RTECS毒理学编号、中国海关编码、包装等级、危险类别等)等数据集,并提供对应的API接口服务。



①化合物标识数据集API接口

该数据集拥有1.8亿小分子化合物的标识信息,包括化合物中英文名称,化学式,分子量,CAS号,结构式、编码信息等。

数据结构及样例(JSON格式)

{

   "数据ID": "xxxxxxxxx",

   "英文名称": [

       "N,N-diethylnicotinamide",

       "nikethamide",

       "N,N-diethylpyridine-3-carboxamide"

   ],

   "中文名称": [

       "尼可刹米",

       "N,N-二乙基烟酰胺",

       "可拉明",

       "烟酰乙胺",

       "二乙烟酰胺",

       "妥卡尼",

   ],

   "化学式": "C<sub>10</sub>H<sub>14</sub>N<sub>2</sub>O",

   "分子量": 178.234,

   "结构式图片存储路径": "xxx.jpg",

   "CAS": [

       "59-26-7"

   ],

   "InChi": "InChI=1S/C10H14N2O/c1-3-12(4-2)10(13)9-6-5-7-11-8-9/h5-8H,3-4H2,1-2H3",

   "InChIKey": "NCYVXEGFNDZQCU-UHFFFAOYSA-N",

   "SMILES": "CCN(CC)C(=O)C1=CN=CC=C1",

   "MOL": "\n\n\n  0  0  0     0  0            999 V3000\nM  V30 BEGIN CTAB\nM  V30 COUNTS 13 13 0 0 0 REGNO=5743\nM  V30 BEGIN ATOM\nM  V30 1 C -19.3306 0.3785 0 0\nM  V30 2 C -20.6647 1.1519 0 0\nM  V30 3 N -19.3337 -1.1615 0 0\nM  V30 4 O -17.9954 1.1471 0 0\nM  V30 5 C -20.6647 2.6936 0 0\nM  V30 6 C -21.998 0.3881 0 0\nM  V30 7 C -18.0014 -1.933 0 0\nM  V30 8 C -20.6695 -1.9282 0 0\nM  V30 9 N -21.9951 3.473 0 0\nM  V30 10 C -23.3261 1.1584 0 0\nM  V30 11 C -18.005 -3.473 0 0\nM  V30 12 C -20.6724 -3.4682 0 0\nM  V30 13 C -23.3261 2.7027 0 0\nM  V30 END ATOM\nM  V30 BEGIN BOND\nM  V30 1 1 1 2\nM  V30 2 1 1 3\nM  V30 3 2 1 4\nM  V30 4 2 2 5\nM  V30 5 1 2 6\nM  V30 6 1 3 7\nM  V30 7 1 3 8\nM  V30 8 1 5 9\nM  V30 9 2 6 10\nM  V30 10 1 7 11\nM  V30 11 1 8 12\nM  V30 12 2 9 13\nM  V30 13 1 10 13\nM  V30 END BOND\nM  V30 END CTAB\nM  END\n",

   "MDL": [

       "MFCD00006386"

   ],

   "EINECS": [],

   "Beilstein": []

}


②物化及计算性质数据集API接口

该数据集全面整合权威实测实验数据与大规模预计算性质,共收录100余种实测性质,既涵盖沸点、熔点、密度等基础物化参数,也包含燃烧热、表面张力等热力学核心指标,同时纳入药物化学领域重点关注的LogP、解离常数、溶解度等关键性质,所有实测值均标注对应测试条件,可直接溯源原始文献来源,数据量 ≥ 140万。 此外该数据集有1.8亿级化合物的预计算性质,覆盖小分子LogP、重原子数、可旋转键数、环数、sp3杂化碳原子占比等核心结构与类药特征参数。

数据结构及样例(JSON格式)

{

   "数据ID": "xxxxxxxxx",

   "中文名称": "苯甲醛",

   "英文名称": "benzaldehyde",

   "化学式": "C<sub>7</sub>H<sub>6</sub>O",

   "分子量": 106.124,

   "CAS": [

       "100-52-7"

   ],

   "InChIKey": "HUMNYLRZRPPJDN-UHFFFAOYSA-N",

   "SMILES": "C1=CC=C(C=C1)C=O1",

   "沸点":{

     "数值":"179.0 °C",

     "来源":"https://...",

   },

   "熔点":{

     "数值":"-26.0 °C",

     "来源":"https://...",

   },

   "密度":{

     "数值":"1.050 at 15 °C/4 °C",

     "来源":"https://...",

   },

   "燃烧热:":{

     "数值":"-3525.0 kJ/mol",

     "来源":"https://...",

   },

   "辛醇/水分配系数":"1.5",

   "重原子数": "8",

   "可旋转键数": "1",

   "环数": "1",

   "sp3杂化的碳原子比例": "0",

   "拓扑面积": "17.1",

   "氢给体数": "0",

   "氢受体数": "1"

}


③化合物安全信息数据集API

该数据集含有180万条安全信息数据,完整覆盖全球通用的化学品安全属性,包括危险品标志、安全说明(S码)、危险类别码(R码)、危险品运输UN编号、GHS危险性说明/防范说明/标识、德国水危害等级(WGK Germany)、RTECS毒理学编号、中国海关编码、包装等级、危险类别等监管所需的全量合规字段。

数据结构及样例(JSON格式)

{

 "中文名称":"苯",

 "英文名称":"benzene",

 "inchikey":"UHOVQNZJYSORNB-UHFFFAOYSA-N",

 "安全信息": {

   "危险品标志": [

     "F"

   ],

   "安全说明": [

     "S36/37",

     "S53"

   ],

   "危险类别码": [

     "R36/38",

     "R45",

     "R48/23/24/25",

     "R11",

     "R65",

     "R46"

   ],

   "危险品运输编号": [

     "UN 1114 3/PG 2"

   ],

   "危险性说明": [

     "H225",

     "H304"

   ],

   "危险性防范说明": [

     "P201",

     "P308 + P313"

   ],

   "危险性标志": [

     "GHS02",

     "GHS07"

   ],

   "WGK Germany": [

     "3"

   ],

   "RTECS号": [

     "CY1400000"

   ],

   "海关编码": [

     "2707100000"

   ],

   "包装等级": [

     "II"

   ],

   "危险类别": [

     "3"

   ]

 },

 "SDS文档列表": [

   {

     "提供商": "AirGas",

     "文档地址(有效时长2分钟)": ".pdf",

     "修订日期": "2015-04-26"

   },

   {

     "提供商": "Alfa Aesar",

     "文档地址(有效时长2分钟)": ".pdf",

     "修订日期": "2017-02-02"

   }

 ]

}


④化合物分类数据集API接口

该数据集涵盖1.8亿有机化合物分类信息,采用公开公认的化合物分类法对亿级化合物进行科学的分类,形成层级分类树,方便用户了解化合物的类别,促进发现共同的结构和反应模式,从而为新化合物的合成提供参考和启示。

数据结构及样例(JSON格式)

{

 "中文名称":"阿莫西林",

 "英文名称":"amoxicillin",

 "inchikey":"LSQZJLSUYDQPKJ-NJBDSQKTSA-N",

 "分类_en": [

     "Organic compounds",

     "Organoheterocyclic compounds",

     "Lactams",

     "Beta lactams",

     "Penams",

     "Penicillins"

 ],

 "分类_cn": [

     "有机化合物",

     "有机杂环化合物",

     "内酰胺类",

     "β内酰胺类",

     "青霉烷",

     "青霉素类"

 ]

}


<END>
*声明:本文由入驻摩熵医药的相关人员撰写或转载,观点仅代表作者本人,不代表摩熵医药的立场。
AI+生命科学全产业链智能数据平台

收藏

发表评论
评论区(0
  • 暂无评论

    摩熵医药企业版
    50亿+条医药数据随时查
    7天免费试用
    摩熵数科开放平台
    原料药
    十五五战略规划
    专利数据服务
    添加收藏
      新建收藏夹
      取消
      确认