International Chemical Identifier
InChI | |
Első kiadás | 2005. 04. 15[1][2] |
Legfrissebb stabil kiadás | 1.05 (2017. március) |
Operációs rendszer | Microsoft Windows Unix |
Platform | IA-32 és x86-64 |
Méret | 4.3 MB |
Elérhető | angol |
Licenc | IUPAC / InChI Trust Licence |
Az InChI weboldala |
Az IUPAC International Chemical Identifier (InChI /ˈɪntʃiː/ vagy /ˈɪŋkiː/) egy szövegalapú névmeghatározó kémiai vegyületeknek, melyet azért hoztak létre, hogy a molekuláris információkat egységesen tudják kódolni, és elősegítsék az ilyen információk adatbázisból és az internetről történő visszanyerését. Kezdetben, 2000-től 2005-ig az IUPAC (International Union of Pure and Applied Chemistry) és a NIST (National Institute of Standards and Technology) kezelte. A formátum és az algoritmus nem áll jogvédelem alatt.
A standard fejlesztését 2010-től a nonprofit InChI Trust támogatja, melynek az IUPAC is tagja. A szoftver jelenlegi változata 1.05, melyet 2017. januárban adtak ki.
Az 1.04 változat előtt a szoftver szabadon elérhető volt az LGPL nyílt forráskódú licenc alatt,[3] de most egy egyedi, úgynevezett IUPAC-InChI Trust Licenc alatt hozzáférhető.[4]
Áttekintés
[szerkesztés]Az azonosítók rétegekben írnak le kémiai anyagokat, atomokat és a kötési tulajdonságaikat, tautomerikus jellemzőiket, izotóp jellemzőiket, elektronos változékonyságukat, sztereokémiájukat.[5] Nem kell minden réteget megadni. Például a tautomer réteget ki lehet hagyni, ha az adott információ nem jellemző az adott anyagra.
Az InChI három dologban különbözik a széles körben használt CAS-számtól: egyrészt szabadon használható, nem jogvédett. Másrészt az azonosító egyszerűen megállapítható a szerkezeti információk alapján, azt nem kell a vegyülethez külön hozzárendelnie egy szervezetnek. Harmadrészt pedig az InChI legtöbb információja az emberek számára is olvasható (kellő jártassággal, illetve gyakorlással).
Az InChI-k tehát úgy is tekinthetők, mint az IUPAC-nevek általános és rendkívül formális változatai. Több információt képesek tárolni, mint az egyszerűsített SMILES jelölések, és abban is különböznek, hogy minden struktúrának van külön InChl jelsora, mely az adatbázis-kezelő programoknál igen fontos tulajdonság. Az InChl-ben nem szerepelnek adatok az atomok háromdimenziós koordinátáiról. (Erre a PDB formátumú fájlokat lehet használni.)
Az InChI algoritmusa a bevitt strukturális információkat egy egyedi InChI azonosítóvá alakítja egy háromlépéses eljárásban: első lépésben eltávolítja a redundáns információkat, ezt követően minden atomnak generál egy számot, majd legenerál egy karaktersort is.
Az InChIKey egy fix hosszúságú (27 karakteres) az InChI összesűrített változata, melyet nem emberi feldolgozásra hoztak létre. A kulcs specifikációját 2007. szeptemberben hozták létre, hogy ezzel gyorsítsák a vegyi elemek internetes keresését, mert itt problémák mutatkoztak a teljes hosszúságú InChI esetében.[6] Az InChI-vel ellentétben a InChIKey nem egyedi: bár az átfedések nem gyakoriak, azért előfordulnak.[7]
2009. januárban megjelent az InChI 1.02-es verziójának végleges változata. Ezzel lehetőség nyílt arra, hogy ún. standard InChI-t hozzanak létre, mely nem teszi lehetővé a felhasználó számára, hogy kiválasszák a sztereokémiai és taumetrikus rétegeket az InChI karaktersorban. A standard InChIKey így a standard InChI hasított formája.
Formátum és rétegek
[szerkesztés]InChI formátum | |
MIME-típus | kémiai/x-inchi |
Formátum típusa | kémiai fájlformátum |
Weboldal | www.inchi-trust.org/download-latest-inchi-standard-software/ |
Minden InChI az InChI=
karaktersorozattal kezdődik, melyet a verziószám követ. Ezután jön a standard InChI-k jelölésére az S. A többi információ rétegek és alrétegek sorozatába van rendezve, melyben minden réteg egy adott fajta információt hordoz. A rétegeket és alrétegeket /
választja el egymástól, és a rájuk jellemző betűvel kezdődnek. Ez alól kivétel a kémiai képlet alréteg. A hat réteg a fontosabb alrétegeikkel a következők:
- Fő réteg
- Kémiai képlet (előtag nélkül). Ez az egyetlen olyan alréteg, melynek minden InChI-ben szerepelnie kell.
- Atomi kapcsolódás (előtag: „c”). A kémiai képletben lévő atomok (a hidrogén kivételével) szekvenciálisan számozva vannak, és leírja, melyik atomok melyekkel vannak kötésben.
- Hidrogénatomok (előtag: „h”). Leírja, hogy egy adott atomhoz hány hidrogénatom kapcsolódik.
- Töltés réteg
- proton alréteg (előtag a proton rövidítéseként: „p”)
- töltés alréteg (előtag: „q”)
- Sztereokémia réteg
- Izotóp réteg (előtagok: „i”, „h”, valamint az izotopikus sztereokémiának „b”, „t”, „m”, „s”)
- Fix-H réteg (előtag: „f”); az összes vagy a legtöbb fent felsorolt réteget tartalmazza az atomok kapcsolódásának kivételével. Végződhet „o” alréteggel. A standard InChI-nek soha nem képezi részét.
- Újrakapcsolt réteg (előtag: „r”); tartalmazza egy újracsatlakozott fématomokkal rendelkező szerkezet teljes InChI-jét. Ez a réteg a standard InChI-nek soha nem része.
A helyi értéket meghatározó előtagos formának az az előnye, hogy a felhasználó könnyen tud helyettesítő karaktereket használni a kereséskor, így pedig olyan azonosítókat találhat, amelyek csak bizonyos rétegekben fordulnak elő.
Strukturális képlet | Standard InChI |
---|---|
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
| |
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1
|
InChIKey
[szerkesztés]A tömörített, 27 karakterből álló InChIKey a teljes InChI egy SHA-256 algoritmussal hasított változata, amit a vegyi anyagok könnyebb webes keresése érdekében készítettek el.[6] A standard InChIKey a standard InChI hasított párja. 2007-ig a weben a legtöbb kémiai elemet GIF fájlként tárolták, amiben nem lehetett kémiai elemek után keresni. Kiderült, hogy a teljes InChI hosszúsága miatt nehezen kereshető, így létrehozták a InChIKey-t. Van egy nagyon kicsi, de nem nulla esélye annak, hogy két különböző molekulának megegyezzen az InChIKey-je. Az InChIKey első 14 karaktere egyezésének a valószínűségét úgy becsülték, hogy 75 adatbázisra (adatbázisonként 1 milliárd egyedi szerkezettel) jut egy darab egyezés. Mivel minden adatbázisban jelenleg kevesebb, mint 50 millió struktúra van, az ilyen duplikáció előfordulása jelenleg valószínűtlen. Egy tanulmány kimutatta, hogy a gyakorlati egybeesés valószínűsége megegyezik az elméletileg kiszámítottal.[8]
Az InChIKey három, egymástól kötőjellel elkülönített részből áll, melyek közül az első 14, a második 10, a harmadik pedig 1 karakter hosszúságú, azaz a formátuma XXXXXXXXXXXXXX-YYYYYYYYYY-Z
. Az első 14 karakter az InChI kapcsolódási információinak hasított eredménye. A második rész 8 karakterből áll, mely az InChI fennmaradó részének hasításával jön létre. Egy karakter jelöli, milyen InChIKey-ről van szó, egy karakter pedig azt mutatja meg, hogy az InChI melyik verzióját használták. A végén egy karakter jelzi a protonációt.[9]
Példa
[szerkesztés]Jobb oldalt látható a morfium struktúrája. A standard InChI a morfium esetében a következő: InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1
A standard InChIKey pedig így néz ki: BQJCRHHNABKAKU-KBQPJGBKSA-N
.[10]
InChI visszafejtők
[szerkesztés]Mivel az InChI az InChIKey-ből visszafejthetetlen, az InChIKey-hez mindig hozzá kell hogy legyen rendelve az eredeti InChI, hogy vissza lehessen jutni az eredeti struktúrához. Az InChI-visszafejtők egy adatbázisban keresnek, amely tartalmazza az összes (ismert) vegyületet. Ilyen keresőszolgáltatás elérhető a National Cancer Institute, a European Bioinformatics Institute UniChem oldalán[11] keresztül és a PubChemen. A ChemSpider 2015. júliusig biztosított ilyen szolgáltatást, ekkor azonban leállították.[12]
Elnevezése
[szerkesztés]A formátumot eredetileg IchI-nek hívták (IUPAC Chemical Identifier), 2004. júliusban átnevezték INChI-re (IUPAC-NIST Chemical Identifier), majd 2004. novemberben megkapta az InChI (IUPAC International Chemical Identifier) rövidítést, ami az IUPAC bejegyzett védjegye.
Folyamatos fejlesztés
[szerkesztés]Az InChI standard fejlesztése az IUPAC VIII. Osztály Albizottsága feladatkörébe tartozik, a standard kibővítésének definiálására és vizsgálatára létrehozott albizottság finanszírozása az IUPAC és az InChI Trust közös feladata. Az InChI Trust támogatja a fejlesztést, a tesztelést, és az InChI dokumentálását. A jelenlegi bővítéseket felkészítik a polimerek. a keverékek, a Markush-struktúrák és a reakció k kezelésére, amelyek az albizottság jóváhagyása után bekerülnek az algoritmusba.[13]
Befogadás
[szerkesztés]Az InChI-t több kisebb és nagyobb adatbázis is adoptálta, melyek között ott van a ChemSpider, a ChEMBL, a Golm Metabolome Database, az OpenPHACTS, és a PubChem.[14] A folyamat azonban nem egységes, és számos adatbázisnál eltérés van a kémiai struktúra és a bennük lévő InChI között, amely az adatbázisok összekapcsolása szempontjából (is) problémát jelent.[15]
Jegyzetek
[szerkesztés]- ↑ IUPAC International Chemical Identifier Project Page. IUPAC. [2012. május 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. december 5.)
- ↑ (2013) „InChI - the worldwide chemical structure identifier standard”. Journal of Cheminformatics 5 (1), 7. o. DOI:10.1186/1758-2946-5-7. PMID 23343401. PMC 3599061.
- ↑ McNaught, Alan. „The IUPAC International Chemical Identifier:InChl”, Chemistry International, IUPAC (Hozzáférés: 2007. szeptember 18.)
- ↑ http://www.inchi-trust.org/download/104/LICENCE.pdf
- ↑ (2015) „InChI, the IUPAC International Chemical Identifier”. Journal of Cheminformatics 7, 23. o. DOI:10.1186/s13321-015-0068-4. PMID 26136848. PMC 4486400.
- ↑ a b The IUPAC International Chemical Identifier (InChI). IUPAC, 2007. szeptember 5. [2007. október 30-i dátummal az eredetiből archiválva]. (Hozzáférés: 2007. szeptember 18.)
- ↑ E.L. Willighagen: InChIKey collision: the DIY copy/pastables, 2011. szeptember 17. (Hozzáférés: 2012. november 6.)
- ↑ (2012) „InChIKey collision resistance: An experimental testing”. Journal of Cheminformatics 4 (1), 39. o. DOI:10.1186/1758-2946-4-39. PMID 23256896. PMC 3558395.
- ↑ Technical FAQ - InChI Trust. inchi-trust.org . (Hozzáférés: 2018. április 14.)
- ↑ InChI=1/C17H19NO3/c1-18.... Chemspider. (Hozzáférés: 2007. szeptember 18.)
- ↑ https://www.ebi.ac.uk/unichem/
- ↑ InChI Resolver, 27 July 2015, http://www.chemspider.com/InChiResolverDecommissioned.aspx
- ↑ (2018. május 9.) „International chemical identifier for reactions (RInChI)”. Journal of Cheminformatics 10 (1), 45. o. DOI:10.1186/s13321-018-0277-8. PMID 24152584. PMC 4015173.
- ↑ (2015) „Many InChIs and quite some feat”. Journal of Computer-Aided Molecular Design 29 (8), 681–694. o. DOI:10.1007/s10822-015-9854-3. PMID 26081259.
- ↑ (2012) „Consistency of systematic chemical identifiers within and between small-molecule databases”. Journal of Cheminformatics 4 (1), 35. o. DOI:10.1186/1758-2946-4-35. PMID 23237381. PMC 3539895.
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben az International Chemical Identifier című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.
Külső hivatkozások
[szerkesztés]- IUPAC InChI oldal
- A kanonizációs algoritmus leírása
- Googling for InChIs A W3C egy prezentációja.
- InChI Release 1.02 Az InChI végső 1.02 verziója és a Standard InChI leírása. 2009. január.
- NCI/CADD Chemical Identifier Resolver Egymásba átalakítja az InChI/InChIKey párost, és több más kémiai jelet is.
- PubChem online molecule editor SMILES/SMARTS és InChI támogatással
- ChemSpider Compound APIs ChemSpider REST API, amely lehetővé teszi InChI-k generálását és InChI-k struktúrává alakítását