98 KiB
98 KiB
In [1]:
import ast
import csv
import json
import numpy as np
import pandas as pd
import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px
pd.set_option('display.max_columns', None)
Loading datasets¶
In [2]:
with open('../data/raw/fairsharing_dump_api_02_2022.json') as f:
lines = f.read().splitlines()
fairsharing_df = pd.DataFrame(lines)
fairsharing_df.columns = ['json_element']
fairsharing_df['json_element'].apply(json.loads)
fairsharing_df = pd.json_normalize(fairsharing_df['json_element'].apply(json.loads))
fairsharing_df.head()
Out[2]:
id | type | attributes.created-at | attributes.updated-at | attributes.metadata.doi | attributes.metadata.name | attributes.metadata.status | attributes.metadata.contacts | attributes.metadata.homepage | attributes.metadata.identifier | attributes.metadata.description | attributes.metadata.abbreviation | attributes.metadata.support-links | attributes.metadata.year-creation | attributes.metadata.data-processes | attributes.metadata.cross-references | attributes.legacy-ids | attributes.fairsharing-registry | attributes.record-type | attributes.subjects | attributes.domains | attributes.taxonomies | attributes.user-defined-tags | attributes.countries | attributes.name | attributes.abbreviation | attributes.url | attributes.doi | attributes.fairsharing-licence | attributes.description | attributes.publications | attributes.licence-links | attributes.url-for-logo | attributes.metadata.citations | attributes.metadata.associated-tools | attributes.metadata.deprecation-reason | attributes.metadata.data-access-condition.type | attributes.metadata.data-contact-information | attributes.metadata.data-deposition-condition.url | attributes.metadata.data-deposition-condition.type | attributes.metadata.deprecation-date | attributes.metadata.access-points | attributes.metadata.data-access-condition.url | attributes.metadata.resource-sustainability.url | attributes.metadata.resource-sustainability.name | attributes.metadata.data-preservation-policy.url | attributes.metadata.data-preservation-policy.name | attributes.metadata.data-access-for-pre-publication-review | attributes.metadata.data-versioning | attributes.metadata.data-curation.type | attributes.metadata.data-curation.url | attributes.metadata.citation-to-related-publications | attributes.metadata.tombstone | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 3226 | fairsharing-records | 2020-12-09T11:53:44.000Z | 2022-02-08T10:42:36.452Z | 10.25504/FAIRsharing.d6423b | WDC Sunspot Index and Long-term Solar Observat... | ready | [{'contact-name': 'Frédéric Clette', 'contact-... | http://sidc.be/silso/home | 3226 | The WDC-SILSO is an activity of the Operationa... | WDC-SILSO | [{'url': 'http://www.sidc.be/silso/taxonomy/te... | 2013.0 | [{'url': 'http://www.sidc.be/silso/datafiles',... | [{'url': 'https://www.re3data.org/repository/r... | [biodbcore-001740, bsg-d001740] | Database | repository | [Electromagnetism, Astrophysics and Astronomy,... | [Climate, Observation design] | [Not applicable] | [Climate change, earth observation, Electromag... | [Belgium] | FAIRsharing record for: WDC Sunspot Index and ... | WDC-SILSO | https://fairsharing.org/10.25504/FAIRsharing.d... | 10.25504/FAIRsharing.d6423b | https://creativecommons.org/licenses/by-sa/4.0... | This FAIRsharing record describes: The WDC-SIL... | [] | [{'licence-name': 'SILSO legal notices', 'lice... | None | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1 | 2114 | fairsharing-records | 2014-11-04T15:23:40.000Z | 2022-01-21T14:39:02.195Z | 10.25504/FAIRsharing.p06nme | Biological Magnetic Resonance Data Bank | ready | [{'contact-name': 'Helpdesk', 'contact-email':... | https://bmrb.io/ | 2114 | BMRB collects, annotates, archives, and dissem... | BMRB | [{'url': 'https://bmrb.io/bmrb/news/', 'name':... | 1988.0 | [{'url': 'https://bmrb.io/data_library/rsync.s... | [{'url': 'https://www.re3data.org/repository/r... | [biodbcore-000584, bsg-d000584] | Database | repository | [Structural Biology] | [Molecular structure, Protein structure, Pepti... | [All] | [] | [United States] | FAIRsharing record for: Biological Magnetic Re... | BMRB | https://fairsharing.org/10.25504/FAIRsharing.p... | 10.25504/FAIRsharing.p06nme | https://creativecommons.org/licenses/by-sa/4.0... | This FAIRsharing record describes: BMRB collec... | [{'id': 552, 'pubmed_id': 18288446, 'title': '... | [{'licence-name': 'wwPDB Privacy and Usage Pol... | None | [{'doi': '10.1093/nar/gkm957', 'pubmed-id': 17... | [{'url': 'https://bmrb.io/validate/', 'name': ... | open | yes | https://bmrb.io/deposit/ | open | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | |
2 | 3022 | fairsharing-records | 2020-06-17T10:25:30.000Z | 2022-02-08T10:41:04.073Z | 10.25504/FAIRsharing.8b7a2f | Fisheries and Oceans Canada Pacific Region Dat... | ready | [{'contact-name': 'Peter Chandler', 'contact-e... | http://www.pac.dfo-mpo.gc.ca/science/oceans/da... | 3022 | The Institute of Ocean Sciences (IOS)/Ocean Sc... | None | [{'url': 'DFO.PAC.SCI.IOSData-DonneesISO.SCI.P... | NaN | [{'name': 'Users must contact the Senior Analy... | [{'url': 'https://www.re3data.org/repository/r... | [biodbcore-001530, bsg-d001530] | Database | repository | [Environmental Science, Meteorology, Earth Sci... | [Climate] | [Not applicable] | [Salinity, Temperature] | [Canada] | FAIRsharing record for: Fisheries and Oceans C... | None | https://fairsharing.org/10.25504/FAIRsharing.8... | 10.25504/FAIRsharing.8b7a2f | https://creativecommons.org/licenses/by-sa/4.0... | This FAIRsharing record describes: The Institu... | [] | [{'licence-name': 'Fisheries and Oceans Canada... | None | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
3 | 2998 | fairsharing-records | 2020-05-21T07:42:30.000Z | 2022-02-08T10:40:19.531Z | 10.25504/FAIRsharing.e08886 | Climate Prediction Center | ready | [{'contact-name': 'Jon Hoopingarner', 'contact... | https://www.cpc.ncep.noaa.gov/ | 2998 | The Climate Prediction Center (CPC) produces o... | CPC | [{'url': 'https://www.cpc.ncep.noaa.gov/commen... | 1970.0 | [{'url': 'https://www.cpc.ncep.noaa.gov/', 'na... | [{'url': 'https://www.re3data.org/repository/r... | [biodbcore-001504, bsg-d001504] | Database | repository | [Hydrogeology, Geography, Meteorology, Geodesy... | [Climate] | [Not applicable] | [Forecasting, weather] | [United States] | FAIRsharing record for: Climate Prediction Center | CPC | https://fairsharing.org/10.25504/FAIRsharing.e... | 10.25504/FAIRsharing.e08886 | https://creativecommons.org/licenses/by-sa/4.0... | This FAIRsharing record describes: The Climate... | [] | [{'licence-name': 'National Weather Service Di... | None | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 2301 | fairsharing-records | 2016-06-03T14:54:08.000Z | 2021-11-24T13:17:51.201Z | 10.25504/FAIRsharing.meh9wz | Acytostelium Gene Database | deprecated | [{'contact-name': 'Acytostelium genome consort... | http://cosmos.bot.kyoto-u.ac.jp/acytodb//cgi-b... | 2301 | Genome and transcriptome database of Acytostel... | NaN | NaN | 2008.0 | NaN | NaN | [biodbcore-000775, bsg-d000775] | Database | repository | [Genomics, Life Science, Transcriptomics] | [DNA sequence data, Gene model annotation] | [Acytostelium subglobosum] | [] | [United Kingdom, Japan] | FAIRsharing record for: Acytostelium Gene Data... | None | https://fairsharing.org/10.25504/FAIRsharing.m... | 10.25504/FAIRsharing.meh9wz | https://creativecommons.org/licenses/by-sa/4.0... | This FAIRsharing record describes: Genome and ... | [{'id': 1139, 'pubmed_id': 25758444, 'title': ... | [] | None | NaN | NaN | This resource is no longer available at the st... | NaN | NaN | NaN | NaN | 2021-9-17 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [3]:
fairsharing_df.describe(include='all')
Out[3]:
id | type | attributes.created-at | attributes.updated-at | attributes.metadata.doi | attributes.metadata.name | attributes.metadata.status | attributes.metadata.contacts | attributes.metadata.homepage | attributes.metadata.identifier | attributes.metadata.description | attributes.metadata.abbreviation | attributes.metadata.support-links | attributes.metadata.year-creation | attributes.metadata.data-processes | attributes.metadata.cross-references | attributes.legacy-ids | attributes.fairsharing-registry | attributes.record-type | attributes.subjects | attributes.domains | attributes.taxonomies | attributes.user-defined-tags | attributes.countries | attributes.name | attributes.abbreviation | attributes.url | attributes.doi | attributes.fairsharing-licence | attributes.description | attributes.publications | attributes.licence-links | attributes.url-for-logo | attributes.metadata.citations | attributes.metadata.associated-tools | attributes.metadata.deprecation-reason | attributes.metadata.data-access-condition.type | attributes.metadata.data-contact-information | attributes.metadata.data-deposition-condition.url | attributes.metadata.data-deposition-condition.type | attributes.metadata.deprecation-date | attributes.metadata.access-points | attributes.metadata.data-access-condition.url | attributes.metadata.resource-sustainability.url | attributes.metadata.resource-sustainability.name | attributes.metadata.data-preservation-policy.url | attributes.metadata.data-preservation-policy.name | attributes.metadata.data-access-for-pre-publication-review | attributes.metadata.data-versioning | attributes.metadata.data-curation.type | attributes.metadata.data-curation.url | attributes.metadata.citation-to-related-publications | attributes.metadata.tombstone | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 1853 | 1853 | 1853 | 1853 | 1601 | 1853 | 1853 | 1764 | 1853 | 1853.000000 | 1853 | 1671 | 1663 | 1541.000000 | 1626 | 790 | 1853 | 1853 | 1853 | 1853 | 1853 | 1853 | 1853 | 1853 | 1853 | 1671 | 1853 | 1601 | 1853 | 1853 | 1853 | 1853 | 18 | 621 | 632 | 363 | 42 | 47 | 22 | 33 | 238 | 465 | 19 | 2 | 2 | 3 | 3 | 10 | 17 | 22 | 8 | 35 | 1 |
unique | 1853 | 1 | 1218 | 1853 | 1601 | 1851 | 4 | 1623 | 1853 | NaN | 1853 | 1655 | 1646 | NaN | 1625 | 790 | 1799 | 1 | 3 | 935 | 1205 | 385 | 395 | 194 | 1851 | 1655 | 1853 | 1601 | 1 | 1853 | 1135 | 1119 | 18 | 331 | 627 | 104 | 2 | 2 | 22 | 2 | 71 | 460 | 19 | 2 | 2 | 3 | 3 | 2 | 2 | 4 | 8 | 2 | 1 |
top | 3226 | fairsharing-records | 2014-11-04T15:23:40.000Z | 2022-02-08T10:42:36.452Z | 10.25504/FAIRsharing.d6423b | iDog | ready | [] | http://sidc.be/silso/home | NaN | The WDC-SILSO is an activity of the Operationa... | CGD | [{'url': 'https://github.com/gbif/ipt/wiki/IPT... | NaN | [{'url': 'https://site.uit.no/dataverseno/abou... | [{'url': 'https://www.re3data.org/repository/r... | [] | Database | repository | [Life Science] | [] | [All] | [] | [United States] | FAIRsharing record for: iDog | CGD | https://fairsharing.org/10.25504/FAIRsharing.d... | 10.25504/FAIRsharing.d6423b | https://creativecommons.org/licenses/by-sa/4.0... | This FAIRsharing record describes: The WDC-SIL... | [] | [] | /rails/active_storage/blobs/redirect/eyJfcmFpb... | [] | [] | open | yes | https://bmrb.io/deposit/ | controlled | 2021-9-17 | [{'url': 'https://heidata.uni-heidelberg.de/oa... | https://arch.library.northwestern.edu/about?lo... | https://www.library.northwestern.edu/about/adm... | Commitment to Sustainability: Level 1 | http://www.library.northwestern.edu/about/admi... | Digital Preservation Policy: Level 1 | yes | yes | manual | https://www.gbif.org/tools/data-validator/about | yes | True | |
freq | 1 | 1853 | 636 | 1 | 1 | 2 | 1564 | 40 | 1 | NaN | 1 | 3 | 6 | NaN | 2 | 1 | 55 | 1853 | 954 | 345 | 276 | 528 | 1258 | 607 | 2 | 3 | 1 | 1 | 1853 | 1 | 690 | 735 | 1 | 285 | 3 | 125 | 38 | 45 | 1 | 21 | 81 | 3 | 1 | 1 | 1 | 1 | 1 | 9 | 16 | 11 | 1 | 34 | 1 |
mean | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 2481.862925 | NaN | NaN | NaN | 2007.894873 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
std | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 554.072492 | NaN | NaN | NaN | 10.933713 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
min | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 1120.000000 | NaN | NaN | NaN | 1894.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
25% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 2009.000000 | NaN | NaN | NaN | 2004.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
50% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 2473.000000 | NaN | NaN | NaN | 2010.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
75% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 2938.000000 | NaN | NaN | NaN | 2015.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
max | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 3827.000000 | NaN | NaN | NaN | 2022.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [4]:
fairsharing_df.isna().sum()
Out[4]:
id 0 type 0 attributes.created-at 0 attributes.updated-at 0 attributes.metadata.doi 252 attributes.metadata.name 0 attributes.metadata.status 0 attributes.metadata.contacts 89 attributes.metadata.homepage 0 attributes.metadata.identifier 0 attributes.metadata.description 0 attributes.metadata.abbreviation 182 attributes.metadata.support-links 190 attributes.metadata.year-creation 312 attributes.metadata.data-processes 227 attributes.metadata.cross-references 1063 attributes.legacy-ids 0 attributes.fairsharing-registry 0 attributes.record-type 0 attributes.subjects 0 attributes.domains 0 attributes.taxonomies 0 attributes.user-defined-tags 0 attributes.countries 0 attributes.name 0 attributes.abbreviation 182 attributes.url 0 attributes.doi 252 attributes.fairsharing-licence 0 attributes.description 0 attributes.publications 0 attributes.licence-links 0 attributes.url-for-logo 1835 attributes.metadata.citations 1232 attributes.metadata.associated-tools 1221 attributes.metadata.deprecation-reason 1490 attributes.metadata.data-access-condition.type 1811 attributes.metadata.data-contact-information 1806 attributes.metadata.data-deposition-condition.url 1831 attributes.metadata.data-deposition-condition.type 1820 attributes.metadata.deprecation-date 1615 attributes.metadata.access-points 1388 attributes.metadata.data-access-condition.url 1834 attributes.metadata.resource-sustainability.url 1851 attributes.metadata.resource-sustainability.name 1851 attributes.metadata.data-preservation-policy.url 1850 attributes.metadata.data-preservation-policy.name 1850 attributes.metadata.data-access-for-pre-publication-review 1843 attributes.metadata.data-versioning 1836 attributes.metadata.data-curation.type 1831 attributes.metadata.data-curation.url 1845 attributes.metadata.citation-to-related-publications 1818 attributes.metadata.tombstone 1852 dtype: int64
In [5]:
pd.DataFrame(fairsharing_df['attributes.record-type']).groupby('attributes.record-type').size()
Out[5]:
attributes.record-type knowledgebase 787 knowledgebase_and_repository 112 repository 954 dtype: int64