diff --git a/notebooks/01.2-exploration-opendoar.ipynb b/notebooks/01.2-exploration-opendoar.ipynb
index 394152e..c0f56e6 100644
--- a/notebooks/01.2-exploration-opendoar.ipynb
+++ b/notebooks/01.2-exploration-opendoar.ipynb
@@ -297,7 +297,7 @@
],
"source": [
"opendoar_df = pd.read_csv('../data/raw/openDoar.tsv', delimiter='\\t',\n",
- " converters={'repository_metadata.content_subjects_phrases': ast.literal_eval,\n",
+ " converters={'repository_metadata.content_subjects': ast.literal_eval,\n",
" 'repository_metadata.alternativename': ast.literal_eval,\n",
" 'repository_metadata.content_types': ast.literal_eval,\n",
" 'organization': ast.literal_eval\n",
diff --git a/notebooks/02-subjects&geographic.ipynb b/notebooks/02-subjects&geographic.ipynb
index f6fa7b9..29e818e 100644
--- a/notebooks/02-subjects&geographic.ipynb
+++ b/notebooks/02-subjects&geographic.ipynb
@@ -101,13 +101,47 @@
" \n",
" \n",
" | \n",
- " re3data_id | \n",
- " repository_name | \n",
+ " orgIdentifier | \n",
+ " repositoryName | \n",
+ " repositoryName.language | \n",
+ " additionalName | \n",
+ " repositoryURL | \n",
+ " repositoryIdentifier | \n",
+ " repositoryContact | \n",
+ " description | \n",
+ " description.language | \n",
" type | \n",
+ " size | \n",
+ " startDate | \n",
+ " endDate | \n",
+ " repositoryLanguage | \n",
" subject | \n",
- " provider_type | \n",
+ " missionStatementURL | \n",
+ " contentType | \n",
+ " providerType | \n",
" keyword | \n",
" institution | \n",
+ " policy | \n",
+ " databaseAccess | \n",
+ " databaseLicense | \n",
+ " dataAccess | \n",
+ " dataLicense | \n",
+ " dataUploadType | \n",
+ " dataUploadLicense | \n",
+ " software | \n",
+ " versioning | \n",
+ " api | \n",
+ " pidSystem | \n",
+ " citationGuidelineURL | \n",
+ " aidSystem | \n",
+ " enhancedPublication | \n",
+ " qualityManagement | \n",
+ " certificate | \n",
+ " metadataStandard | \n",
+ " syndication | \n",
+ " remarks | \n",
+ " entryDate | \n",
+ " lastUpdate | \n",
"
\n",
" \n",
"
\n",
@@ -115,72 +149,305 @@
" 0 | \n",
" r3d100000001 | \n",
" Odum Institute Archive Dataverse | \n",
+ " eng | \n",
+ " [] | \n",
+ " https://dataverse.unc.edu/dataverse/odum | \n",
+ " [] | \n",
+ " [\"https://dataverse.unc.edu/dataverse/odum#\", ... | \n",
+ " The Odum Institute Archive Dataverse contains ... | \n",
+ " eng | \n",
" [disciplinary] | \n",
- " [1 Humanities and Social Sciences, 111 Social ... | \n",
+ " {\"size\": \"13 dataverses; 3.050 datasets\", \"upd... | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " [\"eng\"] | \n",
+ " [{'name': '1 Humanities and Social Sciences', ... | \n",
+ " NaN | \n",
+ " [{'name': 'Databases', 'scheme': 'parse'}, {'n... | \n",
" [dataProvider] | \n",
" [FAIR, Middle East, crime, demography, economy... | \n",
- " [[Odum Institute for Research in Social Scienc... | \n",
+ " [{'institutionName': 'Odum Institute for Resea... | \n",
+ " [{\"policyName\": \"Collection Development Policy... | \n",
+ " {\"databaseAccessType\": \"open\", \"databaseAcces... | \n",
+ " [{\"databaseLicenseName\": \"CC0\", \"databaseLicen... | \n",
+ " [{\"dataAccessType\": \"embargoed\", \"dataAccessRe... | \n",
+ " [{\"dataLicenseName\": \"CC\", \"dataLicenseURL\": \"... | \n",
+ " restricted | \n",
+ " [] | \n",
+ " [\"DataVerse\"] | \n",
+ " NaN | \n",
+ " {} | \n",
+ " [\"DOI\"] | \n",
+ " NaN | \n",
+ " [] | \n",
+ " unknown | \n",
+ " yes | \n",
+ " [\"other\"] | \n",
+ " [{\"metadataStandardName\": \"DDI - Data Document... | \n",
+ " {} | \n",
+ " Odum Dataverse is covered by Thomson Reuters D... | \n",
+ " 2013-06-10 | \n",
+ " 2021-07-06 | \n",
" \n",
" \n",
" 1 | \n",
" r3d100000002 | \n",
" Access to Archival Databases | \n",
+ " eng | \n",
+ " [{'additionalName': 'AAD', 'additionalNameLang... | \n",
+ " https://aad.archives.gov/aad/ | \n",
+ " [RRID:SCR_010479, RRID:nlx_157752] | \n",
+ " [\"https://www.archives.gov/contact\"] | \n",
+ " You will find in the Access to Archival Databa... | \n",
+ " eng | \n",
" [disciplinary] | \n",
- " [1 Humanities and Social Sciences, 102 History... | \n",
+ " {\"size\": \"\", \"updatedp\": \"\"} | \n",
+ " 1985 | \n",
+ " NaN | \n",
+ " [\"eng\", \"spa\"] | \n",
+ " [{'name': '1 Humanities and Social Sciences', ... | \n",
+ " https://www.archives.gov/publications/general-... | \n",
+ " [{'name': 'Images', 'scheme': 'parse'}, {'name... | \n",
" [dataProvider] | \n",
" [US History] | \n",
- " [[The U.S. National Archives and Records Admin... | \n",
+ " [{'institutionName': 'The U.S. National Archiv... | \n",
+ " [{\"policyName\": \"Contribution Policy\", \"policy... | \n",
+ " {\"databaseAccessType\": \"open\", \"databaseAcces... | \n",
+ " [] | \n",
+ " [{\"dataAccessType\": \"open\", \"dataAccessRestric... | \n",
+ " [{\"dataLicenseName\": \"Copyrights\", \"dataLicens... | \n",
+ " restricted | \n",
+ " [] | \n",
+ " [\"unknown\"] | \n",
+ " no | \n",
+ " {\"api\": \"https://www.archives.gov/developer#to... | \n",
+ " [\"none\"] | \n",
+ " https://aad.archives.gov/aad/help/getting-star... | \n",
+ " [] | \n",
+ " unknown | \n",
+ " unknown | \n",
+ " [] | \n",
+ " [] | \n",
+ " {\"syndication\": \"http://www.archives.gov/socia... | \n",
+ " NaN | \n",
+ " 2012-07-04 | \n",
+ " 2021-05-25 | \n",
"
\n",
" \n",
" 2 | \n",
" r3d100000004 | \n",
" Datenbank Gesprochenes Deutsch | \n",
+ " deu | \n",
+ " [{'additionalName': 'DGD', 'additionalNameLang... | \n",
+ " https://dgd.ids-mannheim.de/ | \n",
+ " [] | \n",
+ " [\"dgd@ids-mannheim.de\"] | \n",
+ " The \"Database for Spoken German (DGD)\" is a co... | \n",
+ " eng | \n",
" [disciplinary] | \n",
- " [1 Humanities and Social Sciences, 104 Linguis... | \n",
+ " {\"size\": \"34 corpora\", \"updatedp\": \"2020-02-03\"} | \n",
+ " 2012 | \n",
+ " NaN | \n",
+ " [\"deu\"] | \n",
+ " [{'name': '1 Humanities and Social Sciences', ... | \n",
+ " https://dgd.ids-mannheim.de/dgd/pragdb.dgd_ext... | \n",
+ " [{'name': 'Audiovisual data', 'scheme': 'parse... | \n",
" [dataProvider, serviceProvider] | \n",
" [Australian German, FOLK, German dialects, Pfe... | \n",
- " [[Institut für Deutsche Sprache, Archiv für Ge... | \n",
+ " [{'institutionName': 'Institut für Deutsche Sp... | \n",
+ " [{\"policyName\": \"Erfurter Aufruf zur Sicherung... | \n",
+ " {\"databaseAccessType\": \"restricted\", \"databas... | \n",
+ " [] | \n",
+ " [{\"dataAccessType\": \"restricted\", \"dataAccessR... | \n",
+ " [{\"dataLicenseName\": \"other\", \"dataLicenseURL\"... | \n",
+ " restricted | \n",
+ " [] | \n",
+ " [\"other\"] | \n",
+ " yes | \n",
+ " {} | \n",
+ " [\"none\"] | \n",
+ " http://agd.ids-mannheim.de/konditionen.shtml | \n",
+ " [] | \n",
+ " unknown | \n",
+ " unknown | \n",
+ " [\"RatSWD\"] | \n",
+ " [] | \n",
+ " {} | \n",
+ " NaN | \n",
+ " 2012-07-20 | \n",
+ " 2020-08-27 | \n",
"
\n",
" \n",
" 3 | \n",
" r3d100000005 | \n",
" UNC Dataverse | \n",
+ " eng | \n",
+ " [{'additionalName': 'University of North Carol... | \n",
+ " https://dataverse.unc.edu/ | \n",
+ " [] | \n",
+ " [\"https://dataverse.unc.edu/\", \"odumarchive@un... | \n",
+ " UNC Dataverse is an open-source repository sof... | \n",
+ " eng | \n",
" [institutional] | \n",
- " [1 Humanities and Social Sciences, 111 Social ... | \n",
+ " {\"size\": \"186 dataverses; 25.272 studies; 229.... | \n",
+ " 2011 | \n",
+ " NaN | \n",
+ " [\"eng\"] | \n",
+ " [{'name': '1 Humanities and Social Sciences', ... | \n",
+ " https://odum.unc.edu/about/mission-vision/ | \n",
+ " [{'name': 'Archived data', 'scheme': 'parse'},... | \n",
" [dataProvider, serviceProvider] | \n",
" [FAIR, census, demographic survey, demography,... | \n",
- " [[Odum Institute for Research in Social Scienc... | \n",
+ " [{'institutionName': 'Odum Institute for Resea... | \n",
+ " [{\"policyName\": \"Collection Development Policy... | \n",
+ " {\"databaseAccessType\": \"open\", \"databaseAcces... | \n",
+ " [] | \n",
+ " [{\"dataAccessType\": \"open\", \"dataAccessRestric... | \n",
+ " [{\"dataLicenseName\": \"CC\", \"dataLicenseURL\": \"... | \n",
+ " restricted | \n",
+ " [{\"dataUploadLicenseName\": \"Data Deposit Form\"... | \n",
+ " [\"DataVerse\"] | \n",
+ " yes | \n",
+ " {\"api\": \"https://guides.dataverse.org/en/lates... | \n",
+ " [\"ARK\", \"DOI\", \"PURL\", \"URN\", \"hdl\"] | \n",
+ " https://dataverse.org/best-practices/data-cita... | \n",
+ " [] | \n",
+ " unknown | \n",
+ " yes | \n",
+ " [] | \n",
+ " [{\"metadataStandardName\": \"DDI - Data Document... | \n",
+ " {} | \n",
+ " UNC Dataverse is covered by Clarivate Data Cit... | \n",
+ " 2012-07-23 | \n",
+ " 2021-08-11 | \n",
"
\n",
" \n",
" 4 | \n",
" r3d100000006 | \n",
" Archaeology Data Service | \n",
+ " eng | \n",
+ " [{'additionalName': 'ADS', 'additionalNameLang... | \n",
+ " https://archaeologydataservice.ac.uk/ | \n",
+ " [FAIRsharing_doi:10.25504/FAIRsharing.hm1mfg] | \n",
+ " [\"help@archaeologydataservice.ac.uk\", \"https:/... | \n",
+ " The ADS is an accredited digital repository fo... | \n",
+ " eng | \n",
" [disciplinary] | \n",
- " [1 Humanities and Social Sciences, 101 Ancient... | \n",
+ " {\"size\": \"1837 results\", \"updatedp\": \"2020-05-... | \n",
+ " 1996-10-01 | \n",
+ " NaN | \n",
+ " [\"eng\"] | \n",
+ " [{'name': '1 Humanities and Social Sciences', ... | \n",
+ " https://archaeologydataservice.ac.uk/about/our... | \n",
+ " [{'name': 'Archived data', 'scheme': 'parse'},... | \n",
" [dataProvider, serviceProvider] | \n",
" [FAIR, archaeology, cultural heritage, prehist... | \n",
- " [[Arts and Humanities Research Council, [AHRC]... | \n",
+ " [{'institutionName': 'Arts and Humanities Rese... | \n",
+ " [{\"policyName\": \"ADS Guides to good practice\",... | \n",
+ " {\"databaseAccessType\": \"open\", \"databaseAcces... | \n",
+ " [{\"databaseLicenseName\": \"CC\", \"databaseLicens... | \n",
+ " [{\"dataAccessType\": \"open\", \"dataAccessRestric... | \n",
+ " [{\"dataLicenseName\": \"CC\", \"dataLicenseURL\": \"... | \n",
+ " restricted | \n",
+ " [{\"dataUploadLicenseName\": \"Guidelines for Dep... | \n",
+ " [\"other\"] | \n",
+ " yes | \n",
+ " {\"api\": \"https://archaeologydataservice.ac.uk/... | \n",
+ " [\"DOI\"] | \n",
+ " https://archaeologydataservice.ac.uk/advice/te... | \n",
+ " [] | \n",
+ " unknown | \n",
+ " yes | \n",
+ " [\"other\"] | \n",
+ " [{\"metadataStandardName\": \"DataCite Metadata S... | \n",
+ " {\"syndication\": \"https://archaeologydataservic... | \n",
+ " ADS is covered by Clarivate Data Citation Inde... | \n",
+ " 2012-07-23 | \n",
+ " 2021-09-02 | \n",
"
\n",
" \n",
"\n",
""
],
"text/plain": [
- " re3data_id repository_name type \\\n",
- "0 r3d100000001 Odum Institute Archive Dataverse [disciplinary] \n",
- "1 r3d100000002 Access to Archival Databases [disciplinary] \n",
- "2 r3d100000004 Datenbank Gesprochenes Deutsch [disciplinary] \n",
- "3 r3d100000005 UNC Dataverse [institutional] \n",
- "4 r3d100000006 Archaeology Data Service [disciplinary] \n",
+ " orgIdentifier repositoryName repositoryName.language \\\n",
+ "0 r3d100000001 Odum Institute Archive Dataverse eng \n",
+ "1 r3d100000002 Access to Archival Databases eng \n",
+ "2 r3d100000004 Datenbank Gesprochenes Deutsch deu \n",
+ "3 r3d100000005 UNC Dataverse eng \n",
+ "4 r3d100000006 Archaeology Data Service eng \n",
+ "\n",
+ " additionalName \\\n",
+ "0 [] \n",
+ "1 [{'additionalName': 'AAD', 'additionalNameLang... \n",
+ "2 [{'additionalName': 'DGD', 'additionalNameLang... \n",
+ "3 [{'additionalName': 'University of North Carol... \n",
+ "4 [{'additionalName': 'ADS', 'additionalNameLang... \n",
+ "\n",
+ " repositoryURL \\\n",
+ "0 https://dataverse.unc.edu/dataverse/odum \n",
+ "1 https://aad.archives.gov/aad/ \n",
+ "2 https://dgd.ids-mannheim.de/ \n",
+ "3 https://dataverse.unc.edu/ \n",
+ "4 https://archaeologydataservice.ac.uk/ \n",
+ "\n",
+ " repositoryIdentifier \\\n",
+ "0 [] \n",
+ "1 [RRID:SCR_010479, RRID:nlx_157752] \n",
+ "2 [] \n",
+ "3 [] \n",
+ "4 [FAIRsharing_doi:10.25504/FAIRsharing.hm1mfg] \n",
+ "\n",
+ " repositoryContact \\\n",
+ "0 [\"https://dataverse.unc.edu/dataverse/odum#\", ... \n",
+ "1 [\"https://www.archives.gov/contact\"] \n",
+ "2 [\"dgd@ids-mannheim.de\"] \n",
+ "3 [\"https://dataverse.unc.edu/\", \"odumarchive@un... \n",
+ "4 [\"help@archaeologydataservice.ac.uk\", \"https:/... \n",
+ "\n",
+ " description description.language \\\n",
+ "0 The Odum Institute Archive Dataverse contains ... eng \n",
+ "1 You will find in the Access to Archival Databa... eng \n",
+ "2 The \"Database for Spoken German (DGD)\" is a co... eng \n",
+ "3 UNC Dataverse is an open-source repository sof... eng \n",
+ "4 The ADS is an accredited digital repository fo... eng \n",
+ "\n",
+ " type size \\\n",
+ "0 [disciplinary] {\"size\": \"13 dataverses; 3.050 datasets\", \"upd... \n",
+ "1 [disciplinary] {\"size\": \"\", \"updatedp\": \"\"} \n",
+ "2 [disciplinary] {\"size\": \"34 corpora\", \"updatedp\": \"2020-02-03\"} \n",
+ "3 [institutional] {\"size\": \"186 dataverses; 25.272 studies; 229.... \n",
+ "4 [disciplinary] {\"size\": \"1837 results\", \"updatedp\": \"2020-05-... \n",
+ "\n",
+ " startDate endDate repositoryLanguage \\\n",
+ "0 NaN NaN [\"eng\"] \n",
+ "1 1985 NaN [\"eng\", \"spa\"] \n",
+ "2 2012 NaN [\"deu\"] \n",
+ "3 2011 NaN [\"eng\"] \n",
+ "4 1996-10-01 NaN [\"eng\"] \n",
"\n",
" subject \\\n",
- "0 [1 Humanities and Social Sciences, 111 Social ... \n",
- "1 [1 Humanities and Social Sciences, 102 History... \n",
- "2 [1 Humanities and Social Sciences, 104 Linguis... \n",
- "3 [1 Humanities and Social Sciences, 111 Social ... \n",
- "4 [1 Humanities and Social Sciences, 101 Ancient... \n",
+ "0 [{'name': '1 Humanities and Social Sciences', ... \n",
+ "1 [{'name': '1 Humanities and Social Sciences', ... \n",
+ "2 [{'name': '1 Humanities and Social Sciences', ... \n",
+ "3 [{'name': '1 Humanities and Social Sciences', ... \n",
+ "4 [{'name': '1 Humanities and Social Sciences', ... \n",
"\n",
- " provider_type \\\n",
+ " missionStatementURL \\\n",
+ "0 NaN \n",
+ "1 https://www.archives.gov/publications/general-... \n",
+ "2 https://dgd.ids-mannheim.de/dgd/pragdb.dgd_ext... \n",
+ "3 https://odum.unc.edu/about/mission-vision/ \n",
+ "4 https://archaeologydataservice.ac.uk/about/our... \n",
+ "\n",
+ " contentType \\\n",
+ "0 [{'name': 'Databases', 'scheme': 'parse'}, {'n... \n",
+ "1 [{'name': 'Images', 'scheme': 'parse'}, {'name... \n",
+ "2 [{'name': 'Audiovisual data', 'scheme': 'parse... \n",
+ "3 [{'name': 'Archived data', 'scheme': 'parse'},... \n",
+ "4 [{'name': 'Archived data', 'scheme': 'parse'},... \n",
+ "\n",
+ " providerType \\\n",
"0 [dataProvider] \n",
"1 [dataProvider] \n",
"2 [dataProvider, serviceProvider] \n",
@@ -194,12 +461,103 @@
"3 [FAIR, census, demographic survey, demography,... \n",
"4 [FAIR, archaeology, cultural heritage, prehist... \n",
"\n",
- " institution \n",
- "0 [[Odum Institute for Research in Social Scienc... \n",
- "1 [[The U.S. National Archives and Records Admin... \n",
- "2 [[Institut für Deutsche Sprache, Archiv für Ge... \n",
- "3 [[Odum Institute for Research in Social Scienc... \n",
- "4 [[Arts and Humanities Research Council, [AHRC]... "
+ " institution \\\n",
+ "0 [{'institutionName': 'Odum Institute for Resea... \n",
+ "1 [{'institutionName': 'The U.S. National Archiv... \n",
+ "2 [{'institutionName': 'Institut für Deutsche Sp... \n",
+ "3 [{'institutionName': 'Odum Institute for Resea... \n",
+ "4 [{'institutionName': 'Arts and Humanities Rese... \n",
+ "\n",
+ " policy \\\n",
+ "0 [{\"policyName\": \"Collection Development Policy... \n",
+ "1 [{\"policyName\": \"Contribution Policy\", \"policy... \n",
+ "2 [{\"policyName\": \"Erfurter Aufruf zur Sicherung... \n",
+ "3 [{\"policyName\": \"Collection Development Policy... \n",
+ "4 [{\"policyName\": \"ADS Guides to good practice\",... \n",
+ "\n",
+ " databaseAccess \\\n",
+ "0 {\"databaseAccessType\": \"open\", \"databaseAcces... \n",
+ "1 {\"databaseAccessType\": \"open\", \"databaseAcces... \n",
+ "2 {\"databaseAccessType\": \"restricted\", \"databas... \n",
+ "3 {\"databaseAccessType\": \"open\", \"databaseAcces... \n",
+ "4 {\"databaseAccessType\": \"open\", \"databaseAcces... \n",
+ "\n",
+ " databaseLicense \\\n",
+ "0 [{\"databaseLicenseName\": \"CC0\", \"databaseLicen... \n",
+ "1 [] \n",
+ "2 [] \n",
+ "3 [] \n",
+ "4 [{\"databaseLicenseName\": \"CC\", \"databaseLicens... \n",
+ "\n",
+ " dataAccess \\\n",
+ "0 [{\"dataAccessType\": \"embargoed\", \"dataAccessRe... \n",
+ "1 [{\"dataAccessType\": \"open\", \"dataAccessRestric... \n",
+ "2 [{\"dataAccessType\": \"restricted\", \"dataAccessR... \n",
+ "3 [{\"dataAccessType\": \"open\", \"dataAccessRestric... \n",
+ "4 [{\"dataAccessType\": \"open\", \"dataAccessRestric... \n",
+ "\n",
+ " dataLicense dataUploadType \\\n",
+ "0 [{\"dataLicenseName\": \"CC\", \"dataLicenseURL\": \"... restricted \n",
+ "1 [{\"dataLicenseName\": \"Copyrights\", \"dataLicens... restricted \n",
+ "2 [{\"dataLicenseName\": \"other\", \"dataLicenseURL\"... restricted \n",
+ "3 [{\"dataLicenseName\": \"CC\", \"dataLicenseURL\": \"... restricted \n",
+ "4 [{\"dataLicenseName\": \"CC\", \"dataLicenseURL\": \"... restricted \n",
+ "\n",
+ " dataUploadLicense software \\\n",
+ "0 [] [\"DataVerse\"] \n",
+ "1 [] [\"unknown\"] \n",
+ "2 [] [\"other\"] \n",
+ "3 [{\"dataUploadLicenseName\": \"Data Deposit Form\"... [\"DataVerse\"] \n",
+ "4 [{\"dataUploadLicenseName\": \"Guidelines for Dep... [\"other\"] \n",
+ "\n",
+ " versioning api \\\n",
+ "0 NaN {} \n",
+ "1 no {\"api\": \"https://www.archives.gov/developer#to... \n",
+ "2 yes {} \n",
+ "3 yes {\"api\": \"https://guides.dataverse.org/en/lates... \n",
+ "4 yes {\"api\": \"https://archaeologydataservice.ac.uk/... \n",
+ "\n",
+ " pidSystem \\\n",
+ "0 [\"DOI\"] \n",
+ "1 [\"none\"] \n",
+ "2 [\"none\"] \n",
+ "3 [\"ARK\", \"DOI\", \"PURL\", \"URN\", \"hdl\"] \n",
+ "4 [\"DOI\"] \n",
+ "\n",
+ " citationGuidelineURL aidSystem \\\n",
+ "0 NaN [] \n",
+ "1 https://aad.archives.gov/aad/help/getting-star... [] \n",
+ "2 http://agd.ids-mannheim.de/konditionen.shtml [] \n",
+ "3 https://dataverse.org/best-practices/data-cita... [] \n",
+ "4 https://archaeologydataservice.ac.uk/advice/te... [] \n",
+ "\n",
+ " enhancedPublication qualityManagement certificate \\\n",
+ "0 unknown yes [\"other\"] \n",
+ "1 unknown unknown [] \n",
+ "2 unknown unknown [\"RatSWD\"] \n",
+ "3 unknown yes [] \n",
+ "4 unknown yes [\"other\"] \n",
+ "\n",
+ " metadataStandard \\\n",
+ "0 [{\"metadataStandardName\": \"DDI - Data Document... \n",
+ "1 [] \n",
+ "2 [] \n",
+ "3 [{\"metadataStandardName\": \"DDI - Data Document... \n",
+ "4 [{\"metadataStandardName\": \"DataCite Metadata S... \n",
+ "\n",
+ " syndication \\\n",
+ "0 {} \n",
+ "1 {\"syndication\": \"http://www.archives.gov/socia... \n",
+ "2 {} \n",
+ "3 {} \n",
+ "4 {\"syndication\": \"https://archaeologydataservic... \n",
+ "\n",
+ " remarks entryDate lastUpdate \n",
+ "0 Odum Dataverse is covered by Thomson Reuters D... 2013-06-10 2021-07-06 \n",
+ "1 NaN 2012-07-04 2021-05-25 \n",
+ "2 NaN 2012-07-20 2020-08-27 \n",
+ "3 UNC Dataverse is covered by Clarivate Data Cit... 2012-07-23 2021-08-11 \n",
+ "4 ADS is covered by Clarivate Data Citation Inde... 2012-07-23 2021-09-02 "
]
},
"execution_count": 3,
@@ -208,40 +566,23 @@
}
],
"source": [
- "re3data_df = pd.read_csv('../data/raw/re3data.tsv', delimiter='\\t', \n",
+ "re3data_df = pd.read_csv('../data/raw/re3data.tsv', delimiter='\\t',\n",
" converters={'subject': ast.literal_eval,\n",
" 'keyword': ast.literal_eval,\n",
- " 'additional_name': ast.literal_eval,\n",
- " 'repository_id': ast.literal_eval,\n",
+ " 'additionalName': ast.literal_eval,\n",
+ " 'repositoryIdentifier': ast.literal_eval,\n",
" 'type': ast.literal_eval,\n",
- " 'content_type': ast.literal_eval,\n",
- " 'provider_type': ast.literal_eval,\n",
+ " 'contentType': ast.literal_eval,\n",
+ " 'providerType': ast.literal_eval,\n",
" 'institution': ast.literal_eval\n",
- " },\n",
- " usecols=['re3data_id', 'repository_name', 'subject', 'keyword', 'type', 'provider_type', 'institution'])\n",
+ " })\n",
+ "\n",
"re3data_df.head()"
]
},
- {
- "cell_type": "markdown",
- "metadata": {},
- "source": [
- "**HERE I AM FILTERING SERVICE PROVIDERS OUT!!**"
- ]
- },
{
"cell_type": "code",
"execution_count": 4,
- "metadata": {},
- "outputs": [],
- "source": [
- "re3data_df = re3data_df.explode('provider_type')\n",
- "re3data_df = re3data_df[re3data_df.provider_type != 'serviceProvider']"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 5,
"metadata": {
"scrolled": false
},
@@ -267,81 +608,335 @@
" \n",
" \n",
" count | \n",
- " 1752 | \n",
- " 1752 | \n",
- " 1752 | \n",
- " 1752 | \n",
- " 1749 | \n",
- " 1690 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 5375 | \n",
+ " 107 | \n",
+ " 0.0 | \n",
+ " 5375 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 63 | \n",
+ " 63 | \n",
+ " 63 | \n",
+ " 63 | \n",
+ " 63 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 2245 | \n",
+ " 0.0 | \n",
+ " 0.0 | \n",
+ " 265 | \n",
+ " 5368 | \n",
+ " 5373 | \n",
+ " 4267 | \n",
+ " 176 | \n",
+ " 1521 | \n",
+ " 115 | \n",
+ " 3782 | \n",
+ " 4127 | \n",
+ " 4127 | \n",
+ " 3676 | \n",
+ " 4396 | \n",
+ " 4226 | \n",
+ " 5080 | \n",
+ " 3655 | \n",
+ " 3681 | \n",
+ " 3664 | \n",
+ " 4637 | \n",
+ " 4671 | \n",
+ " 5375 | \n",
+ " 1250 | \n",
+ " 5360 | \n",
+ " 215 | \n",
+ " 187 | \n",
+ " 2291 | \n",
+ " 2291 | \n",
+ " 2291 | \n",
+ " 2293 | \n",
+ " 2291 | \n",
+ " 270 | \n",
+ " 258 | \n",
+ " 270 | \n",
+ " 258 | \n",
+ " 4603 | \n",
+ " 4578 | \n",
+ " 293 | \n",
+ " 205 | \n",
+ " 205 | \n",
+ " 148 | \n",
+ " 148 | \n",
+ " 148 | \n",
+ " 148 | \n",
+ " 148 | \n",
+ " 756 | \n",
+ " 756 | \n",
+ " 217 | \n",
"
\n",
" \n",
" unique | \n",
- " 1752 | \n",
- " 1741 | \n",
- " 1752 | \n",
- " 1752 | \n",
- " 178 | \n",
- " 834 | \n",
+ " 5375 | \n",
+ " 658 | \n",
+ " 1 | \n",
+ " 2135 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 5375 | \n",
+ " 4127 | \n",
+ " 3966 | \n",
+ " 4158 | \n",
+ " 12 | \n",
+ " 107 | \n",
+ " NaN | \n",
+ " 2 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 48 | \n",
+ " 5 | \n",
+ " 62 | \n",
+ " 4 | \n",
+ " 3 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 4 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2 | \n",
+ " 5202 | \n",
+ " 5076 | \n",
+ " 3994 | \n",
+ " 170 | \n",
+ " 1468 | \n",
+ " 111 | \n",
+ " 3304 | \n",
+ " 2 | \n",
+ " 2 | \n",
+ " 2 | \n",
+ " 3802 | \n",
+ " 3771 | \n",
+ " 143 | \n",
+ " 1861 | \n",
+ " 2887 | \n",
+ " 2917 | \n",
+ " 31 | \n",
+ " 126 | \n",
+ " 53 | \n",
+ " 906 | \n",
+ " 4830 | \n",
+ " 207 | \n",
+ " 171 | \n",
+ " 72 | \n",
+ " 54 | \n",
+ " 16 | \n",
+ " 741 | \n",
+ " 1704 | \n",
+ " 135 | \n",
+ " 118 | \n",
+ " 134 | \n",
+ " 117 | \n",
+ " 9 | \n",
+ " 4256 | \n",
+ " 7 | \n",
+ " 1 | \n",
+ " 1 | \n",
+ " 148 | \n",
+ " 148 | \n",
+ " 148 | \n",
+ " 146 | \n",
+ " 143 | \n",
+ " 346 | \n",
+ " 342 | \n",
+ " 3 | \n",
"
\n",
" \n",
" top | \n",
- " CiteAb | \n",
- " CGD | \n",
- " https://fairsharing.org/10.25504/FAIRsharing.1... | \n",
- " http://www.plexdb.org/ | \n",
- " United States | \n",
- " Life Science | \n",
+ " 1 | \n",
+ " 11 | \n",
+ " archive | \n",
+ " 1 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " disk0/00/00/00/01 | \n",
+ " 2010-01-06 13:43:48 | \n",
+ " 2011-07-06 08:24:53 | \n",
+ " 2010-01-06 13:43:48 | \n",
+ " institutional | \n",
+ " 10164 | \n",
+ " NaN | \n",
+ " show | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " bad_oai_pmh_url_0 | \n",
+ " duplicate_title | \n",
+ " Duplicate title to <xhtml:table xmlns:xhtml=\"h... | \n",
+ " 2010-01-13 10:44:49 | \n",
+ " discovered | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 0 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " FALSE | \n",
+ " http://eprints.upnjatim.ac.id/ | \n",
+ " Repositorio Institucional | \n",
+ " http://kce.docressources.info/ws/PMBWs_2 | \n",
+ " http://producao.usp.br/sword/servicedocument | \n",
+ " http://eprints.upnjatim.ac.id/cgi/latest_tool?... | \n",
+ " http://my.indexcopernicus.com/fredemoreno | \n",
+ " info:other:archives.eprints.org:import | \n",
+ " TRUE | \n",
+ " TRUE | \n",
+ " FALSE | \n",
+ " Chinese Academy of Science (中国科学院) | \n",
+ " http://www.cas.cn/ | \n",
+ " us | \n",
+ " Lima | \n",
+ " 34.1607 | \n",
+ " -118.139 | \n",
+ " dspace | \n",
+ " geoname_2_US | \n",
+ " other | \n",
+ " K1 | \n",
+ " 2006-05-04 10:48:14 | \n",
+ " DSpace@Işık is a growing collection of Işık Un... | \n",
+ " This repository is hosted by the Texas Digital... | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " 100 | \n",
+ " 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " [opendoar, celestial] | \n",
+ " 2479 | \n",
+ " [opendoar, celestial, roarmap] | \n",
+ " opendoar | \n",
+ " 2021-01-25 | \n",
+ " 24 | \n",
+ " 46 | \n",
+ " 20 | \n",
+ " 824 | \n",
+ " 806 | \n",
+ " 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | \n",
+ " 0 | \n",
+ " russell_group | \n",
"
\n",
" \n",
" freq | \n",
" 1 | \n",
+ " 332 | \n",
+ " 5375 | \n",
+ " 1333 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 1 | \n",
+ " 16 | \n",
+ " 8 | \n",
+ " 16 | \n",
+ " 3795 | \n",
+ " 1 | \n",
+ " NaN | \n",
+ " 5334 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 15 | \n",
+ " 33 | \n",
+ " 2 | \n",
+ " 45 | \n",
+ " 38 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2204 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 258 | \n",
+ " 4 | \n",
+ " 7 | \n",
+ " 4 | \n",
+ " 2 | \n",
+ " 5 | \n",
+ " 2 | \n",
+ " 112 | \n",
+ " 2758 | \n",
+ " 2652 | \n",
+ " 2699 | \n",
+ " 9 | \n",
+ " 9 | \n",
+ " 886 | \n",
+ " 69 | \n",
+ " 25 | \n",
+ " 25 | \n",
+ " 2307 | \n",
+ " 840 | \n",
+ " 4771 | \n",
+ " 53 | \n",
+ " 99 | \n",
+ " 2 | \n",
+ " 9 | \n",
+ " 2015 | \n",
+ " 2077 | \n",
+ " 2213 | \n",
+ " 733 | \n",
+ " 95 | \n",
+ " 113 | \n",
+ " 114 | \n",
+ " 113 | \n",
+ " 114 | \n",
+ " 1775 | \n",
+ " 4 | \n",
+ " 92 | \n",
+ " 205 | \n",
+ " 205 | \n",
+ " 1 | \n",
+ " 1 | \n",
+ " 1 | \n",
" 3 | \n",
- " 1 | \n",
- " 1 | \n",
- " 588 | \n",
- " 367 | \n",
+ " 5 | \n",
+ " 387 | \n",
+ " 387 | \n",
+ " 127 | \n",
+ "
\n",
+ " \n",
+ " mean | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " std | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " min | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " 25% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " 50% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " 75% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " max | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
"
\n",
" \n",
"\n",
""
],
"text/plain": [
- " full_name short_name \\\n",
- "count 1752 1752 \n",
- "unique 1752 1741 \n",
- "top CiteAb CGD \n",
- "freq 1 3 \n",
+ " eprintid rev_number eprint_status userid importid source \\\n",
+ "count 5375 5375 5375 5375 0.0 0.0 \n",
+ "unique 5375 658 1 2135 NaN NaN \n",
+ "top 1 11 archive 1 NaN NaN \n",
+ "freq 1 332 5375 1333 NaN NaN \n",
+ "mean NaN NaN NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN NaN NaN \n",
"\n",
- " fs_url \\\n",
- "count 1752 \n",
- "unique 1752 \n",
- "top https://fairsharing.org/10.25504/FAIRsharing.1... \n",
- "freq 1 \n",
+ " dir datestamp lastmod \\\n",
+ "count 5375 5375 5375 \n",
+ "unique 5375 4127 3966 \n",
+ "top disk0/00/00/00/01 2010-01-06 13:43:48 2011-07-06 08:24:53 \n",
+ "freq 1 16 8 \n",
+ "mean NaN NaN NaN \n",
+ "std NaN NaN NaN \n",
+ "min NaN NaN NaN \n",
+ "25% NaN NaN NaN \n",
+ "50% NaN NaN NaN \n",
+ "75% NaN NaN NaN \n",
+ "max NaN NaN NaN \n",
"\n",
- " url countries subjects \n",
- "count 1752 1749 1690 \n",
- "unique 1752 178 834 \n",
- "top http://www.plexdb.org/ United States Life Science \n",
- "freq 1 588 367 "
+ " status_changed type succeeds commentary \\\n",
+ "count 5375 5375 107 0.0 \n",
+ "unique 4158 12 107 NaN \n",
+ "top 2010-01-06 13:43:48 institutional 10164 NaN \n",
+ "freq 16 3795 1 NaN \n",
+ "mean NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN \n",
+ "\n",
+ " metadata_visibility latitude longitude relation_type relation_uri \\\n",
+ "count 5375 0.0 0.0 0.0 0.0 \n",
+ "unique 2 NaN NaN NaN NaN \n",
+ "top show NaN NaN NaN NaN \n",
+ "freq 5334 NaN NaN NaN NaN \n",
+ "mean NaN NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN NaN \n",
+ "\n",
+ " item_issues_id item_issues_type \\\n",
+ "count 63 63 \n",
+ "unique 48 5 \n",
+ "top bad_oai_pmh_url_0 duplicate_title \n",
+ "freq 15 33 \n",
+ "mean NaN NaN \n",
+ "std NaN NaN \n",
+ "min NaN NaN \n",
+ "25% NaN NaN \n",
+ "50% NaN NaN \n",
+ "75% NaN NaN \n",
+ "max NaN NaN \n",
+ "\n",
+ " item_issues_description \\\n",
+ "count 63 \n",
+ "unique 62 \n",
+ "top Duplicate title to