229 KiB
229 KiB
In [1]:
import ast
import csv
import json
import numpy as np
import pandas as pd
import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px
pd.set_option('display.max_columns', None)
Loading datasets¶
In [2]:
roar_df = pd.read_csv('../data/raw/export_roar_CSV.csv', dtype='str')
roar_df.head()
Out[2]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 921 | 517 | archive | 1 | NaN | NaN | disk0/00/00/09/21 | 2010-01-06 13:44:55 | 2016-04-17 21:54:11 | 2010-01-06 13:44:55 | theses | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | FALSE | http://alcme.oclc.org/ndltd/index.html | Networked Digital Library of Theses and Disser... | http://alcme.oclc.org/ndltd/servlet/OAIHandler | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | us | NaN | NaN | NaN | etddb | geoname_2_US | other | NaN | 2006-04-18 | NaN | NaN | 0 | 0 | 0 | 1533400 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,94862,168074,5... | NaN | NaN | NaN | NaN | celestial | 5 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | NaN |
1 | 1489 | 556 | archive | 1 | NaN | NaN | disk0/00/00/14/89 | 2010-01-06 13:46:05 | 2016-04-17 21:49:00 | 2010-01-06 13:46:05 | other | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://prensahistorica.mcu.es/prensahistorica/... | Virtual Library of Historical Press | http://prensahistorica.mcu.es/prensahistorica/... | NaN | NaN | NaN | The Virtual Library of Historical Press is the... | TRUE | TRUE | NaN | NaN | NaN | es | NaN | NaN | NaN | other | geoname_2_ES | other | NaN | 2006-04-04 00:00:00 | NaN | NaN | 0 | 0 | 0 | 1008486 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1431,1431,1761... | NaN | NaN | NaN | NaN | celestial | 858 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 47500 | NaN |
2 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | opendoar | 166 | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
3 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 1106 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | roarmap | 69 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [3]:
roar_df.columns
Out[3]:
Index(['eprintid', 'rev_number', 'eprint_status', 'userid', 'importid', 'source', 'dir', 'datestamp', 'lastmod', 'status_changed', 'type', 'succeeds', 'commentary', 'metadata_visibility', 'latitude', 'longitude', 'relation_type', 'relation_uri', 'item_issues_id', 'item_issues_type', 'item_issues_description', 'item_issues_timestamp', 'item_issues_status', 'item_issues_reported_by', 'item_issues_resolved_by', 'item_issues_comment', 'item_issues_count', 'sword_depositor', 'sword_slug', 'exemplar', 'home_page', 'title', 'oai_pmh', 'sword_endpoint', 'rss_feed', 'twitter_feed', 'description', 'fulltext', 'open_access', 'mandate', 'organisation_title', 'organisation_home_page', 'location_country', 'location_city', 'location_latitude', 'location_longitude', 'software', 'geoname', 'version', 'subjects', 'date', 'note', 'suggestions', 'activity_low', 'activity_medium', 'activity_high', 'recordcount', 'recordhistory', 'fulltexts_total', 'fulltexts_docs', 'fulltexts_rtotal', 'fulltexts_rdocs', 'registry_name', 'registry_id', 'submit_to', 'submitted_to_name', 'submitted_to_done', 'webometrics_rank', 'webometrics_size', 'webometrics_visibility', 'webometrics_rich_files', 'webometrics_scholar', 'monthly_deposits', 'total_deposits', 'association'], dtype='object')
In [4]:
roar_df.describe(include='all')
Out[4]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 17589 | 5375 | 5375 | 5375 | 0 | 0 | 5375 | 5375 | 5375 | 5375 | 5375 | 107 | 0 | 5375 | 0 | 0 | 0 | 0 | 86 | 86 | 86 | 86 | 86 | 0 | 0 | 0 | 2245 | 0 | 0 | 265 | 5368 | 5373 | 4468 | 176 | 1521 | 115 | 3782 | 4127 | 4127 | 3676 | 5182 | 4898 | 5205 | 3774 | 3752 | 3734 | 4637 | 4671 | 5375 | 10524 | 5360 | 215 | 187 | 2291 | 2291 | 2291 | 2293 | 2291 | 270 | 258 | 270 | 258 | 7398 | 7266 | 567 | 205 | 205 | 148 | 148 | 148 | 148 | 148 | 756 | 756 | 231 |
unique | 5375 | 658 | 1 | 2135 | 0 | 0 | 5375 | 4127 | 3966 | 4158 | 12 | 107 | 0 | 2 | 0 | 0 | 0 | 0 | 51 | 3 | 68 | 3 | 2 | 0 | 0 | 0 | 4 | 0 | 0 | 2 | 5202 | 5076 | 4179 | 170 | 1468 | 111 | 3304 | 2 | 2 | 2 | 4437 | 4328 | 136 | 1875 | 2927 | 2965 | 31 | 126 | 53 | 237 | 4830 | 207 | 171 | 72 | 54 | 16 | 741 | 1704 | 135 | 118 | 134 | 117 | 3 | 5166 | 3 | 1 | 1 | 148 | 148 | 148 | 146 | 143 | 346 | 342 | 2 |
top | 10159 | 11 | archive | 1 | NaN | NaN | disk0/00/00/14/07 | 2010-01-06 13:43:48 | 2011-07-06 08:24:53 | 2010-01-06 13:43:48 | institutional | 12637 | NaN | show | NaN | NaN | NaN | NaN | bad_oai_pmh_url_0 | duplicate_title | Similar title to <xhtml:table xmlns:xhtml="htt... | 2010-01-13 10:44:49 | discovered | NaN | NaN | NaN | 0 | NaN | NaN | FALSE | http://eprints.upnjatim.ac.id/ | Repositorio Institucional | http://virtuelcampus.univ-msila.dz/fll | http://npl.csircentral.net/ | http://eprints.upnjatim.ac.id/cgi/latest_tool?... | https://twitter.com/rpsicomdp?lang=es | info:other:archives.eprints.org:import | TRUE | TRUE | FALSE | Chinese Academy of Science (中国科学院) | http://www.cas.cn/ | us | Lima | 34.1607 | -118.139 | dspace | geoname_2_US | other | L1 | 2006-05-04 10:48:14 | ¿Quién puede depositar documentos en el reposi... | This repository is hosted by the Texas Digital... | 0 | 0 | 0 | 100 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | 0 | 0 | 0 | celestial | 184 | celestial | opendoar | 2021-01-25 | 367 | 738 | 362 | 824 | 806 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | russell_group |
freq | 238 | 332 | 5375 | 1333 | NaN | NaN | 1 | 16 | 8 | 16 | 3795 | 1 | NaN | 5334 | NaN | NaN | NaN | NaN | 18 | 47 | 3 | 68 | 53 | NaN | NaN | NaN | 2204 | NaN | NaN | 258 | 4 | 7 | 5 | 2 | 5 | 2 | 112 | 2758 | 2652 | 2699 | 9 | 9 | 902 | 70 | 25 | 25 | 2307 | 840 | 4771 | 348 | 99 | 2 | 9 | 2015 | 2077 | 2213 | 733 | 95 | 113 | 114 | 113 | 114 | 3758 | 7 | 216 | 205 | 205 | 1 | 1 | 1 | 3 | 5 | 387 | 387 | 141 |
In [5]:
roar_df[roar_df.eprintid == '606']
Out[5]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | opendoar | 166 | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
3 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 1106 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | roarmap | 69 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [6]:
roar_df[roar_df.eprintid == '606']
Out[6]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | opendoar | 166 | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
3 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 1106 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | roarmap | 69 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [7]:
roar_df = roar_df.groupby('eprintid').aggregate(set)
roar_df.head()
Out[7]:
rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
eprintid | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1 | {nan, 633} | {nan, archive} | {nan, 1} | {nan} | {nan} | {nan, disk0/00/00/00/01} | {nan, 2010-01-06 13:43:48} | {nan, 2011-07-18 05:40:07} | {nan, 2010-01-06 13:43:48} | {nan, subject} | {nan} | {nan} | {nan, show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, 0} | {nan} | {nan} | {nan} | {nan, http://archivesic.ccsd.cnrs.fr/} | {@RCHIVESIC , nan} | {nan, http://archivesic.ccsd.cnrs.fr/oai/oai.php} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, fr} | {nan} | {nan} | {nan} | {nan, hal} | {geoname_2_FR, nan} | {nan, other} | {nan} | {nan, 2002-05-17 19:24:41} | {nan} | {nan} | {nan, 0} | {nan, 0} | {nan, 0} | {nan, 25} | {0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0... | {nan} | {nan} | {nan} | {nan} | {celestial, opendoar} | {58, 669} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
10 | {nan, 511} | {nan, archive} | {nan, 1} | {nan} | {nan} | {nan, disk0/00/00/00/10} | {nan, 2010-01-06 13:43:48} | {nan, 2011-07-18 05:40:13} | {nan, 2010-01-06 13:43:48} | {nan, institutional} | {nan} | {nan} | {nan, show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, 0} | {nan} | {nan} | {nan} | {nan, http://www.diva-portal.org/mdh/} | {nan, Academic Archive On-line (Mälardalen Uni... | {nan, http://www.diva-portal.org/oai/mdh/OAI} | {nan} | {nan} | {nan} | {nan} | {nan, TRUE} | {nan, TRUE} | {nan} | {nan} | {nan} | {nan, se} | {nan, Uppsala} | {nan, 59.8667} | {nan, 17.6333} | {nan, diva} | {nan, geoname_2_SE} | {nan, other} | {nan} | {nan, 2005-12-08 13:15:22} | {nan} | {nan} | {nan, 0} | {nan, 0} | {nan, 0} | {nan, 100} | {nan, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,1... | {nan} | {nan} | {nan} | {nan} | {celestial, opendoar} | {258, 526} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
1000 | {274} | {archive} | {1} | {nan} | {nan} | {disk0/00/00/10/00} | {2010-01-06 13:45:01} | {2011-07-06 08:21:21} | {2010-01-06 13:45:01} | {subject} | {nan} | {nan} | {show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {0} | {nan} | {nan} | {nan} | {http://pam.pisharp.org/} | {PAM - Portuguese Archive of Mathematics} | {nan} | {nan} | {nan} | {nan} | {nan} | {TRUE} | {TRUE} | {nan} | {nan} | {nan} | {pt} | {Bellevue, WA} | {47.6034} | {-122.155} | {dspace} | {geoname_2_PT} | {other} | {nan} | {2006-05-04 10:48:14} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
10001 | {nan, 20} | {nan, archive} | {nan, 91} | {nan} | {nan} | {nan, disk0/00/01/00/01} | {nan, 2015-08-08 14:52:11} | {nan, 2016-03-21 19:44:01} | {nan, 2015-08-08 14:52:11} | {nan, subject} | {nan} | {nan} | {nan, show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {http://edoc.sub.uni-hamburg.de/klimawandel/, ... | {nan, Klimawandel Dokumentenserver} | {nan, http://edoc.sub.uni-hamburg.de/klimawand... | {nan} | {nan} | {nan} | {nan, The "Documentenserver Klimawandel" (Repo... | {nan, TRUE} | {nan, TRUE} | {nan, TRUE} | {nan, KLIMZUG projects, Helmholtz-Zentrum Gees... | {http://www.climateservicecenter.de/, nan, htt... | {nan, de} | {nan, Hamburg} | {nan, 53.5511} | {nan, 9.9937} | {nan, opus} | {nan, geoname_2_DE} | {nan, other} | {S1, HD, GF, GE, G1} | {nan, 2015-07-02 08:08:31} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, celestial, opendoar} | {3408, 5881, nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
10008 | {11} | {archive} | {404} | {nan} | {nan} | {disk0/00/01/00/08} | {2015-08-08 14:52:26} | {2016-03-21 19:43:51} | {2015-08-08 14:52:26} | {institutional} | {nan} | {nan} | {show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {http://creativematter.skidmore.edu/} | {Creative Matter | Skidmore College Research} | {http://creativematter.skidmore.edu/do/oai/} | {nan} | {http://creativematter.skidmore.edu/recent.rss} | {nan} | {Welcome to Creative Matter, a repository for ... | {TRUE} | {FALSE} | {FALSE} | {Skidmore College} | {http://www.skidmore.edu/} | {us} | {Saratoga Springs} | {43.0961} | {-73.7818} | {bepress} | {geoname_2_US} | {other} | {nan} | {2015-07-06 17:35:50} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {celestial} | {5882} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
In [8]:
def value_or_list(cell_set):
copy = set(cell_set)
copy.discard(np.nan)
if len(copy) == 0:
return np.nan
if len(copy) == 1:
return copy.pop()
return list(copy)
roar_df = roar_df.applymap(value_or_list)
roar_df.head()
Out[8]:
rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
eprintid | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1 | 633 | archive | 1 | NaN | NaN | disk0/00/00/00/01 | 2010-01-06 13:43:48 | 2011-07-18 05:40:07 | 2010-01-06 13:43:48 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://archivesic.ccsd.cnrs.fr/ | @RCHIVESIC | http://archivesic.ccsd.cnrs.fr/oai/oai.php | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 2002-05-17 19:24:41 | NaN | NaN | 0 | 0 | 0 | 25 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | NaN | NaN | NaN | NaN | [celestial, opendoar] | [58, 669] | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
10 | 511 | archive | 1 | NaN | NaN | disk0/00/00/00/10 | 2010-01-06 13:43:48 | 2011-07-18 05:40:13 | 2010-01-06 13:43:48 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://www.diva-portal.org/mdh/ | Academic Archive On-line (Mälardalen Universit... | http://www.diva-portal.org/oai/mdh/OAI | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | se | Uppsala | 59.8667 | 17.6333 | diva | geoname_2_SE | other | NaN | 2005-12-08 13:15:22 | NaN | NaN | 0 | 0 | 0 | 100 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,100,100... | NaN | NaN | NaN | NaN | [celestial, opendoar] | [258, 526] | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1000 | 274 | archive | 1 | NaN | NaN | disk0/00/00/10/00 | 2010-01-06 13:45:01 | 2011-07-06 08:21:21 | 2010-01-06 13:45:01 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://pam.pisharp.org/ | PAM - Portuguese Archive of Mathematics | NaN | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | pt | Bellevue, WA | 47.6034 | -122.155 | dspace | geoname_2_PT | other | NaN | 2006-05-04 10:48:14 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
10001 | 20 | archive | 91 | NaN | NaN | disk0/00/01/00/01 | 2015-08-08 14:52:11 | 2016-03-21 19:44:01 | 2015-08-08 14:52:11 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://edoc.sub.uni-hamburg.de/klimawandel/ | Klimawandel Dokumentenserver | http://edoc.sub.uni-hamburg.de/klimawandel/oai | NaN | NaN | NaN | The "Documentenserver Klimawandel" (Repository... | TRUE | TRUE | TRUE | [KLIMZUG projects, Helmholtz-Zentrum Geesthach... | [http://www.climateservicecenter.de/, http://w... | de | Hamburg | 53.5511 | 9.9937 | opus | geoname_2_DE | other | [S1, GE, HD, GF, G1] | 2015-07-02 08:08:31 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | [celestial, opendoar] | [3408, 5881] | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
10008 | 11 | archive | 404 | NaN | NaN | disk0/00/01/00/08 | 2015-08-08 14:52:26 | 2016-03-21 19:43:51 | 2015-08-08 14:52:26 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://creativematter.skidmore.edu/ | Creative Matter | Skidmore College Research | http://creativematter.skidmore.edu/do/oai/ | NaN | http://creativematter.skidmore.edu/recent.rss | NaN | Welcome to Creative Matter, a repository for t... | TRUE | FALSE | FALSE | Skidmore College | http://www.skidmore.edu/ | us | Saratoga Springs | 43.0961 | -73.7818 | bepress | geoname_2_US | other | NaN | 2015-07-06 17:35:50 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 5882 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [9]:
roar_df.reset_index(inplace=True)
roar_df[roar_df.eprintid == '606']
Out[9]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
4188 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | [celestial, roarmap, opendoar] | [69, 166, 1106] | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
In [10]:
roar_df.describe(include='all')
Out[10]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 5375 | 5375 | 5375 | 5375 | 0.0 | 0.0 | 5375 | 5375 | 5375 | 5375 | 5375 | 107 | 0.0 | 5375 | 0.0 | 0.0 | 0.0 | 0.0 | 63 | 63 | 63 | 63 | 63 | 0.0 | 0.0 | 0.0 | 2245 | 0.0 | 0.0 | 265 | 5368 | 5373 | 4267 | 176 | 1521 | 115 | 3782 | 4127 | 4127 | 3676 | 4396 | 4226 | 5080 | 3655 | 3681 | 3664 | 4637 | 4671 | 5375 | 1250 | 5360 | 215 | 187 | 2291 | 2291 | 2291 | 2293 | 2291 | 270 | 258 | 270 | 258 | 4603 | 4578 | 293 | 205 | 205 | 148 | 148 | 148 | 148 | 148 | 756 | 756 | 217 |
unique | 5375 | 658 | 1 | 2135 | NaN | NaN | 5375 | 4127 | 3966 | 4158 | 12 | 107 | NaN | 2 | NaN | NaN | NaN | NaN | 48 | 5 | 62 | 4 | 3 | NaN | NaN | NaN | 4 | NaN | NaN | 2 | 5202 | 5076 | 3994 | 170 | 1468 | 111 | 3304 | 2 | 2 | 2 | 3802 | 3771 | 143 | 1861 | 2887 | 2917 | 31 | 126 | 53 | 906 | 4830 | 207 | 171 | 72 | 54 | 16 | 741 | 1704 | 135 | 118 | 134 | 117 | 7 | 4257 | 7 | 1 | 1 | 148 | 148 | 148 | 146 | 143 | 346 | 342 | 3 |
top | 1259 | 11 | archive | 1 | NaN | NaN | disk0/00/00/14/07 | 2010-01-06 13:43:48 | 2016-05-02 05:43:04 | 2010-01-06 13:43:48 | institutional | 12637 | NaN | show | NaN | NaN | NaN | NaN | bad_oai_pmh_url_0 | duplicate_title | Duplicate title to <xhtml:table xmlns:xhtml="h... | 2010-01-13 10:44:49 | discovered | NaN | NaN | NaN | 0 | NaN | NaN | FALSE | http://eprints.upnjatim.ac.id/ | Repositorio Institucional | http://kce.docressources.info/ws/PMBWs_2 | http://npl.csircentral.net/ | http://eprints.upnjatim.ac.id/cgi/latest_tool?... | http://twitter.com/bu_ufsc | info:other:archives.eprints.org:import | TRUE | TRUE | FALSE | Chinese Academy of Science (中国科学院) | http://www.cas.cn/ | us | Lima | 34.1607 | -118.139 | dspace | geoname_2_US | other | K1 | 2006-05-04 10:48:14 | DSpace@Işık is a growing collection of Işık Un... | This repository is hosted by the Texas Digital... | 0 | 0 | 0 | 100 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | 0 | 0 | 0 | [celestial, opendoar] | [2246, 1879] | [celestial, roarmap, opendoar] | opendoar | 2021-01-25 | 367 | 738 | 668 | 824 | 806 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | russell_group |
freq | 1 | 332 | 5375 | 1333 | NaN | NaN | 1 | 16 | 8 | 16 | 3795 | 1 | NaN | 5334 | NaN | NaN | NaN | NaN | 15 | 33 | 2 | 45 | 38 | NaN | NaN | NaN | 2204 | NaN | NaN | 258 | 4 | 7 | 4 | 2 | 5 | 2 | 112 | 2758 | 2652 | 2699 | 9 | 9 | 886 | 69 | 25 | 25 | 2307 | 840 | 4771 | 53 | 99 | 2 | 9 | 2015 | 2077 | 2213 | 733 | 95 | 113 | 114 | 113 | 114 | 2114 | 4 | 92 | 205 | 205 | 1 | 1 | 1 | 3 | 5 | 387 | 387 | 127 |
mean | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
std | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
min | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
25% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
50% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
75% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
max | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [11]:
roar_df.isna().sum()[:40]
Out[11]:
eprintid 0 rev_number 0 eprint_status 0 userid 0 importid 5375 source 5375 dir 0 datestamp 0 lastmod 0 status_changed 0 type 0 succeeds 5268 commentary 5375 metadata_visibility 0 latitude 5375 longitude 5375 relation_type 5375 relation_uri 5375 item_issues_id 5312 item_issues_type 5312 item_issues_description 5312 item_issues_timestamp 5312 item_issues_status 5312 item_issues_reported_by 5375 item_issues_resolved_by 5375 item_issues_comment 5375 item_issues_count 3130 sword_depositor 5375 sword_slug 5375 exemplar 5110 home_page 7 title 2 oai_pmh 1108 sword_endpoint 5199 rss_feed 3854 twitter_feed 5260 description 1593 fulltext 1248 open_access 1248 mandate 1699 dtype: int64
In [12]:
roar_df.isna().sum()[40:]
Out[12]:
organisation_title 979 organisation_home_page 1149 location_country 295 location_city 1720 location_latitude 1694 location_longitude 1711 software 738 geoname 704 version 0 subjects 4125 date 15 note 5160 suggestions 5188 activity_low 3084 activity_medium 3084 activity_high 3084 recordcount 3082 recordhistory 3084 fulltexts_total 5105 fulltexts_docs 5117 fulltexts_rtotal 5105 fulltexts_rdocs 5117 registry_name 772 registry_id 797 submit_to 5082 submitted_to_name 5170 submitted_to_done 5170 webometrics_rank 5227 webometrics_size 5227 webometrics_visibility 5227 webometrics_rich_files 5227 webometrics_scholar 5227 monthly_deposits 4619 total_deposits 4619 association 5158 dtype: int64
In [13]:
roar_df.open_access.unique()
Out[13]:
array([nan, 'TRUE', 'FALSE'], dtype=object)
In [14]:
roar_df.type.unique()
Out[14]:
array(['subject', 'institutional', 'researchdata', 'theses', 'database', 'other', 'journal', 'opendata', 'demonstration', 'multi', 'learning', 'webobservatory'], dtype=object)
In [15]:
roar_df.mandate.unique()
Out[15]:
array([nan, 'TRUE', 'FALSE'], dtype=object)