registries_analysis/notebooks/01.3-exploration-roar.ipynb

212 KiB
Raw Blame History

In [1]:
import ast
import csv
import json

import numpy as np
import pandas as pd

import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px

pd.set_option('display.max_columns', None)

Loading datasets

In [2]:
roar_df = pd.read_csv('../data/raw/export_roar_CSV.csv', dtype='str')
roar_df.head()
Out[2]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
0 921 517 archive 1 NaN NaN disk0/00/00/09/21 2010-01-06 13:44:55 2016-04-17 21:54:11 2010-01-06 13:44:55 theses NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN FALSE http://alcme.oclc.org/ndltd/index.html Networked Digital Library of Theses and Disser... http://alcme.oclc.org/ndltd/servlet/OAIHandler NaN NaN NaN NaN TRUE TRUE NaN NaN NaN us NaN NaN NaN etddb geoname_2_US other NaN 2006-04-18 NaN NaN 0 0 0 1533400 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,94862,168074,5... NaN NaN NaN NaN celestial 5 NaN NaN NaN NaN NaN NaN NaN NaN 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 NaN
1 1489 556 archive 1 NaN NaN disk0/00/00/14/89 2010-01-06 13:46:05 2016-04-17 21:49:00 2010-01-06 13:46:05 other NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://prensahistorica.mcu.es/prensahistorica/... Virtual Library of Historical Press http://prensahistorica.mcu.es/prensahistorica/... NaN NaN NaN The Virtual Library of Historical Press is the... TRUE TRUE NaN NaN NaN es NaN NaN NaN other geoname_2_ES other NaN 2006-04-04 00:00:00 NaN NaN 0 0 0 1008486 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1431,1431,1761... NaN NaN NaN NaN celestial 858 NaN NaN NaN NaN NaN NaN NaN NaN 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 47500 NaN
2 606 657 archive 1 NaN NaN disk0/00/00/06/06 2010-01-06 13:44:31 2016-04-17 21:53:14 2010-01-06 13:44:31 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://hal.archives-ouvertes.fr/ HAL: Hyper Article en Ligne http://hal.archives-ouvertes.fr/oai/oai.php NaN NaN NaN NaN TRUE TRUE NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 1998-11-02 11:53:57 NaN NaN 0 0 2 675816 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... NaN NaN NaN NaN opendoar 166 NaN NaN NaN 1 6 1 1 1 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 3063 NaN
3 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN celestial 1106 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN roarmap 69 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [3]:
roar_df.columns
Out[3]:
Index(['eprintid', 'rev_number', 'eprint_status', 'userid', 'importid',
       'source', 'dir', 'datestamp', 'lastmod', 'status_changed', 'type',
       'succeeds', 'commentary', 'metadata_visibility', 'latitude',
       'longitude', 'relation_type', 'relation_uri', 'item_issues_id',
       'item_issues_type', 'item_issues_description', 'item_issues_timestamp',
       'item_issues_status', 'item_issues_reported_by',
       'item_issues_resolved_by', 'item_issues_comment', 'item_issues_count',
       'sword_depositor', 'sword_slug', 'exemplar', 'home_page', 'title',
       'oai_pmh', 'sword_endpoint', 'rss_feed', 'twitter_feed', 'description',
       'fulltext', 'open_access', 'mandate', 'organisation_title',
       'organisation_home_page', 'location_country', 'location_city',
       'location_latitude', 'location_longitude', 'software', 'geoname',
       'version', 'subjects', 'date', 'note', 'suggestions', 'activity_low',
       'activity_medium', 'activity_high', 'recordcount', 'recordhistory',
       'fulltexts_total', 'fulltexts_docs', 'fulltexts_rtotal',
       'fulltexts_rdocs', 'registry_name', 'registry_id', 'submit_to',
       'submitted_to_name', 'submitted_to_done', 'webometrics_rank',
       'webometrics_size', 'webometrics_visibility', 'webometrics_rich_files',
       'webometrics_scholar', 'monthly_deposits', 'total_deposits',
       'association'],
      dtype='object')
In [4]:
roar_df.describe(include='all')
Out[4]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
count 17589 5375 5375 5375 0 0 5375 5375 5375 5375 5375 107 0 5375 0 0 0 0 86 86 86 86 86 0 0 0 2245 0 0 265 5368 5373 4468 176 1521 115 3782 4127 4127 3676 5182 4898 5205 3774 3752 3734 4637 4671 5375 10524 5360 215 187 2291 2291 2291 2293 2291 270 258 270 258 7398 7266 567 205 205 148 148 148 148 148 756 756 231
unique 5375 658 1 2135 0 0 5375 4127 3966 4158 12 107 0 2 0 0 0 0 51 3 68 3 2 0 0 0 4 0 0 2 5202 5076 4179 170 1468 111 3304 2 2 2 4437 4328 136 1875 2927 2965 31 126 53 237 4830 207 171 72 54 16 741 1704 135 118 134 117 3 5166 3 1 1 148 148 148 146 143 346 342 2
top 10159 11 archive 1 NaN NaN disk0/00/00/09/21 2010-01-06 13:43:48 2016-04-17 21:55:19 2010-01-06 13:43:48 institutional 3164 NaN show NaN NaN NaN NaN bad_oai_pmh_url_0 duplicate_title Similar title to <xhtml:table xmlns:xhtml="htt... 2010-01-13 10:44:49 discovered NaN NaN NaN 0 NaN NaN FALSE http://eprints.upnjatim.ac.id/ Repositorio Institucional http://virtuelcampus.univ-msila.dz/fll http://repositorio.itesm.mx/ortec/ http://eprints.upnjatim.ac.id/cgi/latest_tool?... http://twitter.com/bu_ufsc info:other:archives.eprints.org:import TRUE TRUE FALSE Chinese Academy of Science (中国科学院) http://www.cas.cn/ us Lima 34.1607 -118.139 dspace geoname_2_US other L1 2006-05-04 10:48:14 ¿Quién puede depositar documentos en el reposi... This repository is hosted by the Texas Digital... 0 0 0 100 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 0 0 0 celestial 184 celestial opendoar 2021-01-25 1 6 1 824 806 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 russell_group
freq 238 332 5375 1333 NaN NaN 1 16 8 16 3795 1 NaN 5334 NaN NaN NaN NaN 18 47 3 68 53 NaN NaN NaN 2204 NaN NaN 258 4 7 5 2 5 2 112 2758 2652 2699 9 9 902 70 25 25 2307 840 4771 348 99 2 9 2015 2077 2213 733 95 113 114 113 114 3758 7 216 205 205 1 1 1 3 5 387 387 141
In [5]:
roar_df[roar_df.eprintid == '606']
Out[5]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
2 606 657 archive 1 NaN NaN disk0/00/00/06/06 2010-01-06 13:44:31 2016-04-17 21:53:14 2010-01-06 13:44:31 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://hal.archives-ouvertes.fr/ HAL: Hyper Article en Ligne http://hal.archives-ouvertes.fr/oai/oai.php NaN NaN NaN NaN TRUE TRUE NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 1998-11-02 11:53:57 NaN NaN 0 0 2 675816 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... NaN NaN NaN NaN opendoar 166 NaN NaN NaN 1 6 1 1 1 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 3063 NaN
3 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN celestial 1106 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN roarmap 69 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [6]:
roar_df = roar_df.groupby('eprintid').aggregate(set)
roar_df.head()
Out[6]:
rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
eprintid
1 {nan, 633} {nan, archive} {1, nan} {nan} {nan} {nan, disk0/00/00/00/01} {nan, 2010-01-06 13:43:48} {nan, 2011-07-18 05:40:07} {nan, 2010-01-06 13:43:48} {nan, subject} {nan} {nan} {show, nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, 0} {nan} {nan} {nan} {nan, http://archivesic.ccsd.cnrs.fr/} {nan, @RCHIVESIC } {nan, http://archivesic.ccsd.cnrs.fr/oai/oai.php} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, fr} {nan} {nan} {nan} {nan, hal} {nan, geoname_2_FR} {nan, other} {nan} {nan, 2002-05-17 19:24:41} {nan} {nan} {nan, 0} {nan, 0} {nan, 0} {25, nan} {0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0... {nan} {nan} {nan} {nan} {celestial, opendoar} {58, 669} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
10 {nan, 511} {nan, archive} {1, nan} {nan} {nan} {disk0/00/00/00/10, nan} {nan, 2010-01-06 13:43:48} {nan, 2011-07-18 05:40:13} {nan, 2010-01-06 13:43:48} {nan, institutional} {nan} {nan} {show, nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, 0} {nan} {nan} {nan} {http://www.diva-portal.org/mdh/, nan} {nan, Academic Archive On-line (Mälardalen Uni... {nan, http://www.diva-portal.org/oai/mdh/OAI} {nan} {nan} {nan} {nan} {TRUE, nan} {TRUE, nan} {nan} {nan} {nan} {nan, se} {nan, Uppsala} {nan, 59.8667} {nan, 17.6333} {nan, diva} {geoname_2_SE, nan} {nan, other} {nan} {nan, 2005-12-08 13:15:22} {nan} {nan} {nan, 0} {nan, 0} {nan, 0} {nan, 100} {0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,100,10... {nan} {nan} {nan} {nan} {celestial, opendoar} {258, 526} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
1000 {274} {archive} {1} {nan} {nan} {disk0/00/00/10/00} {2010-01-06 13:45:01} {2011-07-06 08:21:21} {2010-01-06 13:45:01} {subject} {nan} {nan} {show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {0} {nan} {nan} {nan} {http://pam.pisharp.org/} {PAM - Portuguese Archive of Mathematics} {nan} {nan} {nan} {nan} {nan} {TRUE} {TRUE} {nan} {nan} {nan} {pt} {Bellevue, WA} {47.6034} {-122.155} {dspace} {geoname_2_PT} {other} {nan} {2006-05-04 10:48:14} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
10001 {nan, 20} {nan, archive} {nan, 91} {nan} {nan} {nan, disk0/00/01/00/01} {nan, 2015-08-08 14:52:11} {nan, 2016-03-21 19:44:01} {nan, 2015-08-08 14:52:11} {nan, subject} {nan} {nan} {show, nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, http://edoc.sub.uni-hamburg.de/klimawand... {Klimawandel Dokumentenserver, nan} {nan, http://edoc.sub.uni-hamburg.de/klimawand... {nan} {nan} {nan} {nan, The "Documentenserver Klimawandel" (Repo... {TRUE, nan} {TRUE, nan} {TRUE, nan} {nan, Helmholtz-Zentrum Geesthacht, KLIMZUG pr... {http://www.hzg.de/, nan, http://www.climatese... {nan, de} {nan, Hamburg} {nan, 53.5511} {nan, 9.9937} {nan, opus} {nan, geoname_2_DE} {nan, other} {HD, S1, GF, GE, G1} {nan, 2015-07-02 08:08:31} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, celestial, opendoar} {nan, 5881, 3408} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
10008 {11} {archive} {404} {nan} {nan} {disk0/00/01/00/08} {2015-08-08 14:52:26} {2016-03-21 19:43:51} {2015-08-08 14:52:26} {institutional} {nan} {nan} {show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {http://creativematter.skidmore.edu/} {Creative Matter | Skidmore College Research} {http://creativematter.skidmore.edu/do/oai/} {nan} {http://creativematter.skidmore.edu/recent.rss} {nan} {Welcome to Creative Matter, a repository for ... {TRUE} {FALSE} {FALSE} {Skidmore College} {http://www.skidmore.edu/} {us} {Saratoga Springs} {43.0961} {-73.7818} {bepress} {geoname_2_US} {other} {nan} {2015-07-06 17:35:50} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {celestial} {5882} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
In [7]:
def value_or_list(cell_set):
    copy = set(cell_set)
    copy.discard(np.nan) 
    if len(copy) == 0:
        return np.nan
    if len(copy) == 1:
        return copy.pop()
    return list(copy)
        
roar_df = roar_df.applymap(value_or_list)
roar_df.head()
Out[7]:
rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
eprintid
1 633 archive 1 NaN NaN disk0/00/00/00/01 2010-01-06 13:43:48 2011-07-18 05:40:07 2010-01-06 13:43:48 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://archivesic.ccsd.cnrs.fr/ @RCHIVESIC http://archivesic.ccsd.cnrs.fr/oai/oai.php NaN NaN NaN NaN NaN NaN NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 2002-05-17 19:24:41 NaN NaN 0 0 0 25 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... NaN NaN NaN NaN [celestial, opendoar] [58, 669] NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10 511 archive 1 NaN NaN disk0/00/00/00/10 2010-01-06 13:43:48 2011-07-18 05:40:13 2010-01-06 13:43:48 institutional NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://www.diva-portal.org/mdh/ Academic Archive On-line (Mälardalen Universit... http://www.diva-portal.org/oai/mdh/OAI NaN NaN NaN NaN TRUE TRUE NaN NaN NaN se Uppsala 59.8667 17.6333 diva geoname_2_SE other NaN 2005-12-08 13:15:22 NaN NaN 0 0 0 100 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,100,100... NaN NaN NaN NaN [celestial, opendoar] [258, 526] NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1000 274 archive 1 NaN NaN disk0/00/00/10/00 2010-01-06 13:45:01 2011-07-06 08:21:21 2010-01-06 13:45:01 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://pam.pisharp.org/ PAM - Portuguese Archive of Mathematics NaN NaN NaN NaN NaN TRUE TRUE NaN NaN NaN pt Bellevue, WA 47.6034 -122.155 dspace geoname_2_PT other NaN 2006-05-04 10:48:14 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10001 20 archive 91 NaN NaN disk0/00/01/00/01 2015-08-08 14:52:11 2016-03-21 19:44:01 2015-08-08 14:52:11 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN http://edoc.sub.uni-hamburg.de/klimawandel/ Klimawandel Dokumentenserver http://edoc.sub.uni-hamburg.de/klimawandel/oai NaN NaN NaN The "Documentenserver Klimawandel" (Repository... TRUE TRUE TRUE [Helmholtz-Zentrum Geesthacht, KLIMZUG project... [http://www.hzg.de/, http://www.climateservice... de Hamburg 53.5511 9.9937 opus geoname_2_DE other [GF, HD, GE, S1, G1] 2015-07-02 08:08:31 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN [celestial, opendoar] [5881, 3408] NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10008 11 archive 404 NaN NaN disk0/00/01/00/08 2015-08-08 14:52:26 2016-03-21 19:43:51 2015-08-08 14:52:26 institutional NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN http://creativematter.skidmore.edu/ Creative Matter | Skidmore College Research http://creativematter.skidmore.edu/do/oai/ NaN http://creativematter.skidmore.edu/recent.rss NaN Welcome to Creative Matter, a repository for t... TRUE FALSE FALSE Skidmore College http://www.skidmore.edu/ us Saratoga Springs 43.0961 -73.7818 bepress geoname_2_US other NaN 2015-07-06 17:35:50 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN celestial 5882 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [8]:
roar_df.reset_index(inplace=True)
roar_df[roar_df.eprintid == '606']
Out[8]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
4188 606 657 archive 1 NaN NaN disk0/00/00/06/06 2010-01-06 13:44:31 2016-04-17 21:53:14 2010-01-06 13:44:31 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://hal.archives-ouvertes.fr/ HAL: Hyper Article en Ligne http://hal.archives-ouvertes.fr/oai/oai.php NaN NaN NaN NaN TRUE TRUE NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 1998-11-02 11:53:57 NaN NaN 0 0 2 675816 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... NaN NaN NaN NaN [celestial, opendoar, roarmap] [1106, 69, 166] NaN NaN NaN 1 6 1 1 1 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 3063 NaN
In [9]:
roar_df.describe(include='all')
Out[9]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
count 5375 5375 5375 5375 0.0 0.0 5375 5375 5375 5375 5375 107 0.0 5375 0.0 0.0 0.0 0.0 63 63 63 63 63 0.0 0.0 0.0 2245 0.0 0.0 265 5368 5373 4267 176 1521 115 3782 4127 4127 3676 4396 4226 5080 3655 3681 3664 4637 4671 5375 1250 5360 215 187 2291 2291 2291 2293 2291 270 258 270 258 4603 4578 293 205 205 148 148 148 148 148 756 756 217
unique 5375 658 1 2135 NaN NaN 5375 4127 3966 4158 12 107 NaN 2 NaN NaN NaN NaN 48 5 62 4 3 NaN NaN NaN 4 NaN NaN 2 5202 5076 3994 170 1468 111 3304 2 2 2 3802 3772 143 1861 2887 2917 31 126 53 906 4830 207 171 72 54 16 741 1704 135 118 134 117 8 4256 7 1 1 148 148 148 146 143 346 342 3
top 1 11 archive 1 NaN NaN disk0/00/00/00/01 2010-01-06 13:43:48 2011-07-06 08:24:53 2010-01-06 13:43:48 institutional 10164 NaN show NaN NaN NaN NaN bad_oai_pmh_url_0 duplicate_title Duplicate title to <xhtml:table xmlns:xhtml="h... 2010-01-13 10:44:49 discovered NaN NaN NaN 0 NaN NaN FALSE http://eprints.upnjatim.ac.id/ Repositorio Institucional http://kce.docressources.info/ws/PMBWs_2 http://producao.usp.br/sword/servicedocument http://eprints.upnjatim.ac.id/cgi/latest_tool?... http://my.indexcopernicus.com/fredemoreno info:other:archives.eprints.org:import TRUE TRUE FALSE Chinese Academy of Science (中国科学院) http://www.cas.cn/ us Lima 34.1607 -118.139 dspace geoname_2_US other K1 2006-05-04 10:48:14 DSpace@Işık is a growing collection of Işık Un... This repository is hosted by the Texas Digital... 0 0 0 100 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 0 0 0 [celestial, opendoar] 2479 [celestial, opendoar, roarmap] opendoar 2021-01-25 24 46 20 824 806 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 russell_group
freq 1 332 5375 1333 NaN NaN 1 16 8 16 3795 1 NaN 5334 NaN NaN NaN NaN 15 33 2 45 38 NaN NaN NaN 2204 NaN NaN 258 4 7 4 2 5 2 112 2758 2652 2699 9 9 886 69 25 25 2307 840 4771 53 99 2 9 2015 2077 2213 733 95 113 114 113 114 2114 4 92 205 205 1 1 1 3 5 387 387 127
mean NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
std NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
min NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
25% NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
50% NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
75% NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
max NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [10]:
roar_df.isna().sum()[:40]
Out[10]:
eprintid                      0
rev_number                    0
eprint_status                 0
userid                        0
importid                   5375
source                     5375
dir                           0
datestamp                     0
lastmod                       0
status_changed                0
type                          0
succeeds                   5268
commentary                 5375
metadata_visibility           0
latitude                   5375
longitude                  5375
relation_type              5375
relation_uri               5375
item_issues_id             5312
item_issues_type           5312
item_issues_description    5312
item_issues_timestamp      5312
item_issues_status         5312
item_issues_reported_by    5375
item_issues_resolved_by    5375
item_issues_comment        5375
item_issues_count          3130
sword_depositor            5375
sword_slug                 5375
exemplar                   5110
home_page                     7
title                         2
oai_pmh                    1108
sword_endpoint             5199
rss_feed                   3854
twitter_feed               5260
description                1593
fulltext                   1248
open_access                1248
mandate                    1699
dtype: int64
In [11]:
roar_df.isna().sum()[40:]
Out[11]:
organisation_title         979
organisation_home_page    1149
location_country           295
location_city             1720
location_latitude         1694
location_longitude        1711
software                   738
geoname                    704
version                      0
subjects                  4125
date                        15
note                      5160
suggestions               5188
activity_low              3084
activity_medium           3084
activity_high             3084
recordcount               3082
recordhistory             3084
fulltexts_total           5105
fulltexts_docs            5117
fulltexts_rtotal          5105
fulltexts_rdocs           5117
registry_name              772
registry_id                797
submit_to                 5082
submitted_to_name         5170
submitted_to_done         5170
webometrics_rank          5227
webometrics_size          5227
webometrics_visibility    5227
webometrics_rich_files    5227
webometrics_scholar       5227
monthly_deposits          4619
total_deposits            4619
association               5158
dtype: int64
In [12]:
pd.DataFrame(roar_df.type).groupby('type').size()
Out[12]:
type
database            74
demonstration       20
institutional     3795
journal            121
learning            77
multi              141
opendata            41
other              409
researchdata        54
subject            294
theses             347
webobservatory       2
dtype: int64
In [13]:
pd.DataFrame(roar_df.open_access).groupby('open_access').size()
Out[13]:
open_access
FALSE    1475
TRUE     2652
dtype: int64
In [14]:
pd.DataFrame(roar_df.mandate).groupby('mandate').size()
Out[14]:
mandate
FALSE    2699
TRUE      977
dtype: int64