registries_analysis/notebooks/01.3-exploration-roar.ipynb

212 KiB

In [1]:
import ast
import csv
import json

import numpy as np
import pandas as pd

import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px

pd.set_option('display.max_columns', None)

Loading datasets

In [2]:
roar_df = pd.read_csv('../data/raw/export_roar_CSV.csv', dtype='str')
roar_df.head()
Out[2]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
0 921 517 archive 1 NaN NaN disk0/00/00/09/21 2010-01-06 13:44:55 2016-04-17 21:54:11 2010-01-06 13:44:55 theses NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN FALSE http://alcme.oclc.org/ndltd/index.html Networked Digital Library of Theses and Disser... http://alcme.oclc.org/ndltd/servlet/OAIHandler NaN NaN NaN NaN TRUE TRUE NaN NaN NaN us NaN NaN NaN etddb geoname_2_US other NaN 2006-04-18 NaN NaN 0 0 0 1533400 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,94862,168074,5... NaN NaN NaN NaN celestial 5 NaN NaN NaN NaN NaN NaN NaN NaN 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 NaN
1 1489 556 archive 1 NaN NaN disk0/00/00/14/89 2010-01-06 13:46:05 2016-04-17 21:49:00 2010-01-06 13:46:05 other NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://prensahistorica.mcu.es/prensahistorica/... Virtual Library of Historical Press http://prensahistorica.mcu.es/prensahistorica/... NaN NaN NaN The Virtual Library of Historical Press is the... TRUE TRUE NaN NaN NaN es NaN NaN NaN other geoname_2_ES other NaN 2006-04-04 00:00:00 NaN NaN 0 0 0 1008486 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1431,1431,1761... NaN NaN NaN NaN celestial 858 NaN NaN NaN NaN NaN NaN NaN NaN 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 47500 NaN
2 606 657 archive 1 NaN NaN disk0/00/00/06/06 2010-01-06 13:44:31 2016-04-17 21:53:14 2010-01-06 13:44:31 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://hal.archives-ouvertes.fr/ HAL: Hyper Article en Ligne http://hal.archives-ouvertes.fr/oai/oai.php NaN NaN NaN NaN TRUE TRUE NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 1998-11-02 11:53:57 NaN NaN 0 0 2 675816 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... NaN NaN NaN NaN opendoar 166 NaN NaN NaN 1 6 1 1 1 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 3063 NaN
3 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN celestial 1106 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN roarmap 69 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [3]:
roar_df.columns
Out[3]:
Index(['eprintid', 'rev_number', 'eprint_status', 'userid', 'importid',
       'source', 'dir', 'datestamp', 'lastmod', 'status_changed', 'type',
       'succeeds', 'commentary', 'metadata_visibility', 'latitude',
       'longitude', 'relation_type', 'relation_uri', 'item_issues_id',
       'item_issues_type', 'item_issues_description', 'item_issues_timestamp',
       'item_issues_status', 'item_issues_reported_by',
       'item_issues_resolved_by', 'item_issues_comment', 'item_issues_count',
       'sword_depositor', 'sword_slug', 'exemplar', 'home_page', 'title',
       'oai_pmh', 'sword_endpoint', 'rss_feed', 'twitter_feed', 'description',
       'fulltext', 'open_access', 'mandate', 'organisation_title',
       'organisation_home_page', 'location_country', 'location_city',
       'location_latitude', 'location_longitude', 'software', 'geoname',
       'version', 'subjects', 'date', 'note', 'suggestions', 'activity_low',
       'activity_medium', 'activity_high', 'recordcount', 'recordhistory',
       'fulltexts_total', 'fulltexts_docs', 'fulltexts_rtotal',
       'fulltexts_rdocs', 'registry_name', 'registry_id', 'submit_to',
       'submitted_to_name', 'submitted_to_done', 'webometrics_rank',
       'webometrics_size', 'webometrics_visibility', 'webometrics_rich_files',
       'webometrics_scholar', 'monthly_deposits', 'total_deposits',
       'association'],
      dtype='object')
In [4]:
roar_df.describe(include='all')
Out[4]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
count 18079 5444 5444 5444 0 0 5444 5444 5444 5444 5444 108 0 5444 0 0 0 0 86 86 86 86 86 0 0 0 2242 0 0 268 5437 5442 4567 178 1538 116 3837 4197 4197 3746 5253 4965 5268 3839 3798 3780 4700 4730 5444 10941 5429 218 189 2288 2288 2288 2290 2288 270 258 270 258 7393 7258 730 205 205 148 148 148 148 148 756 756 237
unique 5444 660 1 2189 0 0 5444 4198 4043 4230 12 108 0 2 0 0 0 0 51 3 68 3 2 0 0 0 4 0 0 2 5271 5143 4278 172 1485 112 3359 2 2 2 4498 4395 136 1896 2965 3003 31 126 53 237 4898 210 173 72 54 16 741 1702 135 118 134 117 3 5165 3 1 1 148 148 148 146 143 346 342 2
top 12118 11 archive 1 NaN NaN disk0/00/00/09/21 2010-01-06 13:43:48 2016-04-17 21:55:19 2010-01-06 13:43:48 institutional 3164 NaN show NaN NaN NaN NaN bad_oai_pmh_url_0 duplicate_title Similar title to <xhtml:table xmlns:xhtml="htt... 2010-01-13 10:44:49 discovered NaN NaN NaN 0 NaN NaN FALSE http://eprints.upnjatim.ac.id/ Repositorio Institucional http://virtuelcampus.univ-msila.dz/fll http://producao.usp.br/sword/servicedocument http://eprints.upnjatim.ac.id/cgi/latest_tool?... http://twitter.com/bu_ufsc info:other:archives.eprints.org:import TRUE TRUE FALSE Chinese Academy of Science (中国科学院) http://www.cas.cn/ us Lima 34.1607 -118.139 dspace geoname_2_US other L1 2006-05-04 10:48:14 ¿Quién puede depositar documentos en el reposi... This repository is hosted by the Texas Digital... 0 0 0 100 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 0 0 0 celestial 184 celestial opendoar 2021-01-25 1 6 1 824 806 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 russell_group
freq 238 333 5444 1330 NaN NaN 1 16 8 16 3853 1 NaN 5402 NaN NaN NaN NaN 18 47 3 68 53 NaN NaN NaN 2201 NaN NaN 261 4 7 5 2 5 2 112 2805 2696 2748 9 9 907 76 25 25 2341 845 4841 362 99 2 9 2012 2074 2210 730 95 113 114 113 114 3741 7 283 205 205 1 1 1 3 5 387 387 144
In [5]:
roar_df[roar_df.eprintid == '606']
Out[5]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
2 606 657 archive 1 NaN NaN disk0/00/00/06/06 2010-01-06 13:44:31 2016-04-17 21:53:14 2010-01-06 13:44:31 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://hal.archives-ouvertes.fr/ HAL: Hyper Article en Ligne http://hal.archives-ouvertes.fr/oai/oai.php NaN NaN NaN NaN TRUE TRUE NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 1998-11-02 11:53:57 NaN NaN 0 0 2 675816 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... NaN NaN NaN NaN opendoar 166 NaN NaN NaN 1 6 1 1 1 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 3063 NaN
3 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN celestial 1106 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 606 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN roarmap 69 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [6]:
roar_df = roar_df.groupby('eprintid').aggregate(set)
roar_df.head()
Out[6]:
rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
eprintid
1 {nan, 633} {archive, nan} {1, nan} {nan} {nan} {nan, disk0/00/00/00/01} {nan, 2010-01-06 13:43:48} {nan, 2011-07-18 05:40:07} {nan, 2010-01-06 13:43:48} {nan, subject} {nan} {nan} {nan, show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, 0} {nan} {nan} {nan} {nan, http://archivesic.ccsd.cnrs.fr/} {nan, @RCHIVESIC } {nan, http://archivesic.ccsd.cnrs.fr/oai/oai.php} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, fr} {nan} {nan} {nan} {nan, hal} {nan, geoname_2_FR} {nan, other} {nan} {nan, 2002-05-17 19:24:41} {nan} {nan} {nan, 0} {nan, 0} {nan, 0} {nan, 25} {nan, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... {nan} {nan} {nan} {nan} {opendoar, celestial} {669, 58} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
10 {nan, 511} {archive, nan} {1, nan} {nan} {nan} {disk0/00/00/00/10, nan} {nan, 2010-01-06 13:43:48} {2011-07-18 05:40:13, nan} {nan, 2010-01-06 13:43:48} {nan, institutional} {nan} {nan} {nan, show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, 0} {nan} {nan} {nan} {nan, http://www.diva-portal.org/mdh/} {nan, Academic Archive On-line (Mälardalen Uni... {nan, http://www.diva-portal.org/oai/mdh/OAI} {nan} {nan} {nan} {nan} {nan, TRUE} {nan, TRUE} {nan} {nan} {nan} {nan, se} {Uppsala, nan} {nan, 59.8667} {17.6333, nan} {nan, diva} {nan, geoname_2_SE} {nan, other} {nan} {nan, 2005-12-08 13:15:22} {nan} {nan} {nan, 0} {nan, 0} {nan, 0} {nan, 100} {nan, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,1... {nan} {nan} {nan} {nan} {opendoar, celestial} {258, 526} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
1000 {274} {archive} {1} {nan} {nan} {disk0/00/00/10/00} {2010-01-06 13:45:01} {2011-07-06 08:21:21} {2010-01-06 13:45:01} {subject} {nan} {nan} {show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {0} {nan} {nan} {nan} {http://pam.pisharp.org/} {PAM - Portuguese Archive of Mathematics} {nan} {nan} {nan} {nan} {nan} {TRUE} {TRUE} {nan} {nan} {nan} {pt} {Bellevue, WA} {47.6034} {-122.155} {dspace} {geoname_2_PT} {other} {nan} {2006-05-04 10:48:14} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
10001 {nan, 20} {archive, nan} {nan, 91} {nan} {nan} {nan, disk0/00/01/00/01} {nan, 2015-08-08 14:52:11} {nan, 2016-03-21 19:44:01} {nan, 2015-08-08 14:52:11} {nan, subject} {nan} {nan} {nan, show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, http://edoc.sub.uni-hamburg.de/klimawand... {nan, Klimawandel Dokumentenserver} {http://edoc.sub.uni-hamburg.de/klimawandel/oa... {nan} {nan} {nan} {nan, The "Documentenserver Klimawandel" (Repo... {nan, TRUE} {nan, TRUE} {nan, TRUE} {nan, Climate Service Center 2.0, Helmholtz-Ze... {nan, http://www.climateservicecenter.de/, htt... {nan, de} {nan, Hamburg} {nan, 53.5511} {nan, 9.9937} {nan, opus} {nan, geoname_2_DE} {nan, other} {G1, GE, HD, S1, GF} {nan, 2015-07-02 08:08:31} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan, opendoar, celestial} {3408, nan, 5881} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
10008 {11} {archive} {404} {nan} {nan} {disk0/00/01/00/08} {2015-08-08 14:52:26} {2016-03-21 19:43:51} {2015-08-08 14:52:26} {institutional} {nan} {nan} {show} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {http://creativematter.skidmore.edu/} {Creative Matter | Skidmore College Research} {http://creativematter.skidmore.edu/do/oai/} {nan} {http://creativematter.skidmore.edu/recent.rss} {nan} {Welcome to Creative Matter, a repository for ... {TRUE} {FALSE} {FALSE} {Skidmore College} {http://www.skidmore.edu/} {us} {Saratoga Springs} {43.0961} {-73.7818} {bepress} {geoname_2_US} {other} {nan} {2015-07-06 17:35:50} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {celestial} {5882} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan} {nan}
In [7]:
def value_or_list(cell_set):
    copy = set(cell_set)
    copy.discard(np.nan) 
    if len(copy) == 0:
        return np.nan
    if len(copy) == 1:
        return copy.pop()
    return list(copy)
        
roar_df = roar_df.applymap(value_or_list)
roar_df.head()
Out[7]:
rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
eprintid
1 633 archive 1 NaN NaN disk0/00/00/00/01 2010-01-06 13:43:48 2011-07-18 05:40:07 2010-01-06 13:43:48 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://archivesic.ccsd.cnrs.fr/ @RCHIVESIC http://archivesic.ccsd.cnrs.fr/oai/oai.php NaN NaN NaN NaN NaN NaN NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 2002-05-17 19:24:41 NaN NaN 0 0 0 25 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... NaN NaN NaN NaN [opendoar, celestial] [669, 58] NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10 511 archive 1 NaN NaN disk0/00/00/00/10 2010-01-06 13:43:48 2011-07-18 05:40:13 2010-01-06 13:43:48 institutional NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://www.diva-portal.org/mdh/ Academic Archive On-line (Mälardalen Universit... http://www.diva-portal.org/oai/mdh/OAI NaN NaN NaN NaN TRUE TRUE NaN NaN NaN se Uppsala 59.8667 17.6333 diva geoname_2_SE other NaN 2005-12-08 13:15:22 NaN NaN 0 0 0 100 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,100,100... NaN NaN NaN NaN [opendoar, celestial] [258, 526] NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1000 274 archive 1 NaN NaN disk0/00/00/10/00 2010-01-06 13:45:01 2011-07-06 08:21:21 2010-01-06 13:45:01 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://pam.pisharp.org/ PAM - Portuguese Archive of Mathematics NaN NaN NaN NaN NaN TRUE TRUE NaN NaN NaN pt Bellevue, WA 47.6034 -122.155 dspace geoname_2_PT other NaN 2006-05-04 10:48:14 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10001 20 archive 91 NaN NaN disk0/00/01/00/01 2015-08-08 14:52:11 2016-03-21 19:44:01 2015-08-08 14:52:11 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN http://edoc.sub.uni-hamburg.de/klimawandel/ Klimawandel Dokumentenserver http://edoc.sub.uni-hamburg.de/klimawandel/oai NaN NaN NaN The "Documentenserver Klimawandel" (Repository... TRUE TRUE TRUE [Climate Service Center 2.0, Helmholtz-Zentrum... [http://www.climateservicecenter.de/, http://w... de Hamburg 53.5511 9.9937 opus geoname_2_DE other [G1, S1, GF, GE, HD] 2015-07-02 08:08:31 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN [opendoar, celestial] [3408, 5881] NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10008 11 archive 404 NaN NaN disk0/00/01/00/08 2015-08-08 14:52:26 2016-03-21 19:43:51 2015-08-08 14:52:26 institutional NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN http://creativematter.skidmore.edu/ Creative Matter | Skidmore College Research http://creativematter.skidmore.edu/do/oai/ NaN http://creativematter.skidmore.edu/recent.rss NaN Welcome to Creative Matter, a repository for t... TRUE FALSE FALSE Skidmore College http://www.skidmore.edu/ us Saratoga Springs 43.0961 -73.7818 bepress geoname_2_US other NaN 2015-07-06 17:35:50 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN celestial 5882 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [8]:
roar_df.reset_index(inplace=True)
roar_df[roar_df.eprintid == '606']
Out[8]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
4259 606 657 archive 1 NaN NaN disk0/00/00/06/06 2010-01-06 13:44:31 2016-04-17 21:53:14 2010-01-06 13:44:31 subject NaN NaN show NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0 NaN NaN NaN http://hal.archives-ouvertes.fr/ HAL: Hyper Article en Ligne http://hal.archives-ouvertes.fr/oai/oai.php NaN NaN NaN NaN TRUE TRUE NaN NaN NaN fr NaN NaN NaN hal geoname_2_FR other NaN 1998-11-02 11:53:57 NaN NaN 0 0 2 675816 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... NaN NaN NaN NaN [opendoar, celestial, roarmap] [166, 1106, 69] NaN NaN NaN 1 6 1 1 1 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 3063 NaN
In [9]:
roar_df.describe(include='all')
Out[9]:
eprintid rev_number eprint_status userid importid source dir datestamp lastmod status_changed type succeeds commentary metadata_visibility latitude longitude relation_type relation_uri item_issues_id item_issues_type item_issues_description item_issues_timestamp item_issues_status item_issues_reported_by item_issues_resolved_by item_issues_comment item_issues_count sword_depositor sword_slug exemplar home_page title oai_pmh sword_endpoint rss_feed twitter_feed description fulltext open_access mandate organisation_title organisation_home_page location_country location_city location_latitude location_longitude software geoname version subjects date note suggestions activity_low activity_medium activity_high recordcount recordhistory fulltexts_total fulltexts_docs fulltexts_rtotal fulltexts_rdocs registry_name registry_id submit_to submitted_to_name submitted_to_done webometrics_rank webometrics_size webometrics_visibility webometrics_rich_files webometrics_scholar monthly_deposits total_deposits association
count 5444 5444 5444 5444 0.0 0.0 5444 5444 5444 5444 5444 108 0.0 5444 0.0 0.0 0.0 0.0 63 63 63 63 63 0.0 0.0 0.0 2242 0.0 0.0 268 5437 5442 4332 178 1538 116 3837 4197 4197 3746 4460 4286 5138 3714 3725 3708 4700 4730 5444 1289 5429 218 189 2288 2288 2288 2290 2288 270 258 270 258 4605 4580 375 205 205 148 148 148 148 148 756 756 223
unique 5444 660 1 2189 NaN NaN 5444 4198 4043 4230 12 108 NaN 2 NaN NaN NaN NaN 48 5 62 4 3 NaN NaN NaN 4 NaN NaN 2 5271 5143 4059 172 1485 112 3359 2 2 2 3858 3831 144 1884 2923 2953 31 126 53 938 4898 210 173 72 54 16 741 1702 135 118 134 117 9 4259 7 1 1 148 148 148 146 143 346 342 3
top 1 11 archive 1 NaN NaN disk0/00/00/00/01 2010-01-06 13:43:48 2011-07-06 08:24:53 2010-01-06 13:43:48 institutional 10164 NaN show NaN NaN NaN NaN bad_oai_pmh_url_0 duplicate_title Duplicate title to <xhtml:table xmlns:xhtml="h... 2010-01-13 10:44:49 discovered NaN NaN NaN 0 NaN NaN FALSE http://eprints.upnjatim.ac.id/ Repositorio Institucional http://kce.docressources.info/ws/PMBWs_2 http://producao.usp.br/sword/servicedocument http://eprints.upnjatim.ac.id/cgi/latest_tool?... http://my.indexcopernicus.com/fredemoreno info:other:archives.eprints.org:import TRUE TRUE FALSE Chinese Academy of Science (中国科学院) http://www.cas.cn/ us Lima 34.1607 -118.139 dspace geoname_2_US other K1 2006-05-04 10:48:14 ¿Quién puede depositar documentos en el reposi... This repository is hosted by the Texas Digital... 0 0 0 100 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 0 0 0 [opendoar, celestial] [1879, 2246] [opendoar, celestial, roarmap] opendoar 2021-01-25 24 46 20 824 806 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 0 russell_group
freq 1 333 5444 1330 NaN NaN 1 16 8 16 3853 1 NaN 5402 NaN NaN NaN NaN 15 33 2 45 38 NaN NaN NaN 2201 NaN NaN 261 4 7 4 2 5 2 112 2805 2696 2748 9 9 891 74 25 25 2341 845 4841 53 99 2 9 2012 2074 2210 730 95 113 114 113 114 2106 4 119 205 205 1 1 1 3 5 387 387 130
mean NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
std NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
min NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
25% NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
50% NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
75% NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
max NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
In [10]:
roar_df.isna().sum()[:40]
Out[10]:
eprintid                      0
rev_number                    0
eprint_status                 0
userid                        0
importid                   5444
source                     5444
dir                           0
datestamp                     0
lastmod                       0
status_changed                0
type                          0
succeeds                   5336
commentary                 5444
metadata_visibility           0
latitude                   5444
longitude                  5444
relation_type              5444
relation_uri               5444
item_issues_id             5381
item_issues_type           5381
item_issues_description    5381
item_issues_timestamp      5381
item_issues_status         5381
item_issues_reported_by    5444
item_issues_resolved_by    5444
item_issues_comment        5444
item_issues_count          3202
sword_depositor            5444
sword_slug                 5444
exemplar                   5176
home_page                     7
title                         2
oai_pmh                    1112
sword_endpoint             5266
rss_feed                   3906
twitter_feed               5328
description                1607
fulltext                   1247
open_access                1247
mandate                    1698
dtype: int64
In [11]:
roar_df.isna().sum()[40:]
Out[11]:
organisation_title         984
organisation_home_page    1158
location_country           306
location_city             1730
location_latitude         1719
location_longitude        1736
software                   744
geoname                    714
version                      0
subjects                  4155
date                        15
note                      5226
suggestions               5255
activity_low              3156
activity_medium           3156
activity_high             3156
recordcount               3154
recordhistory             3156
fulltexts_total           5174
fulltexts_docs            5186
fulltexts_rtotal          5174
fulltexts_rdocs           5186
registry_name              839
registry_id                864
submit_to                 5069
submitted_to_name         5239
submitted_to_done         5239
webometrics_rank          5296
webometrics_size          5296
webometrics_visibility    5296
webometrics_rich_files    5296
webometrics_scholar       5296
monthly_deposits          4688
total_deposits            4688
association               5221
dtype: int64
In [12]:
pd.DataFrame(roar_df.type).groupby('type').size()
Out[12]:
type
database            74
demonstration       20
institutional     3853
journal            125
learning            77
multi              143
opendata            41
other              410
researchdata        55
subject            295
theses             349
webobservatory       2
dtype: int64
In [13]:
pd.DataFrame(roar_df.open_access).groupby('open_access').size()
Out[13]:
open_access
FALSE    1501
TRUE     2696
dtype: int64
In [14]:
pd.DataFrame(roar_df.mandate).groupby('mandate').size()
Out[14]:
mandate
FALSE    2748
TRUE      998
dtype: int64