212 KiB
212 KiB
In [1]:
import ast
import csv
import json
import numpy as np
import pandas as pd
import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px
pd.set_option('display.max_columns', None)
Loading datasets¶
In [2]:
roar_df = pd.read_csv('../data/raw/export_roar_CSV.csv', dtype='str')
roar_df.head()
Out[2]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 921 | 517 | archive | 1 | NaN | NaN | disk0/00/00/09/21 | 2010-01-06 13:44:55 | 2016-04-17 21:54:11 | 2010-01-06 13:44:55 | theses | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | FALSE | http://alcme.oclc.org/ndltd/index.html | Networked Digital Library of Theses and Disser... | http://alcme.oclc.org/ndltd/servlet/OAIHandler | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | us | NaN | NaN | NaN | etddb | geoname_2_US | other | NaN | 2006-04-18 | NaN | NaN | 0 | 0 | 0 | 1533400 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,94862,168074,5... | NaN | NaN | NaN | NaN | celestial | 5 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | NaN |
1 | 1489 | 556 | archive | 1 | NaN | NaN | disk0/00/00/14/89 | 2010-01-06 13:46:05 | 2016-04-17 21:49:00 | 2010-01-06 13:46:05 | other | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://prensahistorica.mcu.es/prensahistorica/... | Virtual Library of Historical Press | http://prensahistorica.mcu.es/prensahistorica/... | NaN | NaN | NaN | The Virtual Library of Historical Press is the... | TRUE | TRUE | NaN | NaN | NaN | es | NaN | NaN | NaN | other | geoname_2_ES | other | NaN | 2006-04-04 00:00:00 | NaN | NaN | 0 | 0 | 0 | 1008486 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1431,1431,1761... | NaN | NaN | NaN | NaN | celestial | 858 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 47500 | NaN |
2 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | opendoar | 166 | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
3 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 1106 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | roarmap | 69 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [3]:
roar_df.columns
Out[3]:
Index(['eprintid', 'rev_number', 'eprint_status', 'userid', 'importid', 'source', 'dir', 'datestamp', 'lastmod', 'status_changed', 'type', 'succeeds', 'commentary', 'metadata_visibility', 'latitude', 'longitude', 'relation_type', 'relation_uri', 'item_issues_id', 'item_issues_type', 'item_issues_description', 'item_issues_timestamp', 'item_issues_status', 'item_issues_reported_by', 'item_issues_resolved_by', 'item_issues_comment', 'item_issues_count', 'sword_depositor', 'sword_slug', 'exemplar', 'home_page', 'title', 'oai_pmh', 'sword_endpoint', 'rss_feed', 'twitter_feed', 'description', 'fulltext', 'open_access', 'mandate', 'organisation_title', 'organisation_home_page', 'location_country', 'location_city', 'location_latitude', 'location_longitude', 'software', 'geoname', 'version', 'subjects', 'date', 'note', 'suggestions', 'activity_low', 'activity_medium', 'activity_high', 'recordcount', 'recordhistory', 'fulltexts_total', 'fulltexts_docs', 'fulltexts_rtotal', 'fulltexts_rdocs', 'registry_name', 'registry_id', 'submit_to', 'submitted_to_name', 'submitted_to_done', 'webometrics_rank', 'webometrics_size', 'webometrics_visibility', 'webometrics_rich_files', 'webometrics_scholar', 'monthly_deposits', 'total_deposits', 'association'], dtype='object')
In [4]:
roar_df.describe(include='all')
Out[4]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 18079 | 5444 | 5444 | 5444 | 0 | 0 | 5444 | 5444 | 5444 | 5444 | 5444 | 108 | 0 | 5444 | 0 | 0 | 0 | 0 | 86 | 86 | 86 | 86 | 86 | 0 | 0 | 0 | 2242 | 0 | 0 | 268 | 5437 | 5442 | 4567 | 178 | 1538 | 116 | 3837 | 4197 | 4197 | 3746 | 5253 | 4965 | 5268 | 3839 | 3798 | 3780 | 4700 | 4730 | 5444 | 10941 | 5429 | 218 | 189 | 2288 | 2288 | 2288 | 2290 | 2288 | 270 | 258 | 270 | 258 | 7393 | 7258 | 730 | 205 | 205 | 148 | 148 | 148 | 148 | 148 | 756 | 756 | 237 |
unique | 5444 | 660 | 1 | 2189 | 0 | 0 | 5444 | 4198 | 4043 | 4230 | 12 | 108 | 0 | 2 | 0 | 0 | 0 | 0 | 51 | 3 | 68 | 3 | 2 | 0 | 0 | 0 | 4 | 0 | 0 | 2 | 5271 | 5143 | 4278 | 172 | 1485 | 112 | 3359 | 2 | 2 | 2 | 4498 | 4395 | 136 | 1896 | 2965 | 3003 | 31 | 126 | 53 | 237 | 4898 | 210 | 173 | 72 | 54 | 16 | 741 | 1702 | 135 | 118 | 134 | 117 | 3 | 5165 | 3 | 1 | 1 | 148 | 148 | 148 | 146 | 143 | 346 | 342 | 2 |
top | 12118 | 11 | archive | 1 | NaN | NaN | disk0/00/00/09/21 | 2010-01-06 13:43:48 | 2016-04-17 21:55:19 | 2010-01-06 13:43:48 | institutional | 3164 | NaN | show | NaN | NaN | NaN | NaN | bad_oai_pmh_url_0 | duplicate_title | Similar title to <xhtml:table xmlns:xhtml="htt... | 2010-01-13 10:44:49 | discovered | NaN | NaN | NaN | 0 | NaN | NaN | FALSE | http://eprints.upnjatim.ac.id/ | Repositorio Institucional | http://virtuelcampus.univ-msila.dz/fll | http://producao.usp.br/sword/servicedocument | http://eprints.upnjatim.ac.id/cgi/latest_tool?... | http://twitter.com/bu_ufsc | info:other:archives.eprints.org:import | TRUE | TRUE | FALSE | Chinese Academy of Science (中国科学院) | http://www.cas.cn/ | us | Lima | 34.1607 | -118.139 | dspace | geoname_2_US | other | L1 | 2006-05-04 10:48:14 | ¿Quién puede depositar documentos en el reposi... | This repository is hosted by the Texas Digital... | 0 | 0 | 0 | 100 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | 0 | 0 | 0 | celestial | 184 | celestial | opendoar | 2021-01-25 | 1 | 6 | 1 | 824 | 806 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | russell_group |
freq | 238 | 333 | 5444 | 1330 | NaN | NaN | 1 | 16 | 8 | 16 | 3853 | 1 | NaN | 5402 | NaN | NaN | NaN | NaN | 18 | 47 | 3 | 68 | 53 | NaN | NaN | NaN | 2201 | NaN | NaN | 261 | 4 | 7 | 5 | 2 | 5 | 2 | 112 | 2805 | 2696 | 2748 | 9 | 9 | 907 | 76 | 25 | 25 | 2341 | 845 | 4841 | 362 | 99 | 2 | 9 | 2012 | 2074 | 2210 | 730 | 95 | 113 | 114 | 113 | 114 | 3741 | 7 | 283 | 205 | 205 | 1 | 1 | 1 | 3 | 5 | 387 | 387 | 144 |
In [5]:
roar_df[roar_df.eprintid == '606']
Out[5]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | opendoar | 166 | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
3 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 1106 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4 | 606 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | roarmap | 69 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [6]:
roar_df = roar_df.groupby('eprintid').aggregate(set)
roar_df.head()
Out[6]:
rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
eprintid | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1 | {nan, 633} | {archive, nan} | {1, nan} | {nan} | {nan} | {nan, disk0/00/00/00/01} | {nan, 2010-01-06 13:43:48} | {nan, 2011-07-18 05:40:07} | {nan, 2010-01-06 13:43:48} | {nan, subject} | {nan} | {nan} | {nan, show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, 0} | {nan} | {nan} | {nan} | {nan, http://archivesic.ccsd.cnrs.fr/} | {nan, @RCHIVESIC } | {nan, http://archivesic.ccsd.cnrs.fr/oai/oai.php} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, fr} | {nan} | {nan} | {nan} | {nan, hal} | {nan, geoname_2_FR} | {nan, other} | {nan} | {nan, 2002-05-17 19:24:41} | {nan} | {nan} | {nan, 0} | {nan, 0} | {nan, 0} | {nan, 25} | {nan, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | {nan} | {nan} | {nan} | {nan} | {opendoar, celestial} | {669, 58} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
10 | {nan, 511} | {archive, nan} | {1, nan} | {nan} | {nan} | {disk0/00/00/00/10, nan} | {nan, 2010-01-06 13:43:48} | {2011-07-18 05:40:13, nan} | {nan, 2010-01-06 13:43:48} | {nan, institutional} | {nan} | {nan} | {nan, show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, 0} | {nan} | {nan} | {nan} | {nan, http://www.diva-portal.org/mdh/} | {nan, Academic Archive On-line (Mälardalen Uni... | {nan, http://www.diva-portal.org/oai/mdh/OAI} | {nan} | {nan} | {nan} | {nan} | {nan, TRUE} | {nan, TRUE} | {nan} | {nan} | {nan} | {nan, se} | {Uppsala, nan} | {nan, 59.8667} | {17.6333, nan} | {nan, diva} | {nan, geoname_2_SE} | {nan, other} | {nan} | {nan, 2005-12-08 13:15:22} | {nan} | {nan} | {nan, 0} | {nan, 0} | {nan, 0} | {nan, 100} | {nan, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,1... | {nan} | {nan} | {nan} | {nan} | {opendoar, celestial} | {258, 526} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
1000 | {274} | {archive} | {1} | {nan} | {nan} | {disk0/00/00/10/00} | {2010-01-06 13:45:01} | {2011-07-06 08:21:21} | {2010-01-06 13:45:01} | {subject} | {nan} | {nan} | {show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {0} | {nan} | {nan} | {nan} | {http://pam.pisharp.org/} | {PAM - Portuguese Archive of Mathematics} | {nan} | {nan} | {nan} | {nan} | {nan} | {TRUE} | {TRUE} | {nan} | {nan} | {nan} | {pt} | {Bellevue, WA} | {47.6034} | {-122.155} | {dspace} | {geoname_2_PT} | {other} | {nan} | {2006-05-04 10:48:14} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
10001 | {nan, 20} | {archive, nan} | {nan, 91} | {nan} | {nan} | {nan, disk0/00/01/00/01} | {nan, 2015-08-08 14:52:11} | {nan, 2016-03-21 19:44:01} | {nan, 2015-08-08 14:52:11} | {nan, subject} | {nan} | {nan} | {nan, show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, http://edoc.sub.uni-hamburg.de/klimawand... | {nan, Klimawandel Dokumentenserver} | {http://edoc.sub.uni-hamburg.de/klimawandel/oa... | {nan} | {nan} | {nan} | {nan, The "Documentenserver Klimawandel" (Repo... | {nan, TRUE} | {nan, TRUE} | {nan, TRUE} | {nan, Climate Service Center 2.0, Helmholtz-Ze... | {nan, http://www.climateservicecenter.de/, htt... | {nan, de} | {nan, Hamburg} | {nan, 53.5511} | {nan, 9.9937} | {nan, opus} | {nan, geoname_2_DE} | {nan, other} | {G1, GE, HD, S1, GF} | {nan, 2015-07-02 08:08:31} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan, opendoar, celestial} | {3408, nan, 5881} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
10008 | {11} | {archive} | {404} | {nan} | {nan} | {disk0/00/01/00/08} | {2015-08-08 14:52:26} | {2016-03-21 19:43:51} | {2015-08-08 14:52:26} | {institutional} | {nan} | {nan} | {show} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {http://creativematter.skidmore.edu/} | {Creative Matter | Skidmore College Research} | {http://creativematter.skidmore.edu/do/oai/} | {nan} | {http://creativematter.skidmore.edu/recent.rss} | {nan} | {Welcome to Creative Matter, a repository for ... | {TRUE} | {FALSE} | {FALSE} | {Skidmore College} | {http://www.skidmore.edu/} | {us} | {Saratoga Springs} | {43.0961} | {-73.7818} | {bepress} | {geoname_2_US} | {other} | {nan} | {2015-07-06 17:35:50} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {celestial} | {5882} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} | {nan} |
In [7]:
def value_or_list(cell_set):
copy = set(cell_set)
copy.discard(np.nan)
if len(copy) == 0:
return np.nan
if len(copy) == 1:
return copy.pop()
return list(copy)
roar_df = roar_df.applymap(value_or_list)
roar_df.head()
Out[7]:
rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
eprintid | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1 | 633 | archive | 1 | NaN | NaN | disk0/00/00/00/01 | 2010-01-06 13:43:48 | 2011-07-18 05:40:07 | 2010-01-06 13:43:48 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://archivesic.ccsd.cnrs.fr/ | @RCHIVESIC | http://archivesic.ccsd.cnrs.fr/oai/oai.php | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 2002-05-17 19:24:41 | NaN | NaN | 0 | 0 | 0 | 25 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | NaN | NaN | NaN | NaN | [opendoar, celestial] | [669, 58] | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
10 | 511 | archive | 1 | NaN | NaN | disk0/00/00/00/10 | 2010-01-06 13:43:48 | 2011-07-18 05:40:13 | 2010-01-06 13:43:48 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://www.diva-portal.org/mdh/ | Academic Archive On-line (Mälardalen Universit... | http://www.diva-portal.org/oai/mdh/OAI | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | se | Uppsala | 59.8667 | 17.6333 | diva | geoname_2_SE | other | NaN | 2005-12-08 13:15:22 | NaN | NaN | 0 | 0 | 0 | 100 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,8,39,100,100,100... | NaN | NaN | NaN | NaN | [opendoar, celestial] | [258, 526] | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1000 | 274 | archive | 1 | NaN | NaN | disk0/00/00/10/00 | 2010-01-06 13:45:01 | 2011-07-06 08:21:21 | 2010-01-06 13:45:01 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://pam.pisharp.org/ | PAM - Portuguese Archive of Mathematics | NaN | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | pt | Bellevue, WA | 47.6034 | -122.155 | dspace | geoname_2_PT | other | NaN | 2006-05-04 10:48:14 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
10001 | 20 | archive | 91 | NaN | NaN | disk0/00/01/00/01 | 2015-08-08 14:52:11 | 2016-03-21 19:44:01 | 2015-08-08 14:52:11 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://edoc.sub.uni-hamburg.de/klimawandel/ | Klimawandel Dokumentenserver | http://edoc.sub.uni-hamburg.de/klimawandel/oai | NaN | NaN | NaN | The "Documentenserver Klimawandel" (Repository... | TRUE | TRUE | TRUE | [Climate Service Center 2.0, Helmholtz-Zentrum... | [http://www.climateservicecenter.de/, http://w... | de | Hamburg | 53.5511 | 9.9937 | opus | geoname_2_DE | other | [G1, S1, GF, GE, HD] | 2015-07-02 08:08:31 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | [opendoar, celestial] | [3408, 5881] | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
10008 | 11 | archive | 404 | NaN | NaN | disk0/00/01/00/08 | 2015-08-08 14:52:26 | 2016-03-21 19:43:51 | 2015-08-08 14:52:26 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://creativematter.skidmore.edu/ | Creative Matter | Skidmore College Research | http://creativematter.skidmore.edu/do/oai/ | NaN | http://creativematter.skidmore.edu/recent.rss | NaN | Welcome to Creative Matter, a repository for t... | TRUE | FALSE | FALSE | Skidmore College | http://www.skidmore.edu/ | us | Saratoga Springs | 43.0961 | -73.7818 | bepress | geoname_2_US | other | NaN | 2015-07-06 17:35:50 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 5882 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [8]:
roar_df.reset_index(inplace=True)
roar_df[roar_df.eprintid == '606']
Out[8]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
4259 | 606 | 657 | archive | 1 | NaN | NaN | disk0/00/00/06/06 | 2010-01-06 13:44:31 | 2016-04-17 21:53:14 | 2010-01-06 13:44:31 | subject | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | 0 | NaN | NaN | NaN | http://hal.archives-ouvertes.fr/ | HAL: Hyper Article en Ligne | http://hal.archives-ouvertes.fr/oai/oai.php | NaN | NaN | NaN | NaN | TRUE | TRUE | NaN | NaN | NaN | fr | NaN | NaN | NaN | hal | geoname_2_FR | other | NaN | 1998-11-02 11:53:57 | NaN | NaN | 0 | 0 | 2 | 675816 | 4,12,17,26,43,57,81,185,431,861,1184,1517,2442... | NaN | NaN | NaN | NaN | [opendoar, celestial, roarmap] | [166, 1106, 69] | NaN | NaN | NaN | 1 | 6 | 1 | 1 | 1 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 3063 | NaN |
In [9]:
roar_df.describe(include='all')
Out[9]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 5444 | 5444 | 5444 | 5444 | 0.0 | 0.0 | 5444 | 5444 | 5444 | 5444 | 5444 | 108 | 0.0 | 5444 | 0.0 | 0.0 | 0.0 | 0.0 | 63 | 63 | 63 | 63 | 63 | 0.0 | 0.0 | 0.0 | 2242 | 0.0 | 0.0 | 268 | 5437 | 5442 | 4332 | 178 | 1538 | 116 | 3837 | 4197 | 4197 | 3746 | 4460 | 4286 | 5138 | 3714 | 3725 | 3708 | 4700 | 4730 | 5444 | 1289 | 5429 | 218 | 189 | 2288 | 2288 | 2288 | 2290 | 2288 | 270 | 258 | 270 | 258 | 4605 | 4580 | 375 | 205 | 205 | 148 | 148 | 148 | 148 | 148 | 756 | 756 | 223 |
unique | 5444 | 660 | 1 | 2189 | NaN | NaN | 5444 | 4198 | 4043 | 4230 | 12 | 108 | NaN | 2 | NaN | NaN | NaN | NaN | 48 | 5 | 62 | 4 | 3 | NaN | NaN | NaN | 4 | NaN | NaN | 2 | 5271 | 5143 | 4059 | 172 | 1485 | 112 | 3359 | 2 | 2 | 2 | 3858 | 3831 | 144 | 1884 | 2923 | 2953 | 31 | 126 | 53 | 938 | 4898 | 210 | 173 | 72 | 54 | 16 | 741 | 1702 | 135 | 118 | 134 | 117 | 9 | 4259 | 7 | 1 | 1 | 148 | 148 | 148 | 146 | 143 | 346 | 342 | 3 |
top | 1 | 11 | archive | 1 | NaN | NaN | disk0/00/00/00/01 | 2010-01-06 13:43:48 | 2011-07-06 08:24:53 | 2010-01-06 13:43:48 | institutional | 10164 | NaN | show | NaN | NaN | NaN | NaN | bad_oai_pmh_url_0 | duplicate_title | Duplicate title to <xhtml:table xmlns:xhtml="h... | 2010-01-13 10:44:49 | discovered | NaN | NaN | NaN | 0 | NaN | NaN | FALSE | http://eprints.upnjatim.ac.id/ | Repositorio Institucional | http://kce.docressources.info/ws/PMBWs_2 | http://producao.usp.br/sword/servicedocument | http://eprints.upnjatim.ac.id/cgi/latest_tool?... | http://my.indexcopernicus.com/fredemoreno | info:other:archives.eprints.org:import | TRUE | TRUE | FALSE | Chinese Academy of Science (中国科学院) | http://www.cas.cn/ | us | Lima | 34.1607 | -118.139 | dspace | geoname_2_US | other | K1 | 2006-05-04 10:48:14 | ¿Quién puede depositar documentos en el reposi... | This repository is hosted by the Texas Digital... | 0 | 0 | 0 | 100 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | 0 | 0 | 0 | [opendoar, celestial] | [1879, 2246] | [opendoar, celestial, roarmap] | opendoar | 2021-01-25 | 24 | 46 | 20 | 824 | 806 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... | 0 | russell_group |
freq | 1 | 333 | 5444 | 1330 | NaN | NaN | 1 | 16 | 8 | 16 | 3853 | 1 | NaN | 5402 | NaN | NaN | NaN | NaN | 15 | 33 | 2 | 45 | 38 | NaN | NaN | NaN | 2201 | NaN | NaN | 261 | 4 | 7 | 4 | 2 | 5 | 2 | 112 | 2805 | 2696 | 2748 | 9 | 9 | 891 | 74 | 25 | 25 | 2341 | 845 | 4841 | 53 | 99 | 2 | 9 | 2012 | 2074 | 2210 | 730 | 95 | 113 | 114 | 113 | 114 | 2106 | 4 | 119 | 205 | 205 | 1 | 1 | 1 | 3 | 5 | 387 | 387 | 130 |
mean | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
std | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
min | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
25% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
50% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
75% | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
max | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [10]:
roar_df.isna().sum()[:40]
Out[10]:
eprintid 0 rev_number 0 eprint_status 0 userid 0 importid 5444 source 5444 dir 0 datestamp 0 lastmod 0 status_changed 0 type 0 succeeds 5336 commentary 5444 metadata_visibility 0 latitude 5444 longitude 5444 relation_type 5444 relation_uri 5444 item_issues_id 5381 item_issues_type 5381 item_issues_description 5381 item_issues_timestamp 5381 item_issues_status 5381 item_issues_reported_by 5444 item_issues_resolved_by 5444 item_issues_comment 5444 item_issues_count 3202 sword_depositor 5444 sword_slug 5444 exemplar 5176 home_page 7 title 2 oai_pmh 1112 sword_endpoint 5266 rss_feed 3906 twitter_feed 5328 description 1607 fulltext 1247 open_access 1247 mandate 1698 dtype: int64
In [11]:
roar_df.isna().sum()[40:]
Out[11]:
organisation_title 984 organisation_home_page 1158 location_country 306 location_city 1730 location_latitude 1719 location_longitude 1736 software 744 geoname 714 version 0 subjects 4155 date 15 note 5226 suggestions 5255 activity_low 3156 activity_medium 3156 activity_high 3156 recordcount 3154 recordhistory 3156 fulltexts_total 5174 fulltexts_docs 5186 fulltexts_rtotal 5174 fulltexts_rdocs 5186 registry_name 839 registry_id 864 submit_to 5069 submitted_to_name 5239 submitted_to_done 5239 webometrics_rank 5296 webometrics_size 5296 webometrics_visibility 5296 webometrics_rich_files 5296 webometrics_scholar 5296 monthly_deposits 4688 total_deposits 4688 association 5221 dtype: int64
In [12]:
pd.DataFrame(roar_df.type).groupby('type').size()
Out[12]:
type database 74 demonstration 20 institutional 3853 journal 125 learning 77 multi 143 opendata 41 other 410 researchdata 55 subject 295 theses 349 webobservatory 2 dtype: int64
In [13]:
pd.DataFrame(roar_df.open_access).groupby('open_access').size()
Out[13]:
open_access FALSE 1501 TRUE 2696 dtype: int64
In [14]:
pd.DataFrame(roar_df.mandate).groupby('mandate').size()
Out[14]:
mandate FALSE 2748 TRUE 998 dtype: int64