96 KiB
96 KiB
In [41]:
import ast
import csv
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib_venn import venn2, venn2_circles
import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px
pd.set_option('display.max_columns', None)
In [46]:
df_09 = pd.read_csv('../data/interim/ds_dedup09.csv', sep=';')
df_09.head(10)
Out[46]:
dedup_id | duplicate_id | original_id | name | source | |
---|---|---|---|---|---|
0 | dedup::29a83a8a9641bb860a679d7e5ba52d26 | 14174 | 14174 | OHIO Open Library | Ohio University Research | roar |
1 | dedup::000871c1fc726f0b52dc86a4eeb027de | 4612 | 4612 | IIT Bombay Institutional Repository | roar |
2 | dedup::000871c1fc726f0b52dc86a4eeb027de | 4649 | 4649 | IIT Bombay Institutional Repository | roar |
3 | dedup::001e6d882e54c780ce269d3c46997287 | re3data_____::4af9fe2bb93511a5e0f0c39e94d6557f | r3d100011306 | RESID Database of Protein Modifications | re3data |
4 | dedup::001e6d882e54c780ce269d3c46997287 | https://fairsharing.org/10.25504/FAIRsharing.q... | https://fairsharing.org/10.25504/FAIRsharing.q... | RESID Database of Protein Modifications | FAIRsharing |
5 | dedup::0023a1e3447fdb31836536cc903f1310 | opendoar____::c6f798b844366ccd65d99bc7f31e0e02 | 3410 | erucu: electronic repository of the ukrainian ... | OpenDOAR |
6 | dedup::0023a1e3447fdb31836536cc903f1310 | 10013 | 10013 | ErUCU: Electronic repository of the Ukrainian ... | roar |
7 | dedup::003ab6b40af9b488decea7c582d150a2 | https://fairsharing.org/10.25504/FAIRsharing.d... | https://fairsharing.org/10.25504/FAIRsharing.d... | Synapse | FAIRsharing |
8 | dedup::003ab6b40af9b488decea7c582d150a2 | re3data_____::cafc5d99b7c187e24b40d958a16a91f1 | r3d100011894 | Synapse | re3data |
9 | dedup::0064f599ed0adb5870a5b3ffe438e485 | 16034 | 16034 | Giresun University Institutional Repository | roar |
In [24]:
df_09[df_09.dedup_id == 'dedup::ffeed84c7cb1ae7bf4ec4bd78275bb98']
Out[24]:
dedup_id | duplicate_id | original_id | name | source | |
---|---|---|---|---|---|
5115 | dedup::ffeed84c7cb1ae7bf4ec4bd78275bb98 | 1126 | 1126 | RIT Digital Media Library | roar |
5116 | dedup::ffeed84c7cb1ae7bf4ec4bd78275bb98 | opendoar____::443cb001c138b2561a0d90720d6ce111 | 648 | rit digital media library | OpenDOAR |
In [25]:
df_09[df_09.dedup_id == 'dedup::01846ae470651e97d2f73fce979406a9']
Out[25]:
dedup_id | duplicate_id | original_id | name | source | |
---|---|---|---|---|---|
40 | dedup::01846ae470651e97d2f73fce979406a9 | opendoar____::b4d6f2b565ca0eef1f9245403aac366a | 7668 | digital commons at michigan state university c... | OpenDOAR |
In [3]:
re3data_df = pd.read_csv('../data/raw/re3data.tsv', delimiter='\t',
converters={'subject': ast.literal_eval,
'keyword': ast.literal_eval,
'additional_name': ast.literal_eval,
'repository_id': ast.literal_eval,
'type': ast.literal_eval,
'content_type': ast.literal_eval,
'provider_type': ast.literal_eval,
'institution': ast.literal_eval
})
In [4]:
opendoar_df = pd.read_csv('../data/raw/openDoar.tsv', delimiter='\t',
converters={'subject': ast.literal_eval,
'additional_name': ast.literal_eval,
'opendoar_id': ast.literal_eval,
'content_type': ast.literal_eval,
'institution': ast.literal_eval
})
In [5]:
roar_df = pd.read_csv('../data/raw/export_roar_CSV.csv', dtype='str')
In [6]:
fairsharing_df = pd.read_csv('../data/raw/FAIRsharingDBrec_summary20210304.csv',
delimiter='|', header=0,
names=['full_name', 'short_name', 'fs_url', 'url', 'countries', 'subjects'])
In [7]:
df_09.head()
Out[7]:
dedup_id | duplicate_id | original_id | name | source | |
---|---|---|---|---|---|
0 | dedup::29a83a8a9641bb860a679d7e5ba52d26 | 14174 | 14174 | OHIO Open Library | Ohio University Research | roar |
1 | dedup::000871c1fc726f0b52dc86a4eeb027de | 4612 | 4612 | IIT Bombay Institutional Repository | roar |
2 | dedup::000871c1fc726f0b52dc86a4eeb027de | 4649 | 4649 | IIT Bombay Institutional Repository | roar |
3 | dedup::001e6d882e54c780ce269d3c46997287 | re3data_____::4af9fe2bb93511a5e0f0c39e94d6557f | r3d100011306 | RESID Database of Protein Modifications | re3data |
4 | dedup::001e6d882e54c780ce269d3c46997287 | https://fairsharing.org/10.25504/FAIRsharing.q... | https://fairsharing.org/10.25504/FAIRsharing.q... | RESID Database of Protein Modifications | FAIRsharing |
In [8]:
dup = df_09.groupby('dedup_id').aggregate(list)
dup
Out[8]:
duplicate_id | original_id | name | source | |
---|---|---|---|---|
dedup_id | ||||
dedup::000871c1fc726f0b52dc86a4eeb027de | [4612, 4649] | [4612, 4649] | [IIT Bombay Institutional Repository, IIT Bomb... | [roar, roar] |
dedup::001e6d882e54c780ce269d3c46997287 | [re3data_____::4af9fe2bb93511a5e0f0c39e94d6557... | [r3d100011306, https://fairsharing.org/10.2550... | [RESID Database of Protein Modifications, RESI... | [re3data, FAIRsharing] |
dedup::0023a1e3447fdb31836536cc903f1310 | [opendoar____::c6f798b844366ccd65d99bc7f31e0e0... | [3410, 10013] | [erucu: electronic repository of the ukrainian... | [OpenDOAR, roar] |
dedup::003ab6b40af9b488decea7c582d150a2 | [https://fairsharing.org/10.25504/FAIRsharing.... | [https://fairsharing.org/10.25504/FAIRsharing.... | [Synapse, Synapse] | [FAIRsharing, re3data] |
dedup::0064f599ed0adb5870a5b3ffe438e485 | [16034, opendoar____::d1f157379ea7e51d4a8c07af... | [16034, 9647] | [Giresun University Institutional Repository, ... | [roar, OpenDOAR] |
... | ... | ... | ... | ... |
dedup::ff49cc40a8890e6a60f40ff3026d2730 | [1333, opendoar____::2bd7f907b7f5b6bbd91822c0c... | [1333, 1389] | [UnissResearch, unissresearch] | [roar, OpenDOAR] |
dedup::ff4d70de478038c72282b7e4af1d4260 | [opendoar____::95a0810a93a87065bf7b28490817e9e... | [9752, 16367] | [european xfel publication database, European ... | [OpenDOAR, roar] |
dedup::ff826ce6ee85809389f18a5fafe72366 | [opendoar____::62e7f2e090fe150ef8deb4466fdc81b... | [3601, 2608] | [electronic odessa national economic universit... | [OpenDOAR, OpenDOAR] |
dedup::ffbd6cbb019a1413183c8d08f2929307 | [3108, opendoar____::ff7d0f525b3be596a51fb9194... | [3108, 1912] | [Fotografía Sobre España en el Siglo XIX, foto... | [roar, OpenDOAR] |
dedup::ffeed84c7cb1ae7bf4ec4bd78275bb98 | [1126, opendoar____::443cb001c138b2561a0d90720... | [1126, 648] | [RIT Digital Media Library, rit digital media ... | [roar, OpenDOAR] |
2453 rows × 4 columns
In [9]:
dup[dup.source.str.len() == 1]
Out[9]:
duplicate_id | original_id | name | source | |
---|---|---|---|---|
dedup_id | ||||
dedup::01846ae470651e97d2f73fce979406a9 | [opendoar____::b4d6f2b565ca0eef1f9245403aac366a] | [7668] | [digital commons at michigan state university ... | [OpenDOAR] |
dedup::022036087426786cfd0f7f41fa7a2665 | [https://fairsharing.org/10.25504/FAIRsharing.... | [https://fairsharing.org/10.25504/FAIRsharing.... | [World Data Center for Climate at DRKZ] | [FAIRsharing] |
dedup::07e8b472e1e4af17a6b20ce083baf29f | [15036] | [15036] | [MiCISAN] | [roar] |
dedup::0894634a3244e3050d8057a453e17e57 | [https://fairsharing.org/10.25504/FAIRsharing.... | [https://fairsharing.org/10.25504/FAIRsharing.... | [European Variation Archive] | [FAIRsharing] |
dedup::0a54b19a13b6712dc04d1b49215423d8 | [opendoar____::d34ab169b70c9dcd35e62896010cd9ff] | [377] | [yale medicine thesis digital library] | [OpenDOAR] |
... | ... | ... | ... | ... |
dedup::f8306c8f16096b6d944799f4d427a976 | [re3data_____::574b553c6c374d597d2068ab2b117889] | [r3d100012041] | [Canadian Disaster Database] | [re3data] |
dedup::f9d8e2daaa9144310b66bf948e50d656 | [re3data_____::95014789f83d7611ebfddace19d0523a] | [r3d100011045] | [Index to Marine & Lacustrine Geological Samples] | [re3data] |
dedup::fcdbc4f504a15df8f78da88ee72fad32 | [opendoar____::9f96f36b7aae3b1ff847c26ac94c604e] | [4979] | [university of minnesota law school] | [OpenDOAR] |
dedup::fcfe9c770eb9372e6961a17f7eaffd5f | [4637] | [4637] | [Simon Fraser University Institutional Reposit... | [roar] |
dedup::fe73f687e5bc5280214e0486b273a5f9 | [330] | [330] | [DigitalCommons@Fort Lewis College: Scholarshi... | [roar] |
109 rows × 4 columns
In [10]:
dup[dup.source.str.len() >= 6].original_id.values
Out[10]:
array([list(['r3d100013204', 'r3d100013458', 'r3d100012807', 'r3d100012808', 'r3d100012806', 'r3d100012805']), list(['243', '5702', '5715', '5694', '5689', '5658', '5710', '5750', '5721', '5704']), list(['2738', '4991', '2727', '2729', '2724', '2728', '2740', '174']), list(['19', '8', '7', '11', '10', '13', '6', '12', '20', '15', '9', '5', '14', '16'])], dtype=object)
In [11]:
pd.DataFrame(re3data_df[re3data_df.re3data_id.isin(['r3d100013204', 'r3d100013458', 'r3d100012807', 'r3d100012808', 'r3d100012806', 'r3d100012805'])].institution.to_list())
Out[11]:
0 | 1 | 2 | 3 | 4 | |
---|---|---|---|---|---|
0 | [Harvard University, Institute for Quantitativ... | [Ontario Council of University Libraries, [CBU... | [Scholars Portal Dataverse, [], CAN, [general]... | [The Dataverse Project, [], AAA, [technical], ... | [University of Ottawa, Library, [Université d'... |
1 | [Dataverse Project, [], AAA, [technical], non-... | [Harvard University, Institute for Quantitave ... | [Ontario Council of University Libraries, [CBU... | [University of Toronto, Libraries, [], CAN, [g... | None |
2 | [Harvard University, Institute for Quantitativ... | [Ontario Council of University Libraries, [CBU... | [Scholars Portal Dataverse, [dataverse@scholar... | [The Dataverse Project, [], AAA, [technical], ... | [University of Windsor, [], CAN, [general], no... |
3 | [Harvard University, Institute for Quantitativ... | [Ontario Council of University Libraries, [CBU... | [Scholars Portal Dataverse, [], CAN, [general]... | [The Dataverse Project, [], AAA, [technical], ... | [University of Waterloo, [], CAN, [general], n... |
4 | [University of Victoria, [UVic], CAN, [general... | [University of Victoria, Libraries, [], CAN, [... | None | None | None |
5 | [The University of British Columbia, [], CAN, ... | [University of British Columbia, Library, [], ... | None | None | None |
In [12]:
roar_df[roar_df.eprintid.isin(['4612', '4649'])]
Out[12]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
4167 | 4612 | 28 | archive | 1380 | NaN | NaN | disk0/00/00/46/12 | 2012-01-08 03:17:02 | 2012-04-16 10:53:04 | 2012-01-08 03:17:02 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://dspace.library.iitb.ac.in/jspui/ | IIT Bombay Institutional Repository | http://dspace.library.iitb.ac.in/oai/request | NaN | http://dspace.library.iitb.ac.in/xmlui/feed/at... | NaN | NaN | TRUE | TRUE | TRUE | IIT Bombay | http://www.iitb.ac.in | in | Mumbai | 19.133 | 72.9166 | dspace | geoname_2_IN | other | TA | 2011-12-15 09:01:35 | NaN | NaN | 0 | 0 | 0 | 99 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,95,9... | NaN | NaN | NaN | NaN | celestial | 4790 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4168 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TD | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4169 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TH | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4170 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TJ | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4171 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TK | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4172 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4173 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TP | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
16436 | 4649 | 8 | archive | 1380 | NaN | NaN | disk0/00/00/46/49 | 2012-02-05 13:57:01 | 2012-04-16 10:39:58 | 2012-02-05 13:57:01 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://dspace.library.iitb.ac.in/jspui/ | IIT Bombay Institutional Repository | http://dspace.library.iitb.ac.in/oai | NaN | http://dspace.library.iitb.ac.in/xmlui/feed/rs... | NaN | NaN | TRUE | TRUE | FALSE | IIT Bombay | http://www.iitb.ac.in | in | Mumbai | 19.133 | 72.9166 | dspace | geoname_2_IN | other | T1 | 2012-01-05 12:09:37 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 4789 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
16437 | 4649 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TA | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [13]:
re3data_df[re3data_df.re3data_id == 'r3d100011306']
Out[13]:
openaire_id | re3data_id | repository_name | additional_name | repository_url | repository_id | description | type | size | update_date | start_date | end_date | subject | mission_statement | content_type | provider_type | keyword | institution | policy | database_access | database_license | data_access | data_license | data_upload | data_upload_license | software | versioning | api | pid_system | citation_guideline_url | aid_system | enhanced_publication | quality_management | certificate | metadata_standard | syndication | remarks | entry_date | last_update | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1090 | re3data_____::4af9fe2bb93511a5e0f0c39e94d6557f | r3d100011306 | RESID Database of Protein Modifications | [] | https://pir.georgetown.edu/resid/resid.shtml | [FAIRsharing_doi:10.25504/FAIRsharing.qaszjp, ... | The RESID Database of Protein Modifications is... | [disciplinary] | NaN | NaN | 2014 | NaN | [2 Life Sciences, 201 Basic Biological and Med... | false | [Images, Structured text] | [dataProvider] | [genomes, life sciences, proteins, proteomes, ... | [[Georgetown University, Medical Center, [GUMC... | true | true | false | true | true | true | false | true | yes | true | true | true | true | yes | unknown | false | false | false | RESID is covered by Thomson Reuters Data Citat... | 2014-12-05 | 2019-01-17 |