91 KiB
91 KiB
In [1]:
import ast
import csv
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib_venn import venn2, venn2_circles
import plotly
from plotly.offline import iplot, init_notebook_mode
import plotly.graph_objs as go
import plotly.express as px
pd.set_option('display.max_columns', None)
In [19]:
df_09 = pd.read_csv('../data/interim/ds_dedup09.csv', sep=';', quotechar='"', header=None, names=['dedup_id', 'duplicate_id', 'original_id', 'name', 'source'])
df_09.describe()
Out[19]:
dedup_id | duplicate_id | original_id | name | source | |
---|---|---|---|---|---|
count | 4513 | 4513 | 4513 | 4513 | 4513 |
unique | 2145 | 4513 | 4261 | 3894 | 4 |
top | dedup::75e33da9b103b7b91dcd8da0abe1354b | https://fairsharing.org/bsg-d001520 | 3860 | UPN JATIM REPOSITORY | roar |
freq | 5 | 1 | 2 | 4 | 1933 |
In [13]:
re3data_df = pd.read_csv('../data/raw/re3data.tsv', delimiter='\t',
converters={'subject': ast.literal_eval,
'keyword': ast.literal_eval,
'additional_name': ast.literal_eval,
'repository_id': ast.literal_eval,
'type': ast.literal_eval,
'content_type': ast.literal_eval,
'provider_type': ast.literal_eval,
'institution': ast.literal_eval
})
In [14]:
opendoar_df = pd.read_csv('../data/raw/openDoar.tsv', delimiter='\t',
converters={'subject': ast.literal_eval,
'additional_name': ast.literal_eval,
'opendoar_id': ast.literal_eval,
'content_type': ast.literal_eval,
'institution': ast.literal_eval
})
In [15]:
roar_df = pd.read_csv('../data/raw/export_roar_CSV.csv', dtype='str')
In [16]:
fairsharing_df = pd.read_csv('../data/raw/FAIRsharingDBrec_summary20210304.csv',
delimiter='|', header=0,
names=['full_name', 'short_name', 'fs_url', 'url', 'countries', 'subjects'])
In [17]:
df_09.head()
Out[17]:
dedup_id | duplicate_id | original_id | name | source | |
---|---|---|---|---|---|
0 | dedup::252773ebafcbbac75238b419d964068e | https://fairsharing.org/bsg-d001520 | https://fairsharing.org/bsg-d001520 | ACTRIS Data Centre | FAIRsharing |
1 | dedup::860320be12a1c050cd7731794e231bd3 | opendoar____::2290a7385ed77cc5592dc2153229f082 | 1064 | oxford university research archive | OpenDOAR |
2 | dedup::1aa7a8773e6a7fdacbcedf9999009a38 | opendoar____::191f8f858acda435ae0daf994e2a72c2 | 8648 | digital commons@georgia southern | OpenDOAR |
3 | dedup::4801441f041958afaca324c43c40787b | 10453 | 10453 | MCStor | roar |
4 | dedup::2841194266115ac1cc04d19630cde46b | re3data_____::3afbb2b45a3dd218a5a091ca773cf6c5 | r3d100011189 | PRISM: University of Calgary's Digital Repository | re3data |
In [44]:
dup = df_09.groupby('dedup_id').aggregate(list)
dup['source_set'] = dup.source.map(set)
dup
Out[44]:
duplicate_id | original_id | name | source | source_set | |
---|---|---|---|---|---|
dedup_id | |||||
dedup::000871c1fc726f0b52dc86a4eeb027de | [4612, 4649] | [4612, 4649] | [IIT Bombay Institutional Repository, IIT Bomb... | [roar, roar] | {roar} |
dedup::001e6d882e54c780ce269d3c46997287 | [re3data_____::4af9fe2bb93511a5e0f0c39e94d6557... | [r3d100011306, https://fairsharing.org/10.2550... | [RESID Database of Protein Modifications, RESI... | [re3data, FAIRsharing] | {re3data, FAIRsharing} |
dedup::0023a1e3447fdb31836536cc903f1310 | [opendoar____::c6f798b844366ccd65d99bc7f31e0e0... | [3410, 10013] | [erucu: electronic repository of the ukrainian... | [OpenDOAR, roar] | {OpenDOAR, roar} |
dedup::003ab6b40af9b488decea7c582d150a2 | [https://fairsharing.org/10.25504/FAIRsharing.... | [https://fairsharing.org/10.25504/FAIRsharing.... | [Synapse, Synapse] | [FAIRsharing, re3data] | {re3data, FAIRsharing} |
dedup::0064f599ed0adb5870a5b3ffe438e485 | [16034, opendoar____::d1f157379ea7e51d4a8c07af... | [16034, 9647] | [Giresun University Institutional Repository, ... | [roar, OpenDOAR] | {OpenDOAR, roar} |
... | ... | ... | ... | ... | ... |
dedup::ff49cc40a8890e6a60f40ff3026d2730 | [1333, opendoar____::2bd7f907b7f5b6bbd91822c0c... | [1333, 1389] | [UnissResearch, unissresearch] | [roar, OpenDOAR] | {OpenDOAR, roar} |
dedup::ff4d70de478038c72282b7e4af1d4260 | [opendoar____::95a0810a93a87065bf7b28490817e9e... | [9752, 16367] | [european xfel publication database, European ... | [OpenDOAR, roar] | {OpenDOAR, roar} |
dedup::ff826ce6ee85809389f18a5fafe72366 | [opendoar____::62e7f2e090fe150ef8deb4466fdc81b... | [3601, 2608] | [electronic odessa national economic universit... | [OpenDOAR, OpenDOAR] | {OpenDOAR} |
dedup::ffbd6cbb019a1413183c8d08f2929307 | [3108, opendoar____::ff7d0f525b3be596a51fb9194... | [3108, 1912] | [Fotografía Sobre España en el Siglo XIX, foto... | [roar, OpenDOAR] | {OpenDOAR, roar} |
dedup::ffeed84c7cb1ae7bf4ec4bd78275bb98 | [1126, opendoar____::443cb001c138b2561a0d90720... | [1126, 648] | [RIT Digital Media Library, rit digital media ... | [roar, OpenDOAR] | {OpenDOAR, roar} |
2145 rows × 5 columns
In [45]:
dup[dup.source_set.str.len() >= 3]
Out[45]:
duplicate_id | original_id | name | source | source_set | |
---|---|---|---|---|---|
dedup_id | |||||
dedup::06138bc5af6023646ede0e1f7c1eac75 | [https://fairsharing.org/10.25504/FAIRsharing.... | [https://fairsharing.org/10.25504/FAIRsharing.... | [Crystallography Open Database, Crystallograph... | [FAIRsharing, roar, re3data, OpenDOAR] | {re3data, OpenDOAR, roar, FAIRsharing} |
dedup::0b7e684c89e746c67c9761ce2b65479c | [re3data_____::44217da669f17a260c0958a679003a7... | [r3d100010423, 375, https://fairsharing.org/10... | [Woods Hole Open Access Server, woods hole ope... | [re3data, OpenDOAR, FAIRsharing] | {re3data, FAIRsharing, OpenDOAR} |
dedup::0bb4aec1710521c12ee76289d9440817 | [re3data_____::eb721a14697a05c477d0ae23830e665... | [r3d100012596, 650, 349] | [Digitale Bibliothek Thüringen, digitale bibli... | [re3data, OpenDOAR, roar] | {re3data, roar, OpenDOAR} |
dedup::139042a4157a773f209847829d80894d | [756, re3data_____::a95b34b344dc049963c35997fe... | [756, r3d100010690, 1330, 5487] | [Khazar University Institutional Repository, K... | [roar, re3data, OpenDOAR, roar] | {re3data, roar, OpenDOAR} |
dedup::13d4bfa0321f86f042b34ec79064b316 | [opendoar____::e3844e186e6eb8736e9f53c0c588952... | [9411, 15255, r3d100013135] | [fordatis, Fordatis, Fordatis] | [OpenDOAR, roar, re3data] | {OpenDOAR, re3data, roar} |
... | ... | ... | ... | ... | ... |
dedup::eded0708dfe855304a50029fccf1a677 | [opendoar____::eccbc87e4b5ce2fe28308fd9f2a7baf... | [3, r3d100012604, 5509] | [ams acta, AMS Acta, AMS Acta] | [OpenDOAR, re3data, roar] | {OpenDOAR, roar, re3data} |
dedup::ef46a43afd7c7d67e21f4306bb1364e9 | [opendoar____::1f74a54f39b3123ad272ca0a06e7463... | [5870, https://fairsharing.org/10.25504/FAIRsh... | [heidata, heiDATA, heiDATA] | [OpenDOAR, FAIRsharing, re3data] | {OpenDOAR, re3data, FAIRsharing} |
dedup::f296bb3903d8a84d81c47e6db90764b9 | [https://fairsharing.org/10.25504/FAIRsharing.... | [https://fairsharing.org/10.25504/FAIRsharing.... | [PubChem, PubChem, pubchem] | [FAIRsharing, re3data, OpenDOAR] | {re3data, OpenDOAR, FAIRsharing} |
dedup::f3dc6512e46961c363ea402ff218c8fb | [re3data_____::b2fc675049cbf485d9abbccf5232a31... | [r3d100012538, 10171, https://fairsharing.org/... | [DataverseNO, dataverseno, DataverseNO] | [re3data, OpenDOAR, FAIRsharing] | {re3data, FAIRsharing, OpenDOAR} |
dedup::f9aa64cbb57131939eda048250f2dbae | [re3data_____::063765fa6d6358d62ea2d41dde32d3a... | [r3d100012692, https://fairsharing.org/10.2550... | [Scholars' Mine, Scholars' Mine, scholars mine] | [re3data, FAIRsharing, OpenDOAR] | {re3data, OpenDOAR, FAIRsharing} |
65 rows × 5 columns
In [33]:
pd.DataFrame(re3data_df[re3data_df.re3data_id.isin(['r3d100013204', 'r3d100013458', 'r3d100012807', 'r3d100012808', 'r3d100012806', 'r3d100012805'])].institution.to_list())
Out[33]:
0 | 1 | 2 | 3 | 4 | |
---|---|---|---|---|---|
0 | [Harvard University, Institute for Quantitativ... | [Ontario Council of University Libraries, [CBU... | [Scholars Portal Dataverse, [], CAN, [general]... | [The Dataverse Project, [], AAA, [technical], ... | [University of Ottawa, Library, [Université d'... |
1 | [Dataverse Project, [], AAA, [technical], non-... | [Harvard University, Institute for Quantitave ... | [Ontario Council of University Libraries, [CBU... | [University of Toronto, Libraries, [], CAN, [g... | None |
2 | [Harvard University, Institute for Quantitativ... | [Ontario Council of University Libraries, [CBU... | [Scholars Portal Dataverse, [dataverse@scholar... | [The Dataverse Project, [], AAA, [technical], ... | [University of Windsor, [], CAN, [general], no... |
3 | [Harvard University, Institute for Quantitativ... | [Ontario Council of University Libraries, [CBU... | [Scholars Portal Dataverse, [], CAN, [general]... | [The Dataverse Project, [], AAA, [technical], ... | [University of Waterloo, [], CAN, [general], n... |
4 | [University of Victoria, [UVic], CAN, [general... | [University of Victoria, Libraries, [], CAN, [... | None | None | None |
5 | [The University of British Columbia, [], CAN, ... | [University of British Columbia, Library, [], ... | None | None | None |
In [12]:
roar_df[roar_df.eprintid.isin(['4612', '4649'])]
Out[12]:
eprintid | rev_number | eprint_status | userid | importid | source | dir | datestamp | lastmod | status_changed | type | succeeds | commentary | metadata_visibility | latitude | longitude | relation_type | relation_uri | item_issues_id | item_issues_type | item_issues_description | item_issues_timestamp | item_issues_status | item_issues_reported_by | item_issues_resolved_by | item_issues_comment | item_issues_count | sword_depositor | sword_slug | exemplar | home_page | title | oai_pmh | sword_endpoint | rss_feed | twitter_feed | description | fulltext | open_access | mandate | organisation_title | organisation_home_page | location_country | location_city | location_latitude | location_longitude | software | geoname | version | subjects | date | note | suggestions | activity_low | activity_medium | activity_high | recordcount | recordhistory | fulltexts_total | fulltexts_docs | fulltexts_rtotal | fulltexts_rdocs | registry_name | registry_id | submit_to | submitted_to_name | submitted_to_done | webometrics_rank | webometrics_size | webometrics_visibility | webometrics_rich_files | webometrics_scholar | monthly_deposits | total_deposits | association | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
4167 | 4612 | 28 | archive | 1380 | NaN | NaN | disk0/00/00/46/12 | 2012-01-08 03:17:02 | 2012-04-16 10:53:04 | 2012-01-08 03:17:02 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://dspace.library.iitb.ac.in/jspui/ | IIT Bombay Institutional Repository | http://dspace.library.iitb.ac.in/oai/request | NaN | http://dspace.library.iitb.ac.in/xmlui/feed/at... | NaN | NaN | TRUE | TRUE | TRUE | IIT Bombay | http://www.iitb.ac.in | in | Mumbai | 19.133 | 72.9166 | dspace | geoname_2_IN | other | TA | 2011-12-15 09:01:35 | NaN | NaN | 0 | 0 | 0 | 99 | 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,95,9... | NaN | NaN | NaN | NaN | celestial | 4790 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4168 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TD | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4169 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TH | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4170 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TJ | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4171 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TK | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4172 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
4173 | 4612 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TP | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
16436 | 4649 | 8 | archive | 1380 | NaN | NaN | disk0/00/00/46/49 | 2012-02-05 13:57:01 | 2012-04-16 10:39:58 | 2012-02-05 13:57:01 | institutional | NaN | NaN | show | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | http://dspace.library.iitb.ac.in/jspui/ | IIT Bombay Institutional Repository | http://dspace.library.iitb.ac.in/oai | NaN | http://dspace.library.iitb.ac.in/xmlui/feed/rs... | NaN | NaN | TRUE | TRUE | FALSE | IIT Bombay | http://www.iitb.ac.in | in | Mumbai | 19.133 | 72.9166 | dspace | geoname_2_IN | other | T1 | 2012-01-05 12:09:37 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | celestial | 4789 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
16437 | 4649 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | TA | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
In [13]:
re3data_df[re3data_df.re3data_id == 'r3d100011306']
Out[13]:
openaire_id | re3data_id | repository_name | additional_name | repository_url | repository_id | description | type | size | update_date | start_date | end_date | subject | mission_statement | content_type | provider_type | keyword | institution | policy | database_access | database_license | data_access | data_license | data_upload | data_upload_license | software | versioning | api | pid_system | citation_guideline_url | aid_system | enhanced_publication | quality_management | certificate | metadata_standard | syndication | remarks | entry_date | last_update | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1090 | re3data_____::4af9fe2bb93511a5e0f0c39e94d6557f | r3d100011306 | RESID Database of Protein Modifications | [] | https://pir.georgetown.edu/resid/resid.shtml | [FAIRsharing_doi:10.25504/FAIRsharing.qaszjp, ... | The RESID Database of Protein Modifications is... | [disciplinary] | NaN | NaN | 2014 | NaN | [2 Life Sciences, 201 Basic Biological and Med... | false | [Images, Structured text] | [dataProvider] | [genomes, life sciences, proteins, proteomes, ... | [[Georgetown University, Medical Center, [GUMC... | true | true | false | true | true | true | false | true | yes | true | true | true | true | yes | unknown | false | false | false | RESID is covered by Thomson Reuters Data Citat... | 2014-12-05 | 2019-01-17 |