[AffRo] changed the creation of the action set agaisnt the nen model of provision of the matchings

2024-09-25 12:32:53 +02:00 · 2024-09-25 12:32:53 +02:00 · df39360822
parent c1a309df75
commit df39360822
2 changed files with 230 additions and 6 deletions
--- a/dhp-workflows/dhp-aggregation/src/main/java/eu/dnetlib/dhp/actionmanager/bipaffiliations/PrepareAffiliationRelations.java
+++ b/dhp-workflows/dhp-aggregation/src/main/java/eu/dnetlib/dhp/actionmanager/bipaffiliations/PrepareAffiliationRelations.java
@ -125,7 +125,7 @@ public class PrepareAffiliationRelations implements Serializable {
 		List<KeyValue> collectedfromPublisher = OafMapperUtils
 			.listKeyValues(OPENAIRE_DATASOURCE_ID, OPENAIRE_DATASOURCE_NAME);
-		JavaPairRDD<Text, Text> publisherRelations = prepareAffiliationRelationFromPublisher(
+		JavaPairRDD<Text, Text> publisherRelations = prepareAffiliationRelations(
 			spark, publisherlInputPath, collectedfromPublisher);
 		crossrefRelations
@ -154,11 +154,10 @@ public class PrepareAffiliationRelations implements Serializable {
 	private static <I extends Result> JavaPairRDD<Text, Text> prepareAffiliationRelations(SparkSession spark,
 		String inputPath,
 		List<KeyValue> collectedfrom) {
 		// load and parse affiliation relations from HDFS
 		Dataset<Row> df = spark
 			.read()
-			.schema("`DOI` STRING, `Matchings` ARRAY<STRUCT<`RORid`:STRING,`Confidence`:DOUBLE>>")
+			.schema("`DOI` STRING, `Matchings` ARRAY<STRUCT<`PID`:STRING, `Value`:STRING,`Confidence`:DOUBLE, `Status`:STRING>>")
 			.json(inputPath)
 			.where("DOI is not null");
@ -169,9 +168,11 @@ public class PrepareAffiliationRelations implements Serializable {
 		// unroll nested arrays
 		df = df
 			.withColumn("matching", functions.explode(new Column("Matchings")))
 				.where("matchings.Status = 'active'")
 			.select(
 				new Column("DOI").as("doi"),
-				new Column("matching.RORid").as("rorid"),
+				new Column("matching.PID").as("pidtype"),
 				new Column("matchings.Value").as("pidvalue"),
 				new Column("matching.Confidence").as("confidence"));
 		// prepare action sets for affiliation relations
@ -183,8 +184,14 @@ public class PrepareAffiliationRelations implements Serializable {
 				final String paperId = ID_PREFIX
 					+ IdentifierFactory.md5(CleaningFunctions.normalizePidValue("doi", row.getAs("doi")));
-				// ROR id to OpenAIRE id
+				// Organization to OpenAIRE identifier
-				final String affId = GenerateRorActionSetJob.calculateOpenaireId(row.getAs("rorid"));
+				String affId = null;
 				if(row.getAs("pittype").equals("ROR"))
 					//ROR id to OpenIARE id
 				 	affId = GenerateRorActionSetJob.calculateOpenaireId(row.getAs("pidvalue"));
 				else
 					//getting the OpenOrgs identifier for the organization
 					affId = row.getAs("pidvalue");
 				Qualifier qualifier = OafMapperUtils
 					.qualifier(
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/openorgsforaffro/ExtractAffRoInfoFromOpenOrgs.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/openorgsforaffro/ExtractAffRoInfoFromOpenOrgs.java
@ -0,0 +1,217 @@
 package eu.dnetlib.dhp.oa.graph.openorgsforaffro;
 import com.fasterxml.jackson.core.JsonProcessingException;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 import eu.dnetlib.dhp.schema.action.AtomicAction;
 import eu.dnetlib.dhp.schema.common.ModelConstants;
 import eu.dnetlib.dhp.schema.oaf.Relation;
 import eu.dnetlib.dhp.schema.oaf.utils.IdentifierFactory;
 import eu.dnetlib.dhp.schema.oaf.utils.OafMapperUtils;
 import eu.dnetlib.dhp.schema.oaf.utils.PidCleaner;
 import eu.dnetlib.dhp.schema.oaf.utils.PidType;
 import org.apache.commons.cli.ParseException;
 import org.apache.commons.io.IOUtils;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.*;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.io.compress.GzipCodec;
 import org.apache.hadoop.mapred.SequenceFileOutputFormat;
 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.JavaPairRDD;
 import org.apache.spark.api.java.function.FilterFunction;
 import org.apache.spark.api.java.function.FlatMapFunction;
 import org.apache.spark.api.java.function.MapFunction;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SparkSession;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import scala.Tuple2;
 import java.io.BufferedOutputStream;
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.*;
 import java.util.zip.GZIPOutputStream;
 import java.util.zip.ZipEntry;
 import java.util.zip.ZipInputStream;
 import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
 public class ExtractAffRoInfoFromOpenOrgs implements Serializable {
    public static final String OPENCITATIONS_CLASSID = "sysimport:crosswalk:opencitations";
    public static final String OPENCITATIONS_CLASSNAME = "Imported from OpenCitations";
    private static final String DOI_PREFIX = "50|doi_________::";
    private static final String PMID_PREFIX = "50|pmid________::";
    private static final String ARXIV_PREFIX = "50|arXiv_______::";
    private static final String PMCID_PREFIX = "50|pmcid_______::";
    private static final String TRUST = "0.91";
    private static final Logger log = LoggerFactory.getLogger(ExtractAffRoInfoFromOpenOrgs.class);
    private static final ObjectMapper OBJECT_MAPPER = new ObjectMapper();
    public static void main(final String[] args) throws IOException, ParseException {
        final ArgumentApplicationParser parser = new ArgumentApplicationParser(
                IOUtils
                        .toString(
                                Objects
                                        .requireNonNull(
                                                ExtractAffRoInfoFromOpenOrgs.class
                                                        .getResourceAsStream(
                                                                "/eu/dnetlib/dhp/actionmanager/opencitations/as_parameters.json"))));
        parser.parseArgument(args);
        Boolean isSparkSessionManaged = Optional
                .ofNullable(parser.get("isSparkSessionManaged"))
                .map(Boolean::valueOf)
                .orElse(Boolean.TRUE);
        log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
        final String inputPath = parser.get("inputPath");
        log.info("inputPath {}", inputPath);
        final String outputPath = parser.get("outputPath");
        log.info("outputPath {}", outputPath);
        SparkConf conf = new SparkConf();
        runWithSparkSession(
                conf,
                isSparkSessionManaged,
                spark -> extractContent(spark, inputPath, outputPath));
    }
    private static void extractContent(SparkSession spark, String inputPath, String outputPath) {
        getTextTextJavaPairRDD(spark, inputPath)
                .saveAsHadoopFile(outputPath, Text.class, Text.class, SequenceFileOutputFormat.class, GzipCodec.class);
    }
    private static JavaPairRDD<Text, Text> getTextTextJavaPairRDD(SparkSession spark, String inputPath) {
        return spark
                .read()
                .textFile(inputPath)
                .map(
                        (MapFunction<String, COCI>) value -> OBJECT_MAPPER.readValue(value, COCI.class),
                        Encoders.bean(COCI.class))
                .flatMap(
                        (FlatMapFunction<COCI, Relation>) value -> createRelation(
                                value)
                                .iterator(),
                        Encoders.bean(Relation.class))
                .filter((FilterFunction<Relation>) Objects::nonNull)
                .toJavaRDD()
                .map(p -> new AtomicAction(p.getClass(), p))
                .mapToPair(
                        aa -> new Tuple2<>(new Text(aa.getClazz().getCanonicalName()),
                                new Text(OBJECT_MAPPER.writeValueAsString(aa))));
    }
    private static List<Relation> createRelation(COCI value) throws JsonProcessingException {
        List<Relation> relationList = new ArrayList<>();
        String citing;
        String cited;
        switch (value.getCiting_pid()) {
            case "doi":
                citing = DOI_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.doi.toString(), value.getCiting()));
                break;
            case "pmid":
                citing = PMID_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.pmid.toString(), value.getCiting()));
                break;
            case "arxiv":
                citing = ARXIV_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.arXiv.toString(), value.getCiting()));
                break;
            case "pmcid":
                citing = PMCID_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.pmc.toString(), value.getCiting()));
                break;
            case "isbn":
            case "issn":
                return relationList;
            default:
                throw new IllegalStateException("Invalid prefix: " + new ObjectMapper().writeValueAsString(value));
        }
        switch (value.getCited_pid()) {
            case "doi":
                cited = DOI_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.doi.toString(), value.getCited()));
                break;
            case "pmid":
                cited = PMID_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.pmid.toString(), value.getCited()));
                break;
            case "arxiv":
                cited = ARXIV_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.arXiv.toString(), value.getCited()));
                break;
            case "pmcid":
                cited = PMCID_PREFIX
                        + IdentifierFactory
                        .md5(PidCleaner.normalizePidValue(PidType.pmc.toString(), value.getCited()));
                break;
            case "isbn":
            case "issn":
                return relationList;
            default:
                throw new IllegalStateException("Invalid prefix: " + new ObjectMapper().writeValueAsString(value));
        }
        if (!citing.equals(cited)) {
            relationList
                    .add(
                            getRelation(
                                    citing,
                                    cited, ModelConstants.CITES));
        }
        return relationList;
    }
    public static Relation getRelation(
            String source,
            String target,
            String relClass) {
        return OafMapperUtils
                .getRelation(
                        source,
                        target,
                        ModelConstants.RESULT_RESULT,
                        ModelConstants.CITATION,
                        relClass,
                        Arrays
                                .asList(
                                        OafMapperUtils.keyValue(ModelConstants.OPENOCITATIONS_ID, ModelConstants.OPENOCITATIONS_NAME)),
                        OafMapperUtils
                                .dataInfo(
                                        false, null, false, false,
                                        OafMapperUtils
                                                .qualifier(
                                                        OPENCITATIONS_CLASSID, OPENCITATIONS_CLASSNAME,
                                                        ModelConstants.DNET_PROVENANCE_ACTIONS, ModelConstants.DNET_PROVENANCE_ACTIONS),
                                        TRUST),
                        null);
    }
 }