extended code to select the relations between the set of results in eosc. Added also the related step in the workflow

2023-01-12 18:44:37 +01:00 · 2023-01-12 18:44:37 +01:00 · d5420960d1
parent 57a0b96419
commit d5420960d1
2 changed files with 146 additions and 1 deletions
--- a/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/eosc/SparkSelectRelation.java
+++ b/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/eosc/SparkSelectRelation.java
@ -0,0 +1,119 @@
 package eu.dnetlib.dhp.oa.graph.dump.eosc;
 import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 import eu.dnetlib.dhp.eosc.model.EoscResult;
 import eu.dnetlib.dhp.oa.graph.dump.Utils;
 import eu.dnetlib.dhp.schema.common.ModelConstants;
 import eu.dnetlib.dhp.schema.oaf.*;
 import org.apache.commons.io.IOUtils;
 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.function.FilterFunction;
 import org.apache.spark.api.java.function.FlatMapFunction;
 import org.apache.spark.api.java.function.MapFunction;
 import org.apache.spark.api.java.function.MapGroupsFunction;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SaveMode;
 import org.apache.spark.sql.SparkSession;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import scala.Tuple2;
 import java.io.Serializable;
 import java.util.*;
 import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
 /**
 * @author miriam.baglioni
 * @Date 12/01/23
 */
 public class SparkSelectRelation  Serializable {
    private static final Logger log = LoggerFactory.getLogger(SparkSelectRelation.class);
    public static void main(String[] args) throws Exception {
        String jsonConfiguration = IOUtils
                .toString(
                        SparkSelectRelation.class
                                .getResourceAsStream(
                                        "/eu/dnetlib/dhp/oa/graph/dump/input_relationdump_parameters.json"));
        final ArgumentApplicationParser parser = new ArgumentApplicationParser(jsonConfiguration);
        parser.parseArgument(args);
        Boolean isSparkSessionManaged = Optional
                .ofNullable(parser.get("isSparkSessionManaged"))
                .map(Boolean::valueOf)
                .orElse(Boolean.TRUE);
        log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
        final String inputPath = parser.get("sourcePath");
        log.info("inputPath: {}", inputPath);
        final String outputPath = parser.get("outputPath");
        log.info("outputPath: {}", outputPath);
        Optional<String> rs = Optional.ofNullable(parser.get("removeSet"));
        final Set<String> removeSet = new HashSet<>();
        if (rs.isPresent()) {
            Collections.addAll(removeSet, rs.get().split(";"));
        }
        SparkConf conf = new SparkConf();
        runWithSparkSession(
                conf,
                isSparkSessionManaged,
                spark -> {
                    selectSubset(spark, inputPath, outputPath, removeSet);
                });
    }
    private static void selectSubset(SparkSession spark, String inputPath, String outputPath, Set<String> removeSet) {
        Dataset<Relation> relation = Utils
                .readPath(spark, inputPath + "/relation", Relation.class)
                .filter(
                        (FilterFunction<Relation>) r -> !r.getDataInfo().getDeletedbyinference()
                                && !removeSet.contains(r.getRelClass()));
        Dataset<String> resultIds = Utils
                .readPath(spark, outputPath + "/publication", EoscResult.class)
                .map((MapFunction<EoscResult, String>) p -> p.getId(), Encoders.STRING())
                .union(
                        Utils
                                .readPath(spark, outputPath + "/dataset", EoscResult.class)
                                .map((MapFunction<EoscResult, String>) d -> d.getId(), Encoders.STRING()))
                .union(
                        Utils
                                .readPath(spark, outputPath + "/software", EoscResult.class)
                                .map((MapFunction<EoscResult, String>) s -> s.getId(), Encoders.STRING()))
                .union(
                        Utils
                                .readPath(spark, outputPath + "/otherresearchproduct", EoscResult.class)
                                .map((MapFunction<EoscResult, String>) o -> o.getId(), Encoders.STRING()));
        // select result -> result relations
        Dataset<Relation> relResultResult = relation
                .joinWith(resultIds, relation.col("source").equalTo(resultIds.col("value")))
                .map((MapFunction<Tuple2<Relation, String>, Relation>) t2 -> t2._1(), Encoders.bean(Relation.class));
        relResultResult
                .joinWith(resultIds, relResultResult.col("target").equalTo(resultIds.col("value")))
                .map((MapFunction<Tuple2<Relation, String>, Relation>) t2 -> t2._1(), Encoders.bean(Relation.class))
                .write()
                .option("compression", "gzip")
                .mode(SaveMode.Overwrite)
                .json(outputPath + "/relation");
    }
 }
--- a/dump/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/eoscdump/oozie_app/workflow.xml
+++ b/dump/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/eoscdump/oozie_app/workflow.xml
@ -547,7 +547,33 @@
        <error to="Kill"/>
    </action>
-    <join name="join_extend" to="make_archive"/>
+    <join name="join_extend" to="select_relation"/>
    <action name="select_relation">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <master>yarn</master>
            <mode>cluster</mode>
            <name>Select the set of relations between the results in the selected set</name>
            <class>eu.dnetlib.dhp.oa.graph.dump.eosc.SparkSelectRelation</class>
            <jar>dump-${projectVersion}.jar</jar>
            <spark-opts>
                --executor-memory=${sparkExecutorMemory}
                --executor-cores=${sparkExecutorCores}
                --driver-memory=${sparkDriverMemory}
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
                --conf spark.sql.warehouse.dir=${sparkSqlWarehouseDir}
            </spark-opts>
            <arg>--sourcePath</arg><arg>${sourcePath}</arg>
            <arg>--outputPath</arg><arg>${workingDir}/dump</arg>
            <arg>--preparedInfoPath</arg><arg>${workingDir}/preparedInfo</arg>
            <arg>--dumpType</arg><arg>eosc</arg>
        </spark>
        <ok to="dump_relation"/>
        <error to="Kill"/>
    </action>
    <action name="make_archive">
        <java>