added logic to select only the valid relations: those not deletedbyinference and having both part of the relation as entities in the graph

2021-07-13 15:20:39 +02:00 · 2021-07-13 15:20:39 +02:00 · 9a58f1b93d
parent 13c66e16be
commit 9a58f1b93d
1 changed files with 127 additions and 0 deletions
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/complete/SparkSelectValidRelationsJob.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/complete/SparkSelectValidRelationsJob.java
@ -0,0 +1,127 @@
+package eu.dnetlib.dhp.oa.graph.dump.complete;
+
+import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
+
+import java.io.Serializable;
+import java.util.Optional;
+
+import org.apache.commons.io.IOUtils;
+import org.apache.spark.SparkConf;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Encoders;
+import org.apache.spark.sql.SaveMode;
+import org.apache.spark.sql.SparkSession;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import eu.dnetlib.dhp.application.ArgumentApplicationParser;
+import eu.dnetlib.dhp.oa.graph.dump.Utils;
+import eu.dnetlib.dhp.schema.oaf.*;
+
+public class SparkSelectValidRelationsJob implements Serializable {
+
+    private static final Logger log = LoggerFactory.getLogger(SparkSelectValidRelationsJob.class);
+
+    public static void main(String[] args) throws Exception {
+        String jsonConfiguration = IOUtils
+                .toString(
+                        SparkSelectValidRelationsJob.class
+                                .getResourceAsStream(
+                                        "/eu/dnetlib/dhp/oa/graph/dump/complete/input_relationdump_parameters.json"));
+
+        final ArgumentApplicationParser parser = new ArgumentApplicationParser(jsonConfiguration);
+        parser.parseArgument(args);
+
+        Boolean isSparkSessionManaged = Optional
+                .ofNullable(parser.get("isSparkSessionManaged"))
+                .map(Boolean::valueOf)
+                .orElse(Boolean.TRUE);
+        log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
+
+        final String inputPath = parser.get("sourcePath");
+        log.info("inputPath: {}", inputPath);
+
+        final String outputPath = parser.get("outputPath");
+        log.info("outputPath: {}", outputPath);
+
+        SparkConf conf = new SparkConf();
+
+        runWithSparkSession(
+                conf,
+                isSparkSessionManaged,
+                spark -> {
+                    Utils.removeOutputDir(spark, outputPath);
+                    selectValidRelation(spark, inputPath, outputPath);
+
+                });
+
+    }
+
+    private static void selectValidRelation(SparkSession spark, String inputPath, String outputPath) {
+        Dataset<Relation> relation = Utils.readPath(spark, inputPath + "/relation", Relation.class);
+        Dataset<Publication> publication = Utils.readPath(spark, inputPath + "/publication", Publication.class);
+        Dataset<eu.dnetlib.dhp.schema.oaf.Dataset> dataset = Utils
+                .readPath(spark, inputPath + "/dataset", eu.dnetlib.dhp.schema.oaf.Dataset.class);
+        Dataset<Software> software = Utils.readPath(spark, inputPath + "/software", Software.class);
+        Dataset<OtherResearchProduct> other = Utils
+                .readPath(spark, inputPath + "/otherresearchproduct", OtherResearchProduct.class);
+        Dataset<Organization> organization = Utils.readPath(spark, inputPath + "/organization", Organization.class);
+        Dataset<Project> project = Utils.readPath(spark, inputPath + "/project", Project.class);
+        Dataset<Datasource> datasource = Utils.readPath(spark, inputPath + "/datasource", Datasource.class);
+
+        relation.createOrReplaceTempView("relation");
+        publication.createOrReplaceTempView("publication");
+        dataset.createOrReplaceTempView("dataset");
+        other.createOrReplaceTempView("other");
+        software.createOrReplaceTempView("software");
+        organization.createOrReplaceTempView("organization");
+        project.createOrReplaceTempView("project");
+        datasource.createOrReplaceTempView("datasource");
+
+        spark
+                .sql(
+                        "SELECT id " +
+                                "FROM publication " +
+                                "WHERE datainfo.deletedbyinference = false AND  datainfo.invisible = false " +
+                                "UNION ALL " +
+                                "SELECT id " +
+                                "FROM dataset " +
+                                "WHERE datainfo.deletedbyinference = false AND  datainfo.invisible = false " +
+                                "UNION ALL " +
+                                "SELECT id " +
+                                "FROM other " +
+                                "WHERE datainfo.deletedbyinference = false AND  datainfo.invisible = false " +
+                                "UNION ALL " +
+                                "SELECT id " +
+                                "FROM software " +
+                                "WHERE datainfo.deletedbyinference = false AND  datainfo.invisible = false " +
+                                "UNION ALL " +
+                                "SELECT id " +
+                                "FROM organization " +
+                                "WHERE datainfo.deletedbyinference = false AND  datainfo.invisible = false " +
+                                "UNION ALL " +
+                                "SELECT id " +
+                                "FROM project " +
+                                "UNION ALL " +
+                                "SELECT id " +
+                                "FROM datasource ")
+                .createOrReplaceTempView("identifiers");
+
+        spark
+                .sql(
+                        "SELECT relation.* " +
+                                "FROM relation " +
+                                "JOIN identifiers i1 " +
+                                "ON source = i1.id " +
+                                "JOIN identifiers i2 " +
+                                "ON target = i2.id " +
+                                "WHERE datainfo.deletedbyinference = false")
+                .as(Encoders.bean(Relation.class))
+                .write()
+                .option("compression", "gzip")
+                .mode(SaveMode.Overwrite)
+                .json(outputPath);
+        ;
+
+    }
+}