[SKG-IF-EOSC] added possibility to filter for LOT1 constraints and results related to specific communities

2024-04-08 10:26:48 +02:00 · 2024-04-08 10:26:48 +02:00 · 87370338bb
parent f85db930d9
commit 87370338bb
5 changed files with 283 additions and 16 deletions
--- a/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/filterentities/SelectCommunityEntities.java
+++ b/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/filterentities/SelectCommunityEntities.java
@ -0,0 +1,88 @@
 package eu.dnetlib.dhp.oa.graph.dump.filterentities;
 import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 import eu.dnetlib.dhp.schema.common.ModelSupport;
 import eu.dnetlib.dhp.schema.oaf.Result;
 import org.apache.commons.io.IOUtils;
 import org.apache.spark.SparkConf;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SaveMode;
 import org.apache.spark.sql.SparkSession;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import java.io.Serializable;
 import java.util.Optional;
 import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
 /**
 * @author miriam.baglioni
 * @Date 20/03/24
 */
 public class SelectCommunityEntities implements Serializable {
 	private static final Logger log = LoggerFactory.getLogger(SelectCommunityEntities.class);
 	public static void main(String[] args) throws Exception {
 		String jsonConfiguration = IOUtils
 			.toString(
 				FilterEntities.class
 					.getResourceAsStream(
 						"/eu/dnetlib/dhp/oa/graph/dump/skgif/eosc_entities_parameters.json"));
 		final ArgumentApplicationParser parser = new ArgumentApplicationParser(jsonConfiguration);
 		parser.parseArgument(args);
 		Boolean isSparkSessionManaged = Optional
 			.ofNullable(parser.get("isSparkSessionManaged"))
 			.map(Boolean::valueOf)
 			.orElse(Boolean.TRUE);
 		log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
 		final String inputPath = parser.get("sourcePath");
 		log.info("inputPath: {}", inputPath);
 		final String filterPath = parser.get("filterPath");
 		log.info("filterPath: {}", filterPath);
 		final String communityId = parser.get("communityId");
 		log.info("communityId: {}", communityId);
 		SparkConf conf = new SparkConf();
 		runWithSparkSession(
 			conf,
 			isSparkSessionManaged,
 			spark -> {
 				selectEntities(spark, inputPath, filterPath, communityId);
 			});
 	}
 	private static <R extends Result> void selectEntities(SparkSession spark, String inputPath, String filterPath, String communityId) {
 		ModelSupport.entityTypes.keySet().forEach(e -> {
 			if (ModelSupport.isResult(e)) {
 				spark
 					.read()
 					.schema(Encoders.bean(Result.class).schema())
 					.json(inputPath + e.name())
 					.where("datainfo.deletedbyinference != true and datainfo.invisible != true")
 					.select("id", "context")
 					.where("array_contains(context.id,'"+communityId+"')")
 					.drop("context")
 					.distinct()
 					.write()
 					.mode(SaveMode.Overwrite)
 					.option("compression", "gzip")
 					.parquet(filterPath + e.name() + "_ids");
 			}
 		});
 	}
 }
--- a/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/filterentities/SelectEOSCEntities.java
+++ b/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/filterentities/SelectEOSCEntities.java
@ -28,7 +28,6 @@ import scala.Tuple2;
 */
 public class SelectEOSCEntities implements Serializable {
 	private static final Logger log = LoggerFactory.getLogger(SelectEOSCEntities.class);
 	private static final String B2FIND_IDENTIFIER = "10|re3data_____::730f562f9efe8a3b3742d2da510d4335";
 	public static void main(String[] args) throws Exception {
 		String jsonConfiguration = IOUtils
@ -68,17 +67,6 @@ public class SelectEOSCEntities implements Serializable {
 	private static <R extends Result> void selectEntities(SparkSession spark, String inputPath, String filterPath) {
 		ModelSupport.entityTypes.keySet().forEach(e -> {
 			if (ModelSupport.isResult(e)) {
 //				Utils
 //					.readPath(spark, inputPath + e.name(), ModelSupport.entityTypes.get(e))
 //					.filter(
 //						(FilterFunction<R>) r -> !r.getDataInfo().getDeletedbyinference()
 //							&& !r.getDataInfo().getInvisible()
 //							&& (r.getContext().stream().anyMatch(c -> c.getId().equals("eosc")) ||
 //								r
 //									.getCollectedfrom()
 //									.stream()
 //									.anyMatch(cf -> cf.getValue().equalsIgnoreCase("B2FIND"))))
 //					.map((MapFunction<R, String>) r -> r.getId(), Encoders.STRING())
 				spark
 					.read()
@ -94,7 +82,6 @@ public class SelectEOSCEntities implements Serializable {
 					.option("compression", "gzip")
 					.parquet(filterPath + e.name() + "_ids");
 //
 			}
 		});
--- a/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/filterentities/SelectLOT1Entities.java
+++ b/dump/src/main/java/eu/dnetlib/dhp/oa/graph/dump/filterentities/SelectLOT1Entities.java
@ -0,0 +1,133 @@
 package eu.dnetlib.dhp.oa.graph.dump.filterentities;
 import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 import eu.dnetlib.dhp.schema.common.ModelSupport;
 import eu.dnetlib.dhp.schema.oaf.*;
 import org.apache.commons.io.IOUtils;
 import org.apache.spark.SparkConf;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SaveMode;
 import org.apache.spark.sql.SparkSession;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import static org.apache.spark.sql.functions.expr;
 import static org.apache.spark.sql.functions.max;
 import static org.apache.spark.sql.functions.col;
 import java.io.Serializable;
 import java.util.Optional;
 import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
 /**
 * @author miriam.baglioni
 * @Date 20/03/24
 */
 public class SelectLOT1Entities implements Serializable {
 	private static final Logger log = LoggerFactory.getLogger(SelectLOT1Entities.class);
 	public static void main(String[] args) throws Exception {
 		String jsonConfiguration = IOUtils
 			.toString(
 				FilterEntities.class
 					.getResourceAsStream(
 						"/eu/dnetlib/dhp/oa/graph/dump/skgif/eosc_entities_parameters.json"));
 		final ArgumentApplicationParser parser = new ArgumentApplicationParser(jsonConfiguration);
 		parser.parseArgument(args);
 		Boolean isSparkSessionManaged = Optional
 			.ofNullable(parser.get("isSparkSessionManaged"))
 			.map(Boolean::valueOf)
 			.orElse(Boolean.TRUE);
 		log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
 		final String inputPath = parser.get("sourcePath");
 		log.info("inputPath: {}", inputPath);
 		final String filterPath = parser.get("filterPath");
 		log.info("filterPath: {}", filterPath);
 		SparkConf conf = new SparkConf();
 		runWithSparkSession(
 			conf,
 			isSparkSessionManaged,
 			spark -> {
 				selectEntities(spark, inputPath, filterPath);
 			});
 	}
 	private static <R extends Result> void selectEntities(SparkSession spark, String inputPath, String filterPath) {
 		selectPublications(spark,inputPath,filterPath);
 		selectDataset(spark,inputPath,filterPath);
 		selectSoftware(spark,inputPath,filterPath);
 		selectOthers(spark,inputPath,filterPath);
 	}
 	private static void selectOthers(SparkSession spark, String inputPath, String filterPath) {
 		spark.read().schema(Encoders.bean(OtherResearchProduct.class).schema())
 				.json(inputPath + "otherresearchproduct")
 				.where("datainfo.deletedbyinference != true AND datainfo.invisible != true")
 				.selectExpr("id", "instance", "explode(pid) as pid").where("pid.qualifier.classid IN ('doi', 'handle')") // filter by pid type
 				.selectExpr("id", "explode(instance) as instance")
 				.withColumn("CCL", expr("CASE WHEN instance.license.value LIKE 'CC%' OR instance.license.value LIKE '%/creativecommons.org/%' THEN 1 ELSE 0 END"))
 				.groupBy("id")
 				.agg(max(col("CCL")).as("CCL"))
 				.write()
 				.mode(SaveMode.Overwrite)
 				.option("compression", "gzip")
 				.parquet(filterPath + "otherresearchproduct_ids");
 	}
 	private static void selectSoftware(SparkSession spark, String inputPath, String filterPath) {
 		spark.read().schema(Encoders.bean(Software.class).schema())
 				.json(inputPath + "software")
 		    .where("datainfo.deletedbyinference != true AND datainfo.invisible != true")
 				.selectExpr("id", "instance", "explode(pid) as pid").where("pid.qualifier.classid IN ('doi', 'swhid')") // filter by pid type
 				.selectExpr("id", "explode(instance) as instance")
 				.withColumn("CCL", expr("CASE WHEN instance.license.value LIKE 'CC%' OR instance.license.value LIKE '%/creativecommons.org/%' THEN 1 ELSE 0 END"))
 				.groupBy("id")
 				.agg(max(col("CCL")).as("CCL"))
 				.write()
 				.mode(SaveMode.Overwrite)
 				.option("compression", "gzip")
 				.parquet(filterPath + "software_ids");
 	}
 	private static void selectDataset(SparkSession spark, String inputPath, String filterPath) {
 		spark.read().schema(Encoders.bean(Dataset.class).schema())
 				.json(inputPath + "dataset")
 				.where("datainfo.deletedbyinference != true AND datainfo.invisible != true")
 				.selectExpr("id", "instance", "explode(pid) as pid").where("pid.qualifier.classid IN ('doi', 'handle', 'pdb', 'ena', 'uniprot')") // filter by pid type
 				.selectExpr("id", "explode(instance) as instance")
 				.withColumn("CCL", expr("CASE WHEN instance.license.value LIKE 'CC%' OR instance.license.value LIKE '%/creativecommons.org/%' THEN 1 ELSE 0 END"))
 				.groupBy("id")
 				.agg(max(col("CCL")).as("CCL"))
 				.write()
 				.mode(SaveMode.Overwrite)
 				.option("compression", "gzip")
 				.parquet(filterPath + "dataset_ids");
 	}
 	private static void selectPublications(SparkSession spark, String inputPath, String filterPath) {
 		spark.read().schema(Encoders.bean(Publication.class).schema())
 				.json(inputPath + "publication")
 				.where("datainfo.deletedbyinference != true AND datainfo.invisible != true")
 				.selectExpr("id", "instance", "explode(pid) as pid").where("pid.qualifier.classid IN ('doi', 'arXiv', 'pmid', 'handle')") // filter by pid type
 				.selectExpr("id", "explode(instance) as instance").where("instance.instancetype.classname IN('Book', 'Article', 'Journal', 'Data Paper', 'Software Paper', 'Preprint', 'Part of book or chapter of book',  'Thesis', 'Master thesis', 'Bachelor thesis', 'Doctoral thesis',  'Conference object', 'Research', 'Other literature type')")
 				.withColumn("CCL", expr("CASE WHEN instance.license.value LIKE 'CC%' OR instance.license.value LIKE '%/creativecommons.org/%' THEN 1 ELSE 0 END"))
 				.groupBy("id")
 				.agg(max(col("CCL")).as("CCL"))
 				.write()
 				.mode(SaveMode.Overwrite)
 				.option("compression", "gzip")
 				.parquet(filterPath + "publication_ids");
 	}
 }
--- a/dump/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/skgif/eosc_entities_parameters.json
+++ b/dump/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/skgif/eosc_entities_parameters.json
@ -16,5 +16,10 @@
 		"paramLongName": "isSparkSessionManaged",
 		"paramDescription": "true if the spark session is managed, false otherwise",
 		"paramRequired": false
-	}
+	},{
 	"paramName": "ci",
 	"paramLongName": "communityId",
 	"paramDescription": "true if the spark session is managed, false otherwise",
 	"paramRequired": false
 }
 ]
--- a/dump/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/skgif/oozie_app/workflow.xml
+++ b/dump/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/skgif/oozie_app/workflow.xml
@ -77,7 +77,9 @@
    <decision name="select_subset">
        <switch>
 <!--            This one is if I hve to select the results as we do now for the eosc futere portal-->
-            <case to="select_eosc_results">${wf:conf('filter') eq true}</case>
+            <case to="select_eosc_results">${wf:conf('filter') eq 'EOSC'}</case>
            <case to="select_lot1_results">${wf:conf('filter') eq 'LOT1'}</case>
            <case to="select_community_results">${wf:conf('filter') eq 'Community'}</case>
 <!--            This one takes the identifier of the results matching different criteria and computed outside this code-->
            <default to="filter"/>
        </switch>
@ -113,7 +115,59 @@
        <ok to="filter"/>
        <error to="Kill"/>
    </action>
-
+    <action name="select_lot1_results">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <master>yarn</master>
            <mode>cluster</mode>
            <name>Selecting graph results ids relevant for LOT1</name>
            <class>eu.dnetlib.dhp.oa.graph.dump.filterentities.SelectLOT1Entities</class>
            <jar>dump-${projectVersion}.jar</jar>
            <spark-opts>
                --executor-cores=4
                --executor-memory=4G
                --driver-memory=${sparkDriverMemory}
                --conf spark.executor.memoryOverhead=5G
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
                --conf spark.sql.warehouse.dir=${sparkSqlWarehouseDir}
                --conf spark.sql.shuffle.partitions=15000
            </spark-opts>
            <arg>--sourcePath</arg><arg>${sourcePath}</arg>
            <arg>--filterPath</arg><arg>${filterPath}/eoscIds/</arg>
        </spark>
        <ok to="filter"/>
        <error to="Kill"/>
    </action>
    <action name="select_community_results">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <master>yarn</master>
            <mode>cluster</mode>
            <name>Selecting graph results ids relevant for Communities</name>
            <class>eu.dnetlib.dhp.oa.graph.dump.filterentities.SelectCommunityEntities</class>
            <jar>dump-${projectVersion}.jar</jar>
            <spark-opts>
                --executor-cores=4
                --executor-memory=4G
                --driver-memory=${sparkDriverMemory}
                --conf spark.executor.memoryOverhead=5G
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
                --conf spark.sql.warehouse.dir=${sparkSqlWarehouseDir}
                --conf spark.sql.shuffle.partitions=15000
            </spark-opts>
            <arg>--sourcePath</arg><arg>${sourcePath}</arg>
            <arg>--filterPath</arg><arg>${filterPath}/eoscIds/</arg>
            <arg>--communityId</arg><arg>${communityId}</arg>
        </spark>
        <ok to="filter"/>
        <error to="Kill"/>
    </action>
    <action name="filter">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <master>yarn</master>