changed to query for community map just once and save the result for remaining executions

2020-08-03 17:56:31 +02:00 · 2020-08-03 17:56:31 +02:00 · c892c7dfa7
parent 872d7783fc
commit c892c7dfa7
6 changed files with 320 additions and 1 deletions
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/CommunitySplitS3.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/CommunitySplitS3.java
@ -0,0 +1,87 @@
+
+package eu.dnetlib.dhp.oa.graph.dump.community;
+
+import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
+
+import java.io.Serializable;
+import java.util.Optional;
+import java.util.Set;
+import java.util.stream.Collectors;
+
+import org.apache.spark.SparkConf;
+import org.apache.spark.SparkContext;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.SaveMode;
+import org.apache.spark.sql.SparkSession;
+
+import eu.dnetlib.dhp.oa.graph.dump.Utils;
+import eu.dnetlib.dhp.schema.dump.oaf.community.CommunityResult;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+public class CommunitySplitS3 implements Serializable {
+	private static final Logger log = LoggerFactory.getLogger(CommunitySplitS3.class);
+	public void run(Boolean isSparkSessionManaged, String inputPath, String outputPath, String communityMapPath) {
+		// public void run(Boolean isSparkSessionManaged, String inputPath, String outputPath, CommunityMap
+		// communityMap) {
+		SparkConf conf = new SparkConf();
+		runWithSparkSession(
+			conf,
+			isSparkSessionManaged,
+			spark -> {
+				SparkContext sc = spark.sparkContext();
+				sc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem");
+				sc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", "AK0MM6C2BYA0K1PNJYYX");
+				sc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", "fpeiqUUpKAUOtO6JWMWLTxxlSxJ+yGYwHozm3jHK");
+				execSplit(spark, inputPath, outputPath, communityMapPath); // communityMap.keySet());// ,
+				// inputClazz);
+				// execSplit(spark, inputPath, outputPath, communityMap.keySet());
+			});
+	}
+
+	private static void execSplit(SparkSession spark, String inputPath, String outputPath,
+		String communityMapPath) {
+		// Set<String> communities) {
+
+		Set<String> communities = Utils.getCommunityMap(spark, communityMapPath).keySet();
+
+		Dataset<CommunityResult> result = Utils
+			.readPath(spark, inputPath + "/publication", CommunityResult.class)
+			.union(Utils.readPath(spark, inputPath + "/dataset", CommunityResult.class))
+			.union(Utils.readPath(spark, inputPath + "/orp", CommunityResult.class))
+			.union(Utils.readPath(spark, inputPath + "/software", CommunityResult.class));
+
+		communities
+			.stream()
+			.forEach(c -> printResult(c, result, outputPath));
+
+	}
+
+	private static void printResult(String c, Dataset<CommunityResult> result, String outputPath) {
+		Dataset<CommunityResult> community_products = result
+			.filter(r -> containsCommunity(r, c));
+
+		if (community_products.count() > 0) {
+			log.info("Writing dump for community: {} ", c);
+			community_products
+				.repartition(1)
+				.write()
+				.option("compression", "gzip")
+				.mode(SaveMode.Overwrite)
+				.json(outputPath + "/" + c);
+		}
+
+	}
+
+	private static boolean containsCommunity(CommunityResult r, String c) {
+		if (Optional.ofNullable(r.getContext()).isPresent()) {
+			return r
+				.getContext()
+				.stream()
+				.filter(con -> con.getCode().equals(c))
+				.collect(Collectors.toList())
+				.size() > 0;
+		}
+		return false;
+	}
+}
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/SaveCommunityMap.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/SaveCommunityMap.java
@ -0,0 +1,122 @@
+
+package eu.dnetlib.dhp.oa.graph.dump.community;
+
+import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
+
+import java.io.BufferedWriter;
+import java.io.IOException;
+import java.io.OutputStreamWriter;
+import java.io.Serializable;
+import java.nio.charset.StandardCharsets;
+import java.util.Optional;
+
+import org.apache.commons.io.IOUtils;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.FSDataOutputStream;
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.hadoop.fs.Path;
+import org.apache.spark.SparkConf;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import com.fasterxml.jackson.core.JsonProcessingException;
+import com.fasterxml.jackson.databind.ObjectMapper;
+
+import eu.dnetlib.dhp.application.ArgumentApplicationParser;
+import eu.dnetlib.dhp.oa.graph.dump.QueryInformationSystem;
+import eu.dnetlib.dhp.oa.graph.dump.Utils;
+import eu.dnetlib.dhp.oa.graph.dump.graph.CreateContextEntities;
+import eu.dnetlib.enabling.is.lookup.rmi.ISLookUpException;
+
+public class SaveCommunityMap implements Serializable {
+
+	private static final Logger log = LoggerFactory.getLogger(SaveCommunityMap.class);
+	private final QueryInformationSystem queryInformationSystem;
+
+	private final Configuration conf;
+	private final BufferedWriter writer;
+
+	public SaveCommunityMap(String hdfsPath, String hdfsNameNode, String isLookUpUrl) throws IOException {
+		conf = new Configuration();
+		conf.set("fs.defaultFS", hdfsNameNode);
+		FileSystem fileSystem = FileSystem.get(conf);
+		Path hdfsWritePath = new Path(hdfsPath);
+		FSDataOutputStream fsDataOutputStream = null;
+		if (fileSystem.exists(hdfsWritePath)) {
+			fsDataOutputStream = fileSystem.append(hdfsWritePath);
+		} else {
+			fsDataOutputStream = fileSystem.create(hdfsWritePath);
+		}
+
+		queryInformationSystem = new QueryInformationSystem();
+		queryInformationSystem.setIsLookUp(Utils.getIsLookUpService(isLookUpUrl));
+
+		writer = new BufferedWriter(new OutputStreamWriter(fsDataOutputStream, StandardCharsets.UTF_8));
+
+	}
+
+	public static void main(String[] args) throws Exception {
+		String jsonConfiguration = IOUtils
+			.toString(
+				SaveCommunityMap.class
+					.getResourceAsStream(
+						"/eu/dnetlib/dhp/oa/graph/dump/input_cm_parameters.json"));
+
+		final ArgumentApplicationParser parser = new ArgumentApplicationParser(jsonConfiguration);
+		parser.parseArgument(args);
+
+		final String nameNode = parser.get("nameNode");
+		log.info("nameNode: {}", nameNode);
+
+		final String outputPath = parser.get("outputPath");
+		log.info("outputPath: {}", outputPath);
+
+		final String isLookUpUrl = parser.get("isLookUpUrl");
+		log.info("isLookUpUrl: {}", isLookUpUrl);
+
+//		Boolean isSparkSessionManaged = Optional
+//			.ofNullable(parser.get("isSparkSessionManaged"))
+//			.map(Boolean::valueOf)
+//			.orElse(Boolean.TRUE);
+//		log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
+
+		final SaveCommunityMap scm = new SaveCommunityMap(outputPath, nameNode, isLookUpUrl);
+
+		scm.saveCommunityMap();
+
+		// CommunityMap communityMap = queryInformationSystem.getCommunityMap();
+
+//		SparkConf conf = new SparkConf();
+//
+//		runWithSparkSession(
+//			conf,
+//			isSparkSessionManaged,
+//			spark -> {
+//				Utils.removeOutputDir(spark, outputPath);
+//
+////					execDump(spark, inputPath, outputPath, communityMap, inputClazz, outputClazz, graph);// ,
+//				// dumpClazz);
+//			});
+
+//		Configuration conf = new Configuration();
+//		conf.set("fs.defaultFS", nameNode);
+//		FileSystem fileSystem = FileSystem.get(conf);
+//		Path hdfsWritePath = new Path(outputPath);
+//		FSDataOutputStream fsDataOutputStream = null;
+//		if (fileSystem.exists(hdfsWritePath)) {
+//			fsDataOutputStream = fileSystem.append(hdfsWritePath);
+//		} else {
+//			fsDataOutputStream = fileSystem.create(hdfsWritePath);
+//		}
+//
+//		BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(fsDataOutputStream, StandardCharsets.UTF_8));
+//
+//		writer.write(OBJECT_MAPPER.writeValueAsString(communityMap));
+//		writer.close();
+	}
+
+	private void saveCommunityMap() throws ISLookUpException, IOException {
+		writer.write(Utils.OBJECT_MAPPER.writeValueAsString(queryInformationSystem.getCommunityMap()));
+		writer.close();
+	}
+}
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/SparkDumpCommunityProducts.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/SparkDumpCommunityProducts.java
@ -45,6 +45,8 @@ public class SparkDumpCommunityProducts implements Serializable {
 		final String resultClassName = parser.get("resultTableName");
 		log.info("resultTableName: {}", resultClassName);

+		String communityMapPath = parser.get("communityMapPath");
+
 		final String isLookUpUrl = parser.get("isLookUpUrl");
 		log.info("isLookUpUrl: {}", isLookUpUrl);

@ -56,7 +58,15 @@ public class SparkDumpCommunityProducts implements Serializable {

 		DumpProducts dump = new DumpProducts();

-		dump.run(isSparkSessionManaged, inputPath, outputPath, communityMap, inputClazz, CommunityResult.class, false);
+		dump
+			.run(
+				isSparkSessionManaged, inputPath, outputPath, communityMapPath, inputClazz, CommunityResult.class,
+				false);
+
+//		dump
+//			.run(
+//				isSparkSessionManaged, inputPath, outputPath, communityMap, inputClazz, CommunityResult.class,
+//				false);

 	}

--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/SparkSplitForCommunityS3.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/oa/graph/dump/community/SparkSplitForCommunityS3.java
@ -0,0 +1,64 @@
+
+package eu.dnetlib.dhp.oa.graph.dump.community;
+
+import java.io.Serializable;
+import java.util.Optional;
+
+import org.apache.commons.io.IOUtils;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import eu.dnetlib.dhp.application.ArgumentApplicationParser;
+import eu.dnetlib.dhp.oa.graph.dump.QueryInformationSystem;
+import eu.dnetlib.dhp.utils.ISLookupClientFactory;
+import eu.dnetlib.enabling.is.lookup.rmi.ISLookUpService;
+
+public class SparkSplitForCommunityS3 implements Serializable {
+
+	private static final Logger log = LoggerFactory.getLogger(SparkSplitForCommunityS3.class);
+
+	public static void main(String[] args) throws Exception {
+		String jsonConfiguration = IOUtils
+			.toString(
+				SparkSplitForCommunityS3.class
+					.getResourceAsStream(
+						"/eu/dnetlib/dhp/oa/graph/dump/split_parameters.json"));
+
+		final ArgumentApplicationParser parser = new ArgumentApplicationParser(jsonConfiguration);
+		parser.parseArgument(args);
+
+		Boolean isSparkSessionManaged = Optional
+			.ofNullable(parser.get("isSparkSessionManaged"))
+			.map(Boolean::valueOf)
+			.orElse(Boolean.TRUE);
+		log.info("isSparkSessionManaged: {}", isSparkSessionManaged);
+
+		final String inputPath = parser.get("sourcePath");
+		log.info("inputPath: {}", inputPath);
+
+		final String outputPath = parser.get("outputPath");
+		log.info("outputPath: {}", outputPath);
+
+		final String communityMapPath = parser.get("communityMapPath");
+
+		final String isLookUpUrl = parser.get("isLookUpUrl");
+		log.info("isLookUpUrl: {}", isLookUpUrl);
+
+		CommunitySplitS3 split = new CommunitySplitS3();
+
+		// CommunityMap communityMap;
+
+//		QueryInformationSystem queryInformationSystem = new QueryInformationSystem();
+//		queryInformationSystem.setIsLookUp(getIsLookUpService(isLookUpUrl));
+//		communityMap = queryInformationSystem.getCommunityMap();
+
+		split.run(isSparkSessionManaged, inputPath, outputPath, communityMapPath);
+		// split.run(isSparkSessionManaged, inputPath, outputPath, communityMap);
+
+	}
+
+	public static ISLookUpService getIsLookUpService(String isLookUpUrl) {
+		return ISLookupClientFactory.getLookUpService(isLookUpUrl);
+	}
+
+}
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/input_cm_parameters.json
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/dump/input_cm_parameters.json
@ -0,0 +1,36 @@
+
+[
+	{
+		"paramName":"cmp",
+		"paramLongName":"communityMapPath",
+		"paramDescription": "the path to the serialization of the community map",
+		"paramRequired": false
+	},
+	{
+		"paramName":"is",
+		"paramLongName":"isLookUpUrl",
+		"paramDescription": "URL of the isLookUp Service",
+		"paramRequired": true
+	},
+	{
+		"paramName":"s",
+		"paramLongName":"sourcePath",
+		"paramDescription": "the path of the sequencial file to read",
+		"paramRequired": true
+	},
+	{
+		"paramName": "out",
+		"paramLongName": "outputPath",
+		"paramDescription": "the path used to store temporary output files",
+		"paramRequired": true
+	},
+	{
+		"paramName": "ssm",
+		"paramLongName": "isSparkSessionManaged",
+		"paramDescription": "true if the spark session is managed, false otherwise",
+		"paramRequired": false
+	}
+]
+
+
+
--- a/dhp-workflows/dhp-graph-mapper/src/test/resources/eu/dnetlib/dhp/oa/graph/dump/communityMapPath/communitymap.json
+++ b/dhp-workflows/dhp-graph-mapper/src/test/resources/eu/dnetlib/dhp/oa/graph/dump/communityMapPath/communitymap.json