BrBETA_dnet-hadoop/dhp-workflows/dhp-broker-events/src/main/java/eu/dnetlib/dhp/broker/oa/util/ClusterUtils.java


package eu.dnetlib.dhp.broker.oa.util;

import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;

import eu.dnetlib.dhp.schema.common.ModelConstants;
import org.apache.commons.lang3.StringUtils;
import org.apache.spark.api.java.function.MapFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Encoders;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.util.LongAccumulator;

import com.fasterxml.jackson.databind.ObjectMapper;

import eu.dnetlib.dhp.application.ArgumentApplicationParser;
import eu.dnetlib.dhp.common.HdfsSupport;
import eu.dnetlib.dhp.schema.oaf.Relation;

public class ClusterUtils {

	private static final ObjectMapper OBJECT_MAPPER = new ObjectMapper();

	public static void createDirIfMissing(final SparkSession spark, final String path) {
		HdfsSupport.remove(path, spark.sparkContext().hadoopConfiguration());
	}

	public static void removeDir(final SparkSession spark, final String path) {
		HdfsSupport.remove(path, spark.sparkContext().hadoopConfiguration());
	}

	public static Dataset<Relation> loadRelations(final String graphPath, final SparkSession spark) {
		return ClusterUtils
			.readPath(spark, graphPath + "/relation", Relation.class)
			.map((MapFunction<Relation, Relation>) r -> {
				r.setSource(ConversionUtils.cleanOpenaireId(r.getSource()));
				r.setTarget(ConversionUtils.cleanOpenaireId(r.getTarget()));
				return r;
			}, Encoders.bean(Relation.class));
	}

	public static <R> Dataset<R> readPath(
		final SparkSession spark,
		final String inputPath,
		final Class<R> clazz) {
		return spark
			.read()
			.textFile(inputPath)
			.map((MapFunction<String, R>) value -> OBJECT_MAPPER.readValue(value, clazz), Encoders.bean(clazz));
	}

	public static boolean isDedupRoot(final String id) {
		return id.contains("dedup");
	}

	public static final boolean isValidResultResultClass(final String s) {
		return s.equals(ModelConstants.IS_REFERENCED_BY)
			|| s.equals(ModelConstants.IS_RELATED_TO)
			|| s.equals(ModelConstants.REFERENCES)
			|| s.equals(ModelConstants.IS_SUPPLEMENTED_BY)
			|| s.equals(ModelConstants.IS_SUPPLEMENT_TO);
	}

	public static <T> T incrementAccumulator(final T o, final LongAccumulator acc) {
		if (acc != null) {
			acc.add(1);
		}
		return o;
	}

	public static <T> void save(final Dataset<T> dataset,
		final String path,
		final Class<T> clazz,
		final LongAccumulator acc) {
		dataset
			.map((MapFunction<T, T>) o -> ClusterUtils.incrementAccumulator(o, acc), Encoders.bean(clazz))
			.write()
			.mode(SaveMode.Overwrite)
			.option("compression", "gzip")
			.json(path);
	}

	public static Set<String> parseParamAsList(final ArgumentApplicationParser parser, final String key) {
		final String s = parser.get(key).trim();

		final Set<String> res = new HashSet<>();

		if (s.length() > 1) { // A value of a single char (for example: '-') indicates an empty list
			Arrays
				.stream(s.split(","))
				.map(String::trim)
				.filter(StringUtils::isNotBlank)
				.forEach(res::add);
		}

		return res;
	}

}
refactoring 2020-06-22 08:51:31 +02:00
			`package eu.dnetlib.dhp.broker.oa.util;`

fixed a bug with duplicated events 2020-07-07 15:37:13 +02:00			`import java.util.Arrays;`
			`import java.util.HashSet;`
			`import java.util.Set;`

[broker] updated relation descriptors, making use of constant values 2021-07-28 17:11:18 +02:00			`import eu.dnetlib.dhp.schema.common.ModelConstants;`
fixed a bug with duplicated events 2020-07-07 15:37:13 +02:00			`import org.apache.commons.lang3.StringUtils;`
refactoring 2020-06-22 08:51:31 +02:00			`import org.apache.spark.api.java.function.MapFunction;`
			`import org.apache.spark.sql.Dataset;`
			`import org.apache.spark.sql.Encoders;`
indexing, accumulators, limited lists 2020-06-30 16:17:09 +02:00			`import org.apache.spark.sql.SaveMode;`
refactoring 2020-06-22 08:51:31 +02:00			`import org.apache.spark.sql.SparkSession;`
indexing, accumulators, limited lists 2020-06-30 16:17:09 +02:00			`import org.apache.spark.util.LongAccumulator;`
refactoring 2020-06-22 08:51:31 +02:00
			`import com.fasterxml.jackson.databind.ObjectMapper;`

fixed a bug with duplicated events 2020-07-07 15:37:13 +02:00			`import eu.dnetlib.dhp.application.ArgumentApplicationParser;`
refactoring 2020-06-22 08:51:31 +02:00			`import eu.dnetlib.dhp.common.HdfsSupport;`
fixed a problem with join 2020-12-15 08:30:26 +01:00			`import eu.dnetlib.dhp.schema.oaf.Relation;`
refactoring 2020-06-22 08:51:31 +02:00
			`public class ClusterUtils {`

			`private static final ObjectMapper OBJECT_MAPPER = new ObjectMapper();`

refactoring wf 2020-06-22 11:45:14 +02:00			`public static void createDirIfMissing(final SparkSession spark, final String path) {`
			`HdfsSupport.remove(path, spark.sparkContext().hadoopConfiguration());`
			`}`

refactoring 2020-06-22 08:51:31 +02:00			`public static void removeDir(final SparkSession spark, final String path) {`
			`HdfsSupport.remove(path, spark.sparkContext().hadoopConfiguration());`
			`}`

fixed a problem with join 2020-12-15 08:30:26 +01:00			`public static Dataset<Relation> loadRelations(final String graphPath, final SparkSession spark) {`
			`return ClusterUtils`
			`.readPath(spark, graphPath + "/relation", Relation.class)`
applied intellij code cleanup 2021-05-14 10:58:12 +02:00			`.map((MapFunction<Relation, Relation>) r -> {`
fixed a problem with join 2020-12-15 08:30:26 +01:00			`r.setSource(ConversionUtils.cleanOpenaireId(r.getSource()));`
			`r.setTarget(ConversionUtils.cleanOpenaireId(r.getTarget()));`
			`return r;`
			`}, Encoders.bean(Relation.class));`
			`}`

refactoring 2020-06-22 08:51:31 +02:00			`public static <R> Dataset<R> readPath(`
			`final SparkSession spark,`
			`final String inputPath,`
			`final Class<R> clazz) {`
			`return spark`
			`.read()`
			`.textFile(inputPath)`
			`.map((MapFunction<String, R>) value -> OBJECT_MAPPER.readValue(value, clazz), Encoders.bean(clazz));`
			`}`

partial refactoring of some joins 2020-06-23 08:37:35 +02:00			`public static boolean isDedupRoot(final String id) {`
[broker] updated relation descriptors, making use of constant values 2021-07-28 17:11:18 +02:00			`return id.contains("dedup");`
partial refactoring of some joins 2020-06-23 08:37:35 +02:00			`}`

filter of valid resultResult relations 2020-06-23 10:24:15 +02:00			`public static final boolean isValidResultResultClass(final String s) {`
[broker] updated relation descriptors, making use of constant values 2021-07-28 17:11:18 +02:00			`return s.equals(ModelConstants.IS_REFERENCED_BY)`
			`\|\| s.equals(ModelConstants.IS_RELATED_TO)`
			`\|\| s.equals(ModelConstants.REFERENCES)`
			`\|\| s.equals(ModelConstants.IS_SUPPLEMENTED_BY)`
			`\|\| s.equals(ModelConstants.IS_SUPPLEMENT_TO);`
filter of valid resultResult relations 2020-06-23 10:24:15 +02:00			`}`

indexing, accumulators, limited lists 2020-06-30 16:17:09 +02:00			`public static <T> T incrementAccumulator(final T o, final LongAccumulator acc) {`
			`if (acc != null) {`
			`acc.add(1);`
			`}`
			`return o;`
			`}`

fixed a bug with duplicated events 2020-07-07 15:37:13 +02:00			`public static <T> void save(final Dataset<T> dataset,`
			`final String path,`
			`final Class<T> clazz,`
indexing, accumulators, limited lists 2020-06-30 16:17:09 +02:00			`final LongAccumulator acc) {`
			`dataset`
applied intellij code cleanup 2021-05-14 10:58:12 +02:00			`.map((MapFunction<T, T>) o -> ClusterUtils.incrementAccumulator(o, acc), Encoders.bean(clazz))`
indexing, accumulators, limited lists 2020-06-30 16:17:09 +02:00			`.write()`
			`.mode(SaveMode.Overwrite)`
gzipped output 2020-12-10 11:59:28 +01:00			`.option("compression", "gzip")`
indexing, accumulators, limited lists 2020-06-30 16:17:09 +02:00			`.json(path);`
			`}`

fixed a bug with duplicated events 2020-07-07 15:37:13 +02:00			`public static Set<String> parseParamAsList(final ArgumentApplicationParser parser, final String key) {`
			`final String s = parser.get(key).trim();`

			`final Set<String> res = new HashSet<>();`

			`if (s.length() > 1) { // A value of a single char (for example: '-') indicates an empty list`
			`Arrays`
			`.stream(s.split(","))`
			`.map(String::trim)`
			`.filter(StringUtils::isNotBlank)`
			`.forEach(res::add);`
			`}`

			`return res;`
			`}`

refactoring 2020-06-22 08:51:31 +02:00			`}`