Add changes from code review

2023-07-28 19:03:47 +03:00 · 2023-07-28 19:03:47 +03:00 · ebfba38ab6
parent be320ba3c1
commit ebfba38ab6
1 changed files with 22 additions and 36 deletions
--- a/dhp-workflows/dhp-aggregation/src/main/java/eu/dnetlib/dhp/actionmanager/bipaffiliations/PrepareAffiliationRelations.java
+++ b/dhp-workflows/dhp-aggregation/src/main/java/eu/dnetlib/dhp/actionmanager/bipaffiliations/PrepareAffiliationRelations.java
@ -10,15 +10,15 @@ import java.util.stream.Collectors;
 import org.apache.commons.io.IOUtils;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.io.compress.GzipCodec;
 import org.apache.hadoop.mapred.SequenceFileOutputFormat;
 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.JavaRDD;
 import org.apache.spark.api.java.JavaSparkContext;
 import org.apache.spark.api.java.function.FlatMapFunction;
 import org.apache.spark.api.java.function.MapFunction;
 import org.apache.spark.sql.*;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SparkSession;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@ -82,45 +82,32 @@ public class PrepareAffiliationRelations implements Serializable {
 	private static <I extends Result> void prepareAffiliationRelations(SparkSession spark, String inputPath,
 		String outputPath) {
 		final JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());
 		// load and parse affiliation relations from HDFS
-		JavaRDD<AffiliationRelationDeserializer> affiliationRelationsDeserializeRDD = sc
+		Dataset<Row> df = spark
-			.textFile(inputPath)
+			.read()
-			.map(item -> OBJECT_MAPPER.readValue(item, AffiliationRelationDeserializer.class));
+			.schema("`DOI` STRING, `Matchings` ARRAY<STRUCT<`RORid`:ARRAY<STRING>,`Confidence`:DOUBLE>>")
 			.json(inputPath);
-		// convert affiliation to an internal representation
+		// unroll nested arrays
-		Dataset<AffiliationRelationModel> affiliationRelations = spark
+		df = df
-			.createDataset(
+			.withColumn("matching", functions.explode(new Column("Matchings")))
-				affiliationRelationsDeserializeRDD
+			.withColumn("rorid", functions.explode(new Column("matching.RORid")))
-					.flatMap(
+			.select(
-						entry -> entry
+				new Column("DOI").as("doi"),
-							.getMatchings()
+				new Column("rorid"),
-							.stream()
+				new Column("matching.Confidence").as("confidence"));
 							.flatMap(
 								matching -> matching
 									.getRorId()
 									.stream()
 									.map(
 										rorId -> new AffiliationRelationModel(
 											entry.getDoi(),
 											rorId,
 											matching.getConfidence())))
 							.collect(Collectors.toList())
 							.iterator())
 					.rdd(),
 				Encoders.bean(AffiliationRelationModel.class));
 		// prepare action sets for affiliation relations
-		affiliationRelations
+		df
-			.flatMap((FlatMapFunction<AffiliationRelationModel, Relation>) affRel -> {
+			.toJavaRDD()
 			.flatMap((FlatMapFunction<Row, Relation>) row -> {
 				// DOI to OpenAIRE id
 				final String paperId = ID_PREFIX
-					+ IdentifierFactory.md5(CleaningFunctions.normalizePidValue("doi", affRel.getDoi()));
+					+ IdentifierFactory.md5(CleaningFunctions.normalizePidValue("doi", row.getAs("doi")));
 				// ROR id to OpenAIRE id
-				final String affId = GenerateRorActionSetJob.calculateOpenaireId(affRel.getRorId());
+				final String affId = GenerateRorActionSetJob.calculateOpenaireId(row.getAs("rorid"));
 				Qualifier qualifier = OafMapperUtils
 					.qualifier(
@ -137,18 +124,17 @@ public class PrepareAffiliationRelations implements Serializable {
 						true,
 						false,
 						qualifier,
-						Double.toString(affRel.getConfidence()));
+						Double.toString(row.getAs("confidence")));
 				// return bi-directional relations
 				return getAffiliationRelationPair(paperId, affId, dataInfo).iterator();
-			}, Encoders.bean(Relation.class))
+			})
 			.toJavaRDD()
 			.map(p -> new AtomicAction(Relation.class, p))
 			.mapToPair(
 				aa -> new Tuple2<>(new Text(aa.getClazz().getCanonicalName()),
 					new Text(OBJECT_MAPPER.writeValueAsString(aa))))
-			.saveAsHadoopFile(outputPath, Text.class, Text.class, SequenceFileOutputFormat.class);
+			.saveAsHadoopFile(outputPath, Text.class, Text.class, SequenceFileOutputFormat.class, GzipCodec.class);
 	}