[Person] remove the isolated nodes from the person set

2024-10-25 10:05:17 +02:00 · 2024-10-25 10:05:17 +02:00 · 1fce7d5a0f
parent 32f444984e
commit 1fce7d5a0f
1 changed files with 25 additions and 3 deletions
--- a/dhp-workflows/dhp-enrichment/src/main/java/eu/dnetlib/dhp/person/SparkExtractPersonRelations.java
+++ b/dhp-workflows/dhp-enrichment/src/main/java/eu/dnetlib/dhp/person/SparkExtractPersonRelations.java
@ -16,10 +16,8 @@ import org.apache.spark.api.java.function.FilterFunction;
 import org.apache.spark.api.java.function.FlatMapFunction;
 import org.apache.spark.api.java.function.MapFunction;
 import org.apache.spark.api.java.function.MapGroupsFunction;
 import org.apache.spark.sql.*;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SaveMode;
 import org.apache.spark.sql.SparkSession;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@ -84,9 +82,33 @@ public class SparkExtractPersonRelations {
 					spark,
 					sourcePath,
 					workingPath);
 				removeIsolatedPerson(spark,sourcePath, workingPath);
 			});
 	}
 	private static void removeIsolatedPerson(SparkSession spark, String sourcePath, String workingPath) {
 		Dataset<Person> personDataset = spark.read().schema(Encoders.bean(Person.class).schema())
 				.json(sourcePath + "person")
 				.as(Encoders.bean(Person.class));
 		Dataset<Relation> relationDataset = spark.read().schema(Encoders.bean(Relation.class).schema())
 				.json(sourcePath + "relation")
 				.as(Encoders.bean(Relation.class));
 		personDataset.join(relationDataset, personDataset.col("id").equalTo(relationDataset.col("source")), "left_semi")
 				.write()
 				.option("compression","gzip")
 				.mode(SaveMode.Overwrite)
 				.json(workingPath + "person");
 		spark.read().schema(Encoders.bean(Person.class).schema())
 				.json(workingPath + "person")
 				.write()
 				.mode(SaveMode.Overwrite)
 				.option("compression","gzip")
 				.json(sourcePath + "person");
 	}
 	private static void extractRelations(SparkSession spark, String sourcePath, String workingPath) {
 		Dataset<Tuple2<String, Relation>> relationDataset = spark