experimenting with pruning of relations

2020-07-10 10:06:41 +02:00 · 2020-07-10 10:06:41 +02:00 · ff4d6214f1
parent 67e1d222b6
commit ff4d6214f1
1 changed files with 174 additions and 170 deletions
--- a/dhp-workflows/dhp-graph-provision/src/main/java/eu/dnetlib/dhp/oa/provision/PrepareRelationsJob.java
+++ b/dhp-workflows/dhp-graph-provision/src/main/java/eu/dnetlib/dhp/oa/provision/PrepareRelationsJob.java
@ -135,27 +135,31 @@ public class PrepareRelationsJob {
    private static void prepareRelationsRDD(SparkSession spark, String inputRelationsPath, String outputPath,
                                            Set<String> relationFilter, int maxRelations, int relPartitions) {

-		// group by SOURCE and apply limit
-		RDD<Relation> bySource = readPathRelationRDD(spark, inputRelationsPath)
-			.filter(rel -> rel.getDataInfo().getDeletedbyinference() == false)
-			.filter(rel -> relationFilter.contains(rel.getRelClass()) == false)
-			.mapToPair(r -> new Tuple2<>(SortableRelationKey.create(r, r.getSource()), r))
-			.repartitionAndSortWithinPartitions(new RelationPartitioner(relPartitions))
-			.groupBy(Tuple2::_1)
-			.map(Tuple2::_2)
-			.map(t -> Iterables.limit(t, maxRelations))
-			.flatMap(Iterable::iterator)
-			.map(Tuple2::_2)
-			.rdd();
+		JavaRDD<Relation> rels = readPathRelationRDD(spark, inputRelationsPath);

+        JavaRDD<Relation> pruned = pruneRels(
+        			pruneRels(rels, relationFilter, maxRelations, relPartitions, (Function<Relation, String>) r -> r.getSource()),
+						relationFilter, maxRelations, relPartitions, (Function<Relation, String>) r -> r.getTarget());
        spark
-			.createDataset(bySource, Encoders.bean(Relation.class))
+                .createDataset(pruned.rdd(), Encoders.bean(Relation.class))
                .repartition(relPartitions)
                .write()
                .mode(SaveMode.Overwrite)
                .parquet(outputPath);
    }

+	private static JavaRDD<Relation> pruneRels(JavaRDD<Relation> rels, Set<String> relationFilter, int maxRelations, int relPartitions, Function<Relation, String> idFn) {
+		return rels
+				.filter(rel -> rel.getDataInfo().getDeletedbyinference() == false)
+				.filter(rel -> relationFilter.contains(rel.getRelClass()) == false)
+				.mapToPair(r -> new Tuple2<>(SortableRelationKey.create(r, idFn.call(r)), r))
+				.repartitionAndSortWithinPartitions(new RelationPartitioner(relPartitions))
+				.groupBy(Tuple2::_1)
+				.map(Tuple2::_2)
+				.map(t -> Iterables.limit(t, maxRelations))
+				.flatMap(Iterable::iterator).map(Tuple2::_2);
+	}
+
    // experimental
    private static void prepareRelationsDataset(
            SparkSession spark, String inputRelationsPath, String outputPath, Set<String> relationFilter, int maxRelations,