experimenting with pruning of relations

2020-07-10 10:06:41 +02:00 · 2020-07-10 10:06:41 +02:00 · ff4d6214f1
parent 67e1d222b6
commit ff4d6214f1
1 changed files with 174 additions and 170 deletions
--- a/dhp-workflows/dhp-graph-provision/src/main/java/eu/dnetlib/dhp/oa/provision/PrepareRelationsJob.java
+++ b/dhp-workflows/dhp-graph-provision/src/main/java/eu/dnetlib/dhp/oa/provision/PrepareRelationsJob.java
@ -135,27 +135,31 @@ public class PrepareRelationsJob {
    private static void prepareRelationsRDD(SparkSession spark, String inputRelationsPath, String outputPath,
                                            Set<String> relationFilter, int maxRelations, int relPartitions) {
-		// group by SOURCE and apply limit
+		JavaRDD<Relation> rels = readPathRelationRDD(spark, inputRelationsPath);
 		RDD<Relation> bySource = readPathRelationRDD(spark, inputRelationsPath)
 			.filter(rel -> rel.getDataInfo().getDeletedbyinference() == false)
 			.filter(rel -> relationFilter.contains(rel.getRelClass()) == false)
 			.mapToPair(r -> new Tuple2<>(SortableRelationKey.create(r, r.getSource()), r))
 			.repartitionAndSortWithinPartitions(new RelationPartitioner(relPartitions))
 			.groupBy(Tuple2::_1)
 			.map(Tuple2::_2)
 			.map(t -> Iterables.limit(t, maxRelations))
 			.flatMap(Iterable::iterator)
 			.map(Tuple2::_2)
 			.rdd();
        JavaRDD<Relation> pruned = pruneRels(
        			pruneRels(rels, relationFilter, maxRelations, relPartitions, (Function<Relation, String>) r -> r.getSource()),
 						relationFilter, maxRelations, relPartitions, (Function<Relation, String>) r -> r.getTarget());
        spark
-			.createDataset(bySource, Encoders.bean(Relation.class))
+                .createDataset(pruned.rdd(), Encoders.bean(Relation.class))
                .repartition(relPartitions)
                .write()
                .mode(SaveMode.Overwrite)
                .parquet(outputPath);
    }
 	private static JavaRDD<Relation> pruneRels(JavaRDD<Relation> rels, Set<String> relationFilter, int maxRelations, int relPartitions, Function<Relation, String> idFn) {
 		return rels
 				.filter(rel -> rel.getDataInfo().getDeletedbyinference() == false)
 				.filter(rel -> relationFilter.contains(rel.getRelClass()) == false)
 				.mapToPair(r -> new Tuple2<>(SortableRelationKey.create(r, idFn.call(r)), r))
 				.repartitionAndSortWithinPartitions(new RelationPartitioner(relPartitions))
 				.groupBy(Tuple2::_1)
 				.map(Tuple2::_2)
 				.map(t -> Iterables.limit(t, maxRelations))
 				.flatMap(Iterable::iterator).map(Tuple2::_2);
 	}
    // experimental
    private static void prepareRelationsDataset(
            SparkSession spark, String inputRelationsPath, String outputPath, Set<String> relationFilter, int maxRelations,