trying to overcome OOM errors during duplicate scan phase

2020-07-08 22:39:51 +02:00 · 2020-07-08 22:39:51 +02:00 · 3c728aaa0c
parent 18c555cd79
commit 3c728aaa0c
1 changed files with 1 additions and 0 deletions
--- a/dhp-workflows/dhp-dedup-openaire/src/main/java/eu/dnetlib/dhp/oa/dedup/SparkCreateSimRels.java
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/java/eu/dnetlib/dhp/oa/dedup/SparkCreateSimRels.java
@ -88,6 +88,7 @@ public class SparkCreateSimRels extends AbstractSparkAction {
 			JavaPairRDD<String, MapDocument> mapDocuments = sc
 				.textFile(DedupUtility.createEntityPath(graphBasePath, subEntity))
 				.repartition(10000)
 				.mapToPair(
 					(PairFunction<String, String, MapDocument>) s -> {
 						MapDocument d = MapDocumentUtil.asMapDocumentWithJPath(dedupConf, s);