code refactoring (useless classes and wf removed), implementation of the test for the openorgs dedup

2021-03-29 16:10:46 +02:00 · 2021-03-29 16:10:46 +02:00 · f446580e9f
parent 2355cc4e9b
commit f446580e9f
18 changed files with 424 additions and 789 deletions
--- a/dhp-workflows/dhp-dedup-openaire/pom.xml
+++ b/dhp-workflows/dhp-dedup-openaire/pom.xml
@ -94,6 +94,12 @@
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
        </dependency>
+        <dependency>
+            <groupId>com.h2database</groupId>
+            <artifactId>h2</artifactId>
+            <version>1.4.200</version>
+            <scope>test</scope>
+        </dependency>
    </dependencies>


--- a/dhp-workflows/dhp-dedup-openaire/src/main/java/eu/dnetlib/dhp/oa/dedup/SparkCollectSimRels.java
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/java/eu/dnetlib/dhp/oa/dedup/SparkCollectSimRels.java
@ -1,184 +0,0 @@
-
-package eu.dnetlib.dhp.oa.dedup;
-
-import java.io.IOException;
-import java.util.ArrayList;
-import java.util.List;
-import java.util.Optional;
-import java.util.stream.Collectors;
-import java.util.stream.StreamSupport;
-
-import org.apache.commons.io.IOUtils;
-import org.apache.spark.SparkConf;
-import org.apache.spark.api.java.JavaPairRDD;
-import org.apache.spark.api.java.JavaRDD;
-import org.apache.spark.sql.*;
-import org.dom4j.DocumentException;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import eu.dnetlib.dhp.application.ArgumentApplicationParser;
-import eu.dnetlib.dhp.schema.oaf.DataInfo;
-import eu.dnetlib.dhp.schema.oaf.Relation;
-import eu.dnetlib.dhp.utils.ISLookupClientFactory;
-import eu.dnetlib.enabling.is.lookup.rmi.ISLookUpException;
-import eu.dnetlib.enabling.is.lookup.rmi.ISLookUpService;
-import eu.dnetlib.pace.config.DedupConfig;
-import scala.Tuple2;
-
-public class SparkCollectSimRels extends AbstractSparkAction {
-
-	private static final Logger log = LoggerFactory.getLogger(SparkCollectSimRels.class);
-
-	Dataset<Row> simGroupsDS;
-	Dataset<Row> groupsDS;
-
-	public SparkCollectSimRels(ArgumentApplicationParser parser, SparkSession spark, Dataset<Row> simGroupsDS,
-		Dataset<Row> groupsDS) {
-		super(parser, spark);
-		this.simGroupsDS = simGroupsDS;
-		this.groupsDS = groupsDS;
-	}
-
-	public static void main(String[] args) throws Exception {
-		ArgumentApplicationParser parser = new ArgumentApplicationParser(
-			IOUtils
-				.toString(
-					SparkBlockStats.class
-						.getResourceAsStream(
-							"/eu/dnetlib/dhp/oa/dedup/collectSimRels_parameters.json")));
-		parser.parseArgument(args);
-
-		SparkConf conf = new SparkConf();
-
-		final String dbUrl = parser.get("postgresUrl");
-		final String dbUser = parser.get("postgresUser");
-		final String dbPassword = parser.get("postgresPassword");
-
-		SparkSession spark = getSparkSession(conf);
-
-		DataFrameReader readOptions = spark
-			.read()
-			.format("jdbc")
-			.option("url", dbUrl)
-			.option("user", dbUser)
-			.option("password", dbPassword);
-
-		new SparkCollectSimRels(
-			parser,
-			spark,
-			readOptions.option("dbtable", "similarity_groups").load(),
-			readOptions.option("dbtable", "groups").load())
-				.run(ISLookupClientFactory.getLookUpService(parser.get("isLookUpUrl")));
-	}
-
-	@Override
-	void run(ISLookUpService isLookUpService) throws DocumentException, ISLookUpException, IOException {
-
-		// read oozie parameters
-		final String isLookUpUrl = parser.get("isLookUpUrl");
-		final String actionSetId = parser.get("actionSetId");
-		final String workingPath = parser.get("workingPath");
-		final int numPartitions = Optional
-			.ofNullable(parser.get("numPartitions"))
-			.map(Integer::valueOf)
-			.orElse(NUM_PARTITIONS);
-		final String dbUrl = parser.get("postgresUrl");
-		final String dbUser = parser.get("postgresUser");
-
-		log.info("numPartitions: '{}'", numPartitions);
-		log.info("isLookUpUrl:   '{}'", isLookUpUrl);
-		log.info("actionSetId:   '{}'", actionSetId);
-		log.info("workingPath:   '{}'", workingPath);
-		log.info("postgresUser: {}", dbUser);
-		log.info("postgresUrl: {}", dbUrl);
-		log.info("postgresPassword: xxx");
-
-		JavaPairRDD<String, List<String>> similarityGroup = simGroupsDS
-			.toJavaRDD()
-			.mapToPair(r -> new Tuple2<>(r.getString(0), r.getString(1)))
-			.groupByKey()
-			.mapToPair(
-				i -> new Tuple2<>(i._1(), StreamSupport
-					.stream(i._2().spliterator(), false)
-					.collect(Collectors.toList())));
-
-		JavaPairRDD<String, String> groupIds = groupsDS
-			.toJavaRDD()
-			.mapToPair(r -> new Tuple2<>(r.getString(0), r.getString(1)));
-
-		JavaRDD<Tuple2<Tuple2<String, String>, List<String>>> groups = similarityGroup
-			.leftOuterJoin(groupIds)
-			.filter(g -> g._2()._2().isPresent())
-			.map(g -> new Tuple2<>(new Tuple2<>(g._1(), g._2()._2().get()), g._2()._1()));
-
-		JavaRDD<Relation> relations = groups.flatMap(g -> {
-			String firstId = g._2().get(0);
-			List<Relation> rels = new ArrayList<>();
-
-			for (String id : g._2()) {
-				if (!firstId.equals(id))
-					rels.add(createSimRel(firstId, id, g._1()._2()));
-			}
-
-			return rels.iterator();
-		});
-
-		Dataset<Relation> resultRelations = spark
-			.createDataset(
-				relations.filter(r -> r.getRelType().equals("resultResult")).rdd(),
-				Encoders.bean(Relation.class))
-			.repartition(numPartitions);
-
-		Dataset<Relation> organizationRelations = spark
-			.createDataset(
-				relations.filter(r -> r.getRelType().equals("organizationOrganization")).rdd(),
-				Encoders.bean(Relation.class))
-			.repartition(numPartitions);
-
-		for (DedupConfig dedupConf : getConfigurations(isLookUpService, actionSetId)) {
-			switch (dedupConf.getWf().getSubEntityValue()) {
-				case "organization":
-					savePostgresRelation(organizationRelations, workingPath, actionSetId, "organization");
-					break;
-				default:
-					savePostgresRelation(
-						resultRelations, workingPath, actionSetId, dedupConf.getWf().getSubEntityValue());
-					break;
-			}
-		}
-
-	}
-
-	private Relation createSimRel(String source, String target, String entity) {
-		final Relation r = new Relation();
-		r.setSubRelType("dedupSimilarity");
-		r.setRelClass("isSimilarTo");
-		r.setDataInfo(new DataInfo());
-
-		switch (entity) {
-			case "result":
-				r.setSource("50|" + source);
-				r.setTarget("50|" + target);
-				r.setRelType("resultResult");
-				break;
-			case "organization":
-				r.setSource("20|" + source);
-				r.setTarget("20|" + target);
-				r.setRelType("organizationOrganization");
-				break;
-			default:
-				throw new IllegalArgumentException("unmanaged entity type: " + entity);
-		}
-		return r;
-	}
-
-	private void savePostgresRelation(Dataset<Relation> newRelations, String workingPath, String actionSetId,
-		String entityType) {
-		newRelations
-			.write()
-			.mode(SaveMode.Append)
-			.parquet(DedupUtility.createSimRelPath(workingPath, actionSetId, entityType));
-	}
-
-}
--- a/dhp-workflows/dhp-dedup-openaire/src/main/java/eu/dnetlib/dhp/oa/dedup/SparkCopyOpenorgsSimRels.java
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/java/eu/dnetlib/dhp/oa/dedup/SparkCopyOpenorgsSimRels.java
@ -9,6 +9,7 @@ import java.util.Optional;
 import org.apache.commons.io.IOUtils;
 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.JavaRDD;
+import org.apache.spark.api.java.function.ForeachFunction;
 import org.apache.spark.api.java.function.MapFunction;
 import org.apache.spark.graphx.Edge;
 import org.apache.spark.rdd.RDD;
--- a/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/collectSimRels_parameters.json
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/collectSimRels_parameters.json
@ -1,44 +0,0 @@
-[
-  {
-    "paramName": "la",
-    "paramLongName": "isLookUpUrl",
-    "paramDescription": "address for the LookUp",
-    "paramRequired": true
-  },
-  {
-    "paramName": "asi",
-    "paramLongName": "actionSetId",
-    "paramDescription": "action set identifier (name of the orchestrator)",
-    "paramRequired": true
-  },
-  {
-    "paramName": "w",
-    "paramLongName": "workingPath",
-    "paramDescription": "path of the working directory",
-    "paramRequired": true
-  },
-  {
-    "paramName": "np",
-    "paramLongName": "numPartitions",
-    "paramDescription": "number of partitions for the similarity relations intermediate phases",
-    "paramRequired": false
-  },
-  {
-    "paramName": "purl",
-    "paramLongName": "postgresUrl",
-    "paramDescription": "the url of the postgres server",
-    "paramRequired": true
-  },
-  {
-    "paramName": "pusr",
-    "paramLongName": "postgresUser",
-    "paramDescription": "the owner of the postgres database",
-    "paramRequired": true
-  },
-  {
-    "paramName": "ppwd",
-    "paramLongName": "postgresPassword",
-    "paramDescription": "the password for the postgres user",
-    "paramRequired": true
-  }
-]
--- a/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/neworgs/oozie_app/config-default.xml
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/neworgs/oozie_app/config-default.xml
@ -1,18 +0,0 @@
-<configuration>
-    <property>
-        <name>jobTracker</name>
-        <value>yarnRM</value>
-    </property>
-    <property>
-        <name>nameNode</name>
-        <value>hdfs://nameservice1</value>
-    </property>
-    <property>
-        <name>oozie.use.system.libpath</name>
-        <value>true</value>
-    </property>
-    <property>
-        <name>oozie.action.sharelib.for.spark</name>
-        <value>spark2</value>
-    </property>
-</configuration>
--- a/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/neworgs/oozie_app/workflow.xml
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/neworgs/oozie_app/workflow.xml
@ -1,208 +0,0 @@
-<workflow-app name="Organization Dedup" xmlns="uri:oozie:workflow:0.5">
-    <parameters>
-        <property>
-            <name>graphBasePath</name>
-            <description>the raw graph base path</description>
-        </property>
-        <property>
-            <name>isLookUpUrl</name>
-            <description>the address of the lookUp service</description>
-        </property>
-        <property>
-            <name>actionSetId</name>
-            <description>id of the actionSet</description>
-        </property>
-        <property>
-            <name>workingPath</name>
-            <description>path for the working directory</description>
-        </property>
-        <property>
-            <name>dedupGraphPath</name>
-            <description>path for the output graph</description>
-        </property>
-        <property>
-            <name>cutConnectedComponent</name>
-            <description>max number of elements in a connected component</description>
-        </property>
-        <property>
-            <name>dbUrl</name>
-            <description>the url of the database</description>
-        </property>
-        <property>
-            <name>dbUser</name>
-            <description>the user of the database</description>
-        </property>
-        <property>
-            <name>dbTable</name>
-            <description>the name of the table in the database</description>
-        </property>
-        <property>
-            <name>dbPwd</name>
-            <description>the passowrd of the user of the database</description>
-        </property>
-        <property>
-            <name>sparkDriverMemory</name>
-            <description>memory for driver process</description>
-        </property>
-        <property>
-            <name>sparkExecutorMemory</name>
-            <description>memory for individual executor</description>
-        </property>
-        <property>
-            <name>sparkExecutorCores</name>
-            <description>number of cores used by single executor</description>
-        </property>
-        <property>
-            <name>oozieActionShareLibForSpark2</name>
-            <description>oozie action sharelib for spark 2.*</description>
-        </property>
-        <property>
-            <name>spark2ExtraListeners</name>
-            <value>com.cloudera.spark.lineage.NavigatorAppListener</value>
-            <description>spark 2.* extra listeners classname</description>
-        </property>
-        <property>
-            <name>spark2SqlQueryExecutionListeners</name>
-            <value>com.cloudera.spark.lineage.NavigatorQueryListener</value>
-            <description>spark 2.* sql query execution listeners classname</description>
-        </property>
-        <property>
-            <name>spark2YarnHistoryServerAddress</name>
-            <description>spark 2.* yarn history server address</description>
-        </property>
-        <property>
-            <name>spark2EventLogDir</name>
-            <description>spark 2.* event log dir location</description>
-        </property>
-    </parameters>
-
-    <global>
-        <job-tracker>${jobTracker}</job-tracker>
-        <name-node>${nameNode}</name-node>
-        <configuration>
-            <property>
-                <name>mapreduce.job.queuename</name>
-                <value>${queueName}</value>
-            </property>
-            <property>
-                <name>oozie.launcher.mapred.job.queue.name</name>
-                <value>${oozieLauncherQueueName}</value>
-            </property>
-            <property>
-                <name>oozie.action.sharelib.for.spark</name>
-                <value>${oozieActionShareLibForSpark2}</value>
-            </property>
-        </configuration>
-    </global>
-
-    <start to="resetWorkingPath"/>
-
-    <kill name="Kill">
-        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
-    </kill>
-
-    <action name="resetWorkingPath">
-        <fs>
-            <delete path="${workingPath}"/>
-        </fs>
-        <ok to="copyRelations"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="copyRelations">
-        <distcp xmlns="uri:oozie:distcp-action:0.2">
-            <arg>-pb</arg>
-            <arg>${graphBasePath}/relation</arg>
-            <arg>${workingPath}/${actionSetId}/organization_simrel</arg>
-        </distcp>
-        <ok to="CreateSimRel"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="CreateSimRel">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Create Similarity Relations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkCreateSimRels</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--numPartitions</arg><arg>8000</arg>
-        </spark>
-        <ok to="CreateMergeRel"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="CreateMergeRel">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Create Merge Relations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkCreateMergeRels</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--cutConnectedComponent</arg><arg>${cutConnectedComponent}</arg>
-        </spark>
-        <ok to="PrepareNewOrgs"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="PrepareNewOrgs">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Prepare New Organizations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkPrepareNewOrgs</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--dbUrl</arg><arg>${dbUrl}</arg>
-            <arg>--dbTable</arg><arg>${dbTable}</arg>
-            <arg>--dbUser</arg><arg>${dbUser}</arg>
-            <arg>--dbPwd</arg><arg>${dbPwd}</arg>
-            <arg>--numConnections</arg><arg>20</arg>
-        </spark>
-        <ok to="End"/>
-        <error to="Kill"/>
-    </action>
-
-    <end name="End"/>
-</workflow-app>
--- a/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/orgsdedup/oozie_app/config-default.xml
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/orgsdedup/oozie_app/config-default.xml
@ -1,18 +0,0 @@
-<configuration>
-    <property>
-        <name>jobTracker</name>
-        <value>yarnRM</value>
-    </property>
-    <property>
-        <name>nameNode</name>
-        <value>hdfs://nameservice1</value>
-    </property>
-    <property>
-        <name>oozie.use.system.libpath</name>
-        <value>true</value>
-    </property>
-    <property>
-        <name>oozie.action.sharelib.for.spark</name>
-        <value>spark2</value>
-    </property>
-</configuration>
--- a/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/orgsdedup/oozie_app/workflow.xml
+++ b/dhp-workflows/dhp-dedup-openaire/src/main/resources/eu/dnetlib/dhp/oa/dedup/orgsdedup/oozie_app/workflow.xml
@ -1,240 +0,0 @@
-<workflow-app name="Organization Dedup" xmlns="uri:oozie:workflow:0.5">
-    <parameters>
-        <property>
-            <name>graphBasePath</name>
-            <description>the raw graph base path</description>
-        </property>
-        <property>
-            <name>isLookUpUrl</name>
-            <description>the address of the lookUp service</description>
-        </property>
-        <property>
-            <name>actionSetId</name>
-            <description>id of the actionSet</description>
-        </property>
-        <property>
-            <name>workingPath</name>
-            <description>path for the working directory</description>
-        </property>
-        <property>
-            <name>dedupGraphPath</name>
-            <description>path for the output graph</description>
-        </property>
-        <property>
-            <name>cutConnectedComponent</name>
-            <description>max number of elements in a connected component</description>
-        </property>
-        <property>
-            <name>dbUrl</name>
-            <description>the url of the database</description>
-        </property>
-        <property>
-            <name>dbUser</name>
-            <description>the user of the database</description>
-        </property>
-        <property>
-            <name>dbTable</name>
-            <description>the name of the table in the database</description>
-        </property>
-        <property>
-            <name>dbPwd</name>
-            <description>the passowrd of the user of the database</description>
-        </property>
-        <property>
-            <name>sparkDriverMemory</name>
-            <description>memory for driver process</description>
-        </property>
-        <property>
-            <name>sparkExecutorMemory</name>
-            <description>memory for individual executor</description>
-        </property>
-        <property>
-            <name>sparkExecutorCores</name>
-            <description>number of cores used by single executor</description>
-        </property>
-        <property>
-            <name>oozieActionShareLibForSpark2</name>
-            <description>oozie action sharelib for spark 2.*</description>
-        </property>
-        <property>
-            <name>spark2ExtraListeners</name>
-            <value>com.cloudera.spark.lineage.NavigatorAppListener</value>
-            <description>spark 2.* extra listeners classname</description>
-        </property>
-        <property>
-            <name>spark2SqlQueryExecutionListeners</name>
-            <value>com.cloudera.spark.lineage.NavigatorQueryListener</value>
-            <description>spark 2.* sql query execution listeners classname</description>
-        </property>
-        <property>
-            <name>spark2YarnHistoryServerAddress</name>
-            <description>spark 2.* yarn history server address</description>
-        </property>
-        <property>
-            <name>spark2EventLogDir</name>
-            <description>spark 2.* event log dir location</description>
-        </property>
-    </parameters>
-
-    <global>
-        <job-tracker>${jobTracker}</job-tracker>
-        <name-node>${nameNode}</name-node>
-        <configuration>
-            <property>
-                <name>mapreduce.job.queuename</name>
-                <value>${queueName}</value>
-            </property>
-            <property>
-                <name>oozie.launcher.mapred.job.queue.name</name>
-                <value>${oozieLauncherQueueName}</value>
-            </property>
-            <property>
-                <name>oozie.action.sharelib.for.spark</name>
-                <value>${oozieActionShareLibForSpark2}</value>
-            </property>
-        </configuration>
-    </global>
-
-    <start to="resetWorkingPath"/>
-
-    <kill name="Kill">
-        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
-    </kill>
-
-    <action name="resetWorkingPath">
-        <fs>
-            <delete path="${workingPath}"/>
-        </fs>
-        <ok to="copyRelations"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="copyRelations">
-        <distcp xmlns="uri:oozie:distcp-action:0.2">
-            <arg>-pb</arg>
-            <arg>/tmp/graph_openorgs_and_corda/relation</arg>
-            <arg>${workingPath}/${actionSetId}/organization_simrel</arg>
-        </distcp>
-        <ok to="CreateSimRel"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="CreateSimRel">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Create Similarity Relations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkCreateSimRels</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--numPartitions</arg><arg>8000</arg>
-        </spark>
-        <ok to="CreateMergeRel"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="CreateMergeRel">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Create Merge Relations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkCreateMergeRels</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--cutConnectedComponent</arg><arg>${cutConnectedComponent}</arg>
-        </spark>
-        <ok to="PrepareOrgRels"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="PrepareOrgRels">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Prepare Organization Relations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkPrepareOrgRels</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--dbUrl</arg><arg>${dbUrl}</arg>
-            <arg>--dbTable</arg><arg>${dbTable}</arg>
-            <arg>--dbUser</arg><arg>${dbUser}</arg>
-            <arg>--dbPwd</arg><arg>${dbPwd}</arg>
-            <arg>--numConnections</arg><arg>20</arg>
-        </spark>
-        <ok to="PrepareNewOrgs"/>
-        <error to="Kill"/>
-    </action>
-
-    <action name="PrepareNewOrgs">
-        <spark xmlns="uri:oozie:spark-action:0.2">
-            <master>yarn</master>
-            <mode>cluster</mode>
-            <name>Prepare New Organizations</name>
-            <class>eu.dnetlib.dhp.oa.dedup.SparkPrepareNewOrgs</class>
-            <jar>dhp-dedup-openaire-${projectVersion}.jar</jar>
-            <spark-opts>
-                --executor-memory=${sparkExecutorMemory}
-                --executor-cores=${sparkExecutorCores}
-                --driver-memory=${sparkDriverMemory}
-                --conf spark.extraListeners=${spark2ExtraListeners}
-                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
-                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
-                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
-                --conf spark.sql.shuffle.partitions=3840
-            </spark-opts>
-            <arg>--graphBasePath</arg><arg>${graphBasePath}</arg>
-            <arg>--workingPath</arg><arg>${workingPath}</arg>
-            <arg>--isLookUpUrl</arg><arg>${isLookUpUrl}</arg>
-            <arg>--actionSetId</arg><arg>${actionSetId}</arg>
-            <arg>--apiUrl</arg><arg>${apiUrl}</arg>
-            <arg>--dbUrl</arg><arg>${dbUrl}</arg>
-            <arg>--dbTable</arg><arg>${dbTable}</arg>
-            <arg>--dbUser</arg><arg>${dbUser}</arg>
-            <arg>--dbPwd</arg><arg>${dbPwd}</arg>
-            <arg>--numConnections</arg><arg>20</arg>
-        </spark>
-        <ok to="End"/>
-        <error to="Kill"/>
-    </action>
-
-    <end name="End"/>
-</workflow-app>
--- a/dhp-workflows/dhp-dedup-openaire/src/test/java/eu/dnetlib/dhp/oa/dedup/SparkDedupTest.java
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/java/eu/dnetlib/dhp/oa/dedup/SparkDedupTest.java
@ -204,76 +204,8 @@ public class SparkDedupTest implements Serializable {
 		assertEquals(6750, orp_simrel);
 	}

-	@Disabled
 	@Test
 	@Order(2)
-	public void collectSimRelsTest() throws Exception {
-		ArgumentApplicationParser parser = new ArgumentApplicationParser(
-			IOUtils
-				.toString(
-					SparkCollectSimRels.class
-						.getResourceAsStream(
-							"/eu/dnetlib/dhp/oa/dedup/collectSimRels_parameters.json")));
-		parser
-			.parseArgument(
-				new String[] {
-					"-asi", testActionSetId,
-					"-la", "lookupurl",
-					"-w", testOutputBasePath,
-					"-np", "50",
-					"-purl", "jdbc:postgresql://localhost:5432/dnet_dedup",
-					"-pusr", "postgres_user",
-					"-ppwd", ""
-				});
-
-		new SparkCollectSimRels(
-			parser,
-			spark,
-			spark.read().load(testDedupAssertionsBasePath + "/similarity_groups"),
-			spark.read().load(testDedupAssertionsBasePath + "/groups"))
-				.run(isLookUpService);
-
-		long orgs_simrel = spark
-			.read()
-			.load(testOutputBasePath + "/" + testActionSetId + "/organization_simrel")
-			.count();
-
-		long pubs_simrel = spark
-			.read()
-			.load(testOutputBasePath + "/" + testActionSetId + "/publication_simrel")
-			.count();
-
-		long sw_simrel = spark
-			.read()
-			.load(testOutputBasePath + "/" + testActionSetId + "/software_simrel")
-			.count();
-
-		long ds_simrel = spark
-			.read()
-			.load(testOutputBasePath + "/" + testActionSetId + "/dataset_simrel")
-			.count();
-
-		long orp_simrel = spark
-			.read()
-			.json(testOutputBasePath + "/" + testActionSetId + "/otherresearchproduct_simrel")
-			.count();
-
-//		System.out.println("orgs_simrel = " + orgs_simrel);
-//		System.out.println("pubs_simrel = " + pubs_simrel);
-//		System.out.println("sw_simrel = " + sw_simrel);
-//		System.out.println("ds_simrel = " + ds_simrel);
-//		System.out.println("orp_simrel = " + orp_simrel);
-
-		assertEquals(3672, orgs_simrel);
-		assertEquals(10459, pubs_simrel);
-		assertEquals(3767, sw_simrel);
-		assertEquals(3865, ds_simrel);
-		assertEquals(10173, orp_simrel);
-
-	}
-
-	@Test
-	@Order(3)
 	public void cutMergeRelsTest() throws Exception {

 		ArgumentApplicationParser parser = new ArgumentApplicationParser(
@ -369,7 +301,7 @@ public class SparkDedupTest implements Serializable {
 	}

 	@Test
-	@Order(4)
+	@Order(3)
 	public void createMergeRelsTest() throws Exception {

 		ArgumentApplicationParser parser = new ArgumentApplicationParser(
@ -424,7 +356,7 @@ public class SparkDedupTest implements Serializable {
 	}

 	@Test
-	@Order(5)
+	@Order(4)
 	public void createDedupRecordTest() throws Exception {

 		ArgumentApplicationParser parser = new ArgumentApplicationParser(
@ -471,7 +403,7 @@ public class SparkDedupTest implements Serializable {
 	}

 	@Test
-	@Order(6)
+	@Order(5)
 	public void updateEntityTest() throws Exception {

 		ArgumentApplicationParser parser = new ArgumentApplicationParser(
@ -587,7 +519,7 @@ public class SparkDedupTest implements Serializable {
 	}

 	@Test
-	@Order(7)
+	@Order(6)
 	public void propagateRelationTest() throws Exception {

 		ArgumentApplicationParser parser = new ArgumentApplicationParser(
@ -637,7 +569,7 @@ public class SparkDedupTest implements Serializable {
 	}

 	@Test
-	@Order(8)
+	@Order(7)
 	public void testRelations() throws Exception {
 		testUniqueness("/eu/dnetlib/dhp/dedup/test/relation_1.json", 12, 10);
 		testUniqueness("/eu/dnetlib/dhp/dedup/test/relation_2.json", 10, 2);
--- a/dhp-workflows/dhp-dedup-openaire/src/test/java/eu/dnetlib/dhp/oa/dedup/SparkOpenorgsDedupTest.java
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/java/eu/dnetlib/dhp/oa/dedup/SparkOpenorgsDedupTest.java
@ -0,0 +1,408 @@
+
+package eu.dnetlib.dhp.oa.dedup;
+
+import static java.nio.file.Files.createTempDirectory;
+
+import static org.apache.spark.sql.functions.count;
+import static org.junit.jupiter.api.Assertions.*;
+import static org.mockito.Mockito.lenient;
+
+import java.io.File;
+import java.io.IOException;
+import java.io.Serializable;
+import java.net.URISyntaxException;
+import java.nio.file.Paths;
+import java.sql.Connection;
+import java.sql.DriverManager;
+import java.sql.ResultSet;
+import java.util.ArrayList;
+import java.util.Collections;
+import java.util.List;
+import java.util.Properties;
+
+import org.apache.commons.io.FileUtils;
+import org.apache.commons.io.IOUtils;
+import org.apache.spark.SparkConf;
+import org.apache.spark.api.java.JavaPairRDD;
+import org.apache.spark.api.java.JavaRDD;
+import org.apache.spark.api.java.JavaSparkContext;
+import org.apache.spark.api.java.function.FilterFunction;
+import org.apache.spark.api.java.function.ForeachFunction;
+import org.apache.spark.api.java.function.MapFunction;
+import org.apache.spark.api.java.function.PairFunction;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Encoders;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.util.CollectionsUtils;
+import org.junit.jupiter.api.*;
+import org.junit.jupiter.api.extension.ExtendWith;
+import org.junit.platform.commons.util.StringUtils;
+import org.mockito.Mock;
+import org.mockito.Mockito;
+import org.mockito.junit.jupiter.MockitoExtension;
+
+import com.fasterxml.jackson.databind.DeserializationFeature;
+import com.fasterxml.jackson.databind.ObjectMapper;
+
+import eu.dnetlib.dhp.application.ArgumentApplicationParser;
+import eu.dnetlib.dhp.schema.oaf.OafMapperUtils;
+import eu.dnetlib.dhp.schema.oaf.Organization;
+import eu.dnetlib.dhp.schema.oaf.Relation;
+import eu.dnetlib.dhp.utils.DHPUtils;
+import eu.dnetlib.enabling.is.lookup.rmi.ISLookUpException;
+import eu.dnetlib.enabling.is.lookup.rmi.ISLookUpService;
+import eu.dnetlib.pace.util.MapDocumentUtil;
+import scala.Tuple2;
+
+@ExtendWith(MockitoExtension.class)
+@TestMethodOrder(MethodOrderer.OrderAnnotation.class)
+public class SparkOpenorgsDedupTest implements Serializable {
+
+	private static String dbUrl = "jdbc:h2:mem:openorgs_test;DB_CLOSE_DELAY=-1;DATABASE_TO_UPPER=false";
+	private static String dbUser = "sa";
+	private static String dbTable = "tmp_dedup_events";
+	private static String dbPwd = "";
+
+	@Mock(serializable = true)
+	ISLookUpService isLookUpService;
+
+	protected static final ObjectMapper OBJECT_MAPPER = new ObjectMapper()
+		.configure(DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES, false);
+
+	private static SparkSession spark;
+	private static JavaSparkContext jsc;
+
+	private static String testGraphBasePath;
+	private static String testOutputBasePath;
+	private static String testDedupGraphBasePath;
+	private static final String testActionSetId = "test-orchestrator-openorgs";
+
+	@BeforeAll
+	public static void cleanUp() throws IOException, URISyntaxException {
+
+		testGraphBasePath = Paths
+			.get(SparkDedupTest.class.getResource("/eu/dnetlib/dhp/dedup/openorgs_dedup").toURI())
+			.toFile()
+			.getAbsolutePath();
+		testOutputBasePath = createTempDirectory(SparkDedupTest.class.getSimpleName() + "-")
+			.toAbsolutePath()
+			.toString();
+		testDedupGraphBasePath = createTempDirectory(SparkDedupTest.class.getSimpleName() + "-")
+			.toAbsolutePath()
+			.toString();
+
+		FileUtils.deleteDirectory(new File(testOutputBasePath));
+		FileUtils.deleteDirectory(new File(testDedupGraphBasePath));
+
+		final SparkConf conf = new SparkConf();
+		conf.set("spark.sql.shuffle.partitions", "200");
+		spark = SparkSession
+			.builder()
+			.appName(SparkDedupTest.class.getSimpleName())
+			.master("local[*]")
+			.config(conf)
+			.getOrCreate();
+
+		jsc = JavaSparkContext.fromSparkContext(spark.sparkContext());
+
+	}
+
+	@BeforeEach
+	public void setUp() throws IOException, ISLookUpException {
+
+		lenient()
+			.when(isLookUpService.getResourceProfileByQuery(Mockito.contains(testActionSetId)))
+			.thenReturn(
+				IOUtils
+					.toString(
+						SparkDedupTest.class
+							.getResourceAsStream(
+								"/eu/dnetlib/dhp/dedup/profiles/mock_orchestrator_openorgs.xml")));
+
+		lenient()
+			.when(isLookUpService.getResourceProfileByQuery(Mockito.contains("organization")))
+			.thenReturn(
+				IOUtils
+					.toString(
+						SparkDedupTest.class
+							.getResourceAsStream(
+								"/eu/dnetlib/dhp/dedup/conf/org.curr.conf.json")));
+	}
+
+	@Test
+	@Order(1)
+	public void createSimRelsTest() throws Exception {
+
+		ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					SparkCreateSimRels.class
+						.getResourceAsStream(
+							"/eu/dnetlib/dhp/oa/dedup/createSimRels_parameters.json")));
+
+		parser
+			.parseArgument(
+				new String[] {
+					"-i", testGraphBasePath,
+					"-asi", testActionSetId,
+					"-la", "lookupurl",
+					"-w", testOutputBasePath,
+					"-np", "50"
+				});
+
+		new SparkCreateSimRels(parser, spark).run(isLookUpService);
+
+		long orgs_simrel = spark
+			.read()
+			.load(DedupUtility.createSimRelPath(testOutputBasePath, testActionSetId, "organization"))
+			.count();
+
+		assertEquals(288, orgs_simrel);
+	}
+
+	@Test
+	@Order(2)
+	public void copyOpenorgsSimRels() throws Exception {
+		ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					SparkCopyOpenorgsSimRels.class
+						.getResourceAsStream(
+							"/eu/dnetlib/dhp/oa/dedup/copyOpenorgsMergeRels_parameters.json")));
+		parser
+			.parseArgument(
+				new String[] {
+					"-i", testGraphBasePath,
+					"-asi", testActionSetId,
+					"-w", testOutputBasePath,
+					"-la", "lookupurl",
+					"-np", "50"
+				});
+
+		new SparkCopyOpenorgsSimRels(parser, spark).run(isLookUpService);
+
+		long orgs_simrel = spark
+			.read()
+			.load(DedupUtility.createSimRelPath(testOutputBasePath, testActionSetId, "organization"))
+			.count();
+
+		assertEquals(324, orgs_simrel);
+	}
+
+	@Test
+	@Order(3)
+	public void createMergeRelsTest() throws Exception {
+
+		ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					SparkCreateMergeRels.class
+						.getResourceAsStream(
+							"/eu/dnetlib/dhp/oa/dedup/createCC_parameters.json")));
+
+		parser
+			.parseArgument(
+				new String[] {
+					"-i",
+					testGraphBasePath,
+					"-asi",
+					testActionSetId,
+					"-la",
+					"lookupurl",
+					"-w",
+					testOutputBasePath
+				});
+
+		new SparkCreateMergeRels(parser, spark).run(isLookUpService);
+
+		long orgs_mergerel = spark
+			.read()
+			.load(testOutputBasePath + "/" + testActionSetId + "/organization_mergerel")
+			.count();
+		assertEquals(132, orgs_mergerel);
+
+		// verify that a DiffRel is in the mergerels (to be sure that the job supposed to remove them has something to
+		// do)
+		List<String> diffRels = jsc
+			.textFile(DedupUtility.createEntityPath(testGraphBasePath, "relation"))
+			.map(s -> OBJECT_MAPPER.readValue(s, Relation.class))
+			.filter(r -> r.getRelClass().equals("isDifferentFrom"))
+			.map(r -> r.getTarget())
+			.collect();
+		assertEquals(18, diffRels.size());
+
+		List<String> mergeRels = spark
+			.read()
+			.load(testOutputBasePath + "/" + testActionSetId + "/organization_mergerel")
+			.as(Encoders.bean(Relation.class))
+			.toJavaRDD()
+			.map(r -> r.getTarget())
+			.collect();
+		assertFalse(Collections.disjoint(mergeRels, diffRels));
+
+	}
+
+	@Test
+	@Order(4)
+	public void prepareOrgRelsTest() throws Exception {
+		ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					SparkCreateSimRels.class
+						.getResourceAsStream(
+							"/eu/dnetlib/dhp/oa/dedup/prepareOrgRels_parameters.json")));
+		parser
+			.parseArgument(
+				new String[] {
+					"-i",
+					testGraphBasePath,
+					"-asi",
+					testActionSetId,
+					"-la",
+					"lookupurl",
+					"-w",
+					testOutputBasePath,
+					"-du",
+					dbUrl,
+					"-dusr",
+					dbUser,
+					"-t",
+					dbTable,
+					"-dpwd",
+					dbPwd
+				});
+
+		new SparkPrepareOrgRels(parser, spark).run(isLookUpService);
+
+		final Properties connectionProperties = new Properties();
+		connectionProperties.put("user", dbUser);
+		connectionProperties.put("password", dbPwd);
+
+		Connection connection = DriverManager.getConnection(dbUrl, connectionProperties);
+
+		ResultSet resultSet = connection
+			.prepareStatement("SELECT COUNT(*) as total_rels FROM " + dbTable)
+			.executeQuery();
+		if (resultSet.next()) {
+			int total_rels = resultSet.getInt("total_rels");
+			assertEquals(32, total_rels);
+		} else
+			fail("No result in the sql DB");
+		resultSet.close();
+
+		// verify the number of organizations with duplicates
+		ResultSet resultSet2 = connection
+			.prepareStatement("SELECT COUNT(DISTINCT(local_id)) as total_orgs FROM " + dbTable)
+			.executeQuery();
+		if (resultSet2.next()) {
+			int total_orgs = resultSet2.getInt("total_orgs");
+			assertEquals(6, total_orgs);
+		} else
+			fail("No result in the sql DB");
+		resultSet2.close();
+
+		// verify that no DiffRel is in the DB
+		List<String> diffRels = jsc
+			.textFile(DedupUtility.createEntityPath(testGraphBasePath, "relation"))
+			.map(s -> OBJECT_MAPPER.readValue(s, Relation.class))
+			.filter(r -> r.getRelClass().equals("isDifferentFrom"))
+			.map(r -> r.getSource() + "@@@" + r.getTarget())
+			.collect();
+
+		List<String> dbRels = new ArrayList<>();
+		ResultSet resultSet3 = connection
+			.prepareStatement("SELECT local_id, oa_original_id FROM " + dbTable)
+			.executeQuery();
+		while (resultSet3.next()) {
+			String source = OafMapperUtils.createOpenaireId("organization", resultSet3.getString("local_id"), true);
+			String target = OafMapperUtils
+				.createOpenaireId("organization", resultSet3.getString("oa_original_id"), true);
+			dbRels.add(source + "@@@" + target);
+		}
+		resultSet3.close();
+		assertTrue(Collections.disjoint(dbRels, diffRels));
+
+		connection.close();
+	}
+
+	@Test
+	@Order(5)
+	public void prepareNewOrgsTest() throws Exception {
+		ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					SparkCreateSimRels.class
+						.getResourceAsStream(
+							"/eu/dnetlib/dhp/oa/dedup/prepareNewOrgs_parameters.json")));
+		parser
+			.parseArgument(
+				new String[] {
+					"-i",
+					testGraphBasePath,
+					"-asi",
+					testActionSetId,
+					"-la",
+					"lookupurl",
+					"-w",
+					testOutputBasePath,
+					"-du",
+					dbUrl,
+					"-dusr",
+					dbUser,
+					"-t",
+					dbTable,
+					"-dpwd",
+					dbPwd
+				});
+
+		new SparkPrepareNewOrgs(parser, spark).run(isLookUpService);
+
+		final Properties connectionProperties = new Properties();
+		connectionProperties.put("user", dbUser);
+		connectionProperties.put("password", dbPwd);
+
+		long orgs_in_diffrel = jsc
+			.textFile(DedupUtility.createEntityPath(testGraphBasePath, "relation"))
+			.map(s -> OBJECT_MAPPER.readValue(s, Relation.class))
+			.filter(r -> r.getRelClass().equals("isDifferentFrom"))
+			.map(r -> r.getTarget())
+			.distinct()
+			.count();
+
+		Connection connection = DriverManager.getConnection(dbUrl, connectionProperties);
+
+		jsc
+			.textFile(DedupUtility.createEntityPath(testGraphBasePath, "relation"))
+			.map(s -> OBJECT_MAPPER.readValue(s, Relation.class))
+			.filter(r -> r.getRelClass().equals("isDifferentFrom"))
+			.map(r -> r.getTarget())
+			.distinct()
+			.foreach(s -> System.out.println("difforgs = " + s));
+		ResultSet resultSet0 = connection
+			.prepareStatement("SELECT oa_original_id FROM " + dbTable + " WHERE local_id = ''")
+			.executeQuery();
+		while (resultSet0.next())
+			System.out
+				.println(
+					"dborgs = " + OafMapperUtils.createOpenaireId(20, resultSet0.getString("oa_original_id"), true));
+		resultSet0.close();
+
+		ResultSet resultSet = connection
+			.prepareStatement("SELECT COUNT(*) as total_new_orgs FROM " + dbTable + " WHERE local_id = ''")
+			.executeQuery();
+		if (resultSet.next()) {
+			int total_new_orgs = resultSet.getInt("total_new_orgs");
+			assertEquals(orgs_in_diffrel + 1, total_new_orgs);
+		} else
+			fail("No result in the sql DB");
+		resultSet.close();
+	}
+
+	@AfterAll
+	public static void finalCleanUp() throws IOException {
+		FileUtils.deleteDirectory(new File(testOutputBasePath));
+		FileUtils.deleteDirectory(new File(testDedupGraphBasePath));
+	}
+
+}
--- a/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/organization/part-00000-5248a339-09c4-4aa5-83fe-4cc5405607ad-c000.txt.gz
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/organization/part-00000-5248a339-09c4-4aa5-83fe-4cc5405607ad-c000.txt.gz
--- a/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/organization/part-00001-5248a339-09c4-4aa5-83fe-4cc5405607ad-c000.txt.gz
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/organization/part-00001-5248a339-09c4-4aa5-83fe-4cc5405607ad-c000.txt.gz
--- a/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/organization/part-00002-5248a339-09c4-4aa5-83fe-4cc5405607ad-c000.txt.gz
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/organization/part-00002-5248a339-09c4-4aa5-83fe-4cc5405607ad-c000.txt.gz
--- a/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/relation/part-00000-94553c9f-4ae6-4db9-919d-85ddc0a60f92-c000.txt.gz
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/relation/part-00000-94553c9f-4ae6-4db9-919d-85ddc0a60f92-c000.txt.gz
--- a/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/relation/part-00003-94553c9f-4ae6-4db9-919d-85ddc0a60f92-c000.txt.gz
+++ b/dhp-workflows/dhp-dedup-openaire/src/test/resources/eu/dnetlib/dhp/dedup/openorgs_dedup/relation/part-00003-94553c9f-4ae6-4db9-919d-85ddc0a60f92-c000.txt.gz
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/sql/queryOpenOrgsForOrgsDedup.sql
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/sql/queryOpenOrgsForOrgsDedup.sql
@ -39,9 +39,9 @@ GROUP BY
 	o.creation_date,
 	o.modification_date,
 	o.country
-	
+
 UNION ALL
-	
+
 SELECT
 	'openorgsmesh'||substring(o.id, 13)||'-'||md5(n.name)                                                                         AS organizationid,
 	n.name                                                                                                                        AS legalshortname,
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/sql/queryOpenOrgsSimilarityForOrgsDedup.sql
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/sql/queryOpenOrgsSimilarityForOrgsDedup.sql
@ -40,4 +40,4 @@ SELECT
 	0.99                                                  AS trust,
 	''                                                    AS inferenceprovenance,
 	'isDifferentFrom'                                     AS relclass
-FROM oa_duplicates WHERE reltype = 'is_different'
+FROM oa_duplicates WHERE reltype = 'is_different';
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/sql/queryOrganizations.sql
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/oa/graph/sql/queryOrganizations.sql
@ -50,4 +50,4 @@ GROUP BY
 	o.trust,
 	d.id,
 	d.officialname,
-	o.country;
+	o.country;