minor fix

erge branch 'dedup-with-dataframe-spark34' of code-repo.d4science.org:D-Net/dnet-hadoop into dedup-with-dataframe-spark34
improved scholix generation using bean
2023-08-02 12:12:20 +02:00 · 2023-07-19 16:55:19 +02:00 · 2023-07-19 16:53:28 +02:00 · 2023-07-17 17:01:07 +02:00 · 2023-07-14 16:05:14 +02:00 · 2023-07-12 10:32:25 +02:00
180 changed files with 26937 additions and 1000 deletions
--- a/dhp-common/pom.xml
+++ b/dhp-common/pom.xml
@ -52,6 +52,8 @@
 					</execution>
 				</executions>
 				<configuration>
 					<failOnMultipleScalaVersions>true</failOnMultipleScalaVersions>
 					<scalaCompatVersion>${scala.binary.version}</scalaCompatVersion>
 					<scalaVersion>${scala.version}</scalaVersion>
 				</configuration>
 			</plugin>
@ -76,11 +78,11 @@
 		<dependency>
 			<groupId>org.apache.spark</groupId>
-			<artifactId>spark-core_2.11</artifactId>
+			<artifactId>spark-core_${scala.binary.version}</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.apache.spark</groupId>
-			<artifactId>spark-sql_2.11</artifactId>
+			<artifactId>spark-sql_${scala.binary.version}</artifactId>
 		</dependency>
 		<dependency>
@ -122,6 +124,12 @@
 		<dependency>
 			<groupId>eu.dnetlib</groupId>
 			<artifactId>cnr-rmi-api</artifactId>
 			<exclusions>
 				<exclusion>
 					<groupId>log4j</groupId>
 					<artifactId>log4j</artifactId>
 				</exclusion>
 			</exclusions>
 		</dependency>
 		<dependency>
@ -143,8 +151,8 @@
 		</dependency>
 		<dependency>
-			<groupId>eu.dnetlib</groupId>
+			<groupId>eu.dnetlib.dhp</groupId>
-			<artifactId>dnet-pace-core</artifactId>
+			<artifactId>dhp-pace-core</artifactId>
 		</dependency>
 		<dependency>
@ -159,7 +167,7 @@
 		<dependency>
 			<groupId>eu.dnetlib.dhp</groupId>
-			<artifactId>dhp-schemas</artifactId>
+			<artifactId>dhp-schemas_${scala.binary.version}</artifactId>
 		</dependency>
 		<dependency>
--- a/dhp-common/src/main/scala/eu/dnetlib/dhp/sx/graph/scholix/ScholixUtils.scala
+++ b/dhp-common/src/main/scala/eu/dnetlib/dhp/sx/graph/scholix/ScholixUtils.scala
@ -50,13 +50,10 @@ object ScholixUtils extends Serializable {
    }
  }
-  def extractRelationDate(summary: ScholixSummary): String = {
+  def extractRelationDate(summary: ScholixResource): String = {
    summary.getPublicationDate
    if (summary.getDate == null || summary.getDate.isEmpty)
      null
    else {
      summary.getDate.get(0)
    }
  }
  def inverseRelationShip(rel: ScholixRelationship): ScholixRelationship = {
@ -144,11 +141,7 @@ object ScholixUtils extends Serializable {
    s.setRelationship(inverseRelationShip(scholix.getRelationship))
    s.setSource(scholix.getTarget)
    s.setTarget(scholix.getSource)
-    s.setIdentifier(
+    updateId(s)
      DHPUtils.md5(
        s"${s.getSource.getIdentifier}::${s.getRelationship.getName}::${s.getTarget.getIdentifier}"
      )
    )
    s
  }
@ -187,6 +180,21 @@ object ScholixUtils extends Serializable {
    } else List()
  }
  def updateId(scholix: Scholix): Scholix = {
    scholix.setIdentifier(
      generateIdentifier(
        scholix.getSource.getDnetIdentifier,
        scholix.getTarget.getDnetIdentifier,
        scholix.getRelationship.getName
      )
    )
    scholix
  }
  def generateIdentifier(sourceId: String, targetId: String, relation: String): String = {
    DHPUtils.md5(s"$sourceId::$relation::$targetId")
  }
  def generateCompleteScholix(scholix: Scholix, target: ScholixSummary): Scholix = {
    val s = new Scholix
    s.setPublicationDate(scholix.getPublicationDate)
@ -195,11 +203,7 @@ object ScholixUtils extends Serializable {
    s.setRelationship(scholix.getRelationship)
    s.setSource(scholix.getSource)
    s.setTarget(generateScholixResourceFromSummary(target))
-    s.setIdentifier(
+    updateId(s)
      DHPUtils.md5(
        s"${s.getSource.getIdentifier}::${s.getRelationship.getName}::${s.getTarget.getIdentifier}"
      )
    )
    s
  }
@ -211,11 +215,7 @@ object ScholixUtils extends Serializable {
    s.setRelationship(scholix.getRelationship)
    s.setSource(scholix.getSource)
    s.setTarget(target)
-    s.setIdentifier(
+    updateId(s)
      DHPUtils.md5(
        s"${s.getSource.getIdentifier}::${s.getRelationship.getName}::${s.getTarget.getIdentifier}"
      )
    )
    s
  }
@ -232,7 +232,7 @@ object ScholixUtils extends Serializable {
    if (summaryObject.getAuthor != null && !summaryObject.getAuthor.isEmpty) {
      val l: List[ScholixEntityId] =
-        summaryObject.getAuthor.asScala.map(a => new ScholixEntityId(a, null)).toList
+        summaryObject.getAuthor.asScala.map(a => new ScholixEntityId(a, null)).take(100).toList
      if (l.nonEmpty)
        r.setCreator(l.asJava)
    }
@ -241,7 +241,7 @@ object ScholixUtils extends Serializable {
      r.setPublicationDate(summaryObject.getDate.get(0))
    if (summaryObject.getPublisher != null && !summaryObject.getPublisher.isEmpty) {
      val plist: List[ScholixEntityId] =
-        summaryObject.getPublisher.asScala.map(p => new ScholixEntityId(p, null)).toList
+        summaryObject.getPublisher.asScala.map(p => new ScholixEntityId(p, null)).take(100).toList
      if (plist.nonEmpty)
        r.setPublisher(plist.asJava)
@ -260,6 +260,7 @@ object ScholixUtils extends Serializable {
            "complete"
          )
        )
        .take(100)
        .toList
      if (l.nonEmpty)
@ -269,38 +270,38 @@ object ScholixUtils extends Serializable {
    r
  }
 //  def scholixFromSource(relation: Relation, source: ScholixResource): Scholix = {
 //    if (relation == null || source == null)
 //      return null
 //    val s = new Scholix
 //    var l: List[ScholixEntityId] = extractCollectedFrom(relation)
 //    if (l.isEmpty)
 //      l = extractCollectedFrom(source)
 //    if (l.isEmpty)
 //      return null
 //    s.setLinkprovider(l.asJava)
 //    var d = extractRelationDate(relation)
 //    if (d == null)
 //      d = source.getPublicationDate
 //
 //    s.setPublicationDate(d)
 //
 //    if (source.getPublisher != null && !source.getPublisher.isEmpty) {
 //      s.setPublisher(source.getPublisher)
 //    }
 //
 //    val semanticRelation = relations.getOrElse(relation.getRelClass.toLowerCase, null)
 //    if (semanticRelation == null)
 //      return null
 //    s.setRelationship(
 //      new ScholixRelationship(semanticRelation.original, "datacite", semanticRelation.inverse)
 //    )
 //    s.setSource(source)
 //
 //    s
 //  }
  def scholixFromSource(relation: Relation, source: ScholixResource): Scholix = {
    if (relation == null || source == null)
      return null
    val s = new Scholix
    var l: List[ScholixEntityId] = extractCollectedFrom(relation)
    if (l.isEmpty)
      l = extractCollectedFrom(source)
    if (l.isEmpty)
      return null
    s.setLinkprovider(l.asJava)
    var d = extractRelationDate(relation)
    if (d == null)
      d = source.getPublicationDate
    s.setPublicationDate(d)
    if (source.getPublisher != null && !source.getPublisher.isEmpty) {
      s.setPublisher(source.getPublisher)
    }
    val semanticRelation = relations.getOrElse(relation.getRelClass.toLowerCase, null)
    if (semanticRelation == null)
      return null
    s.setRelationship(
      new ScholixRelationship(semanticRelation.original, "datacite", semanticRelation.inverse)
    )
    s.setSource(source)
    s
  }
  def scholixFromSource(relation: Relation, source: ScholixSummary): Scholix = {
    if (relation == null || source == null)
      return null
@ -322,11 +323,8 @@ object ScholixUtils extends Serializable {
    s.setPublicationDate(d)
    if (source.getPublisher != null && !source.getPublisher.isEmpty) {
-      val l: List[ScholixEntityId] = source.getPublisher.asScala
+      source.getPublisher
-        .map { p =>
+      val l: List[ScholixEntityId] = source.getPublisher.asScala.toList
          new ScholixEntityId(p, null)
        }(collection.breakOut)
      if (l.nonEmpty)
        s.setPublisher(l.asJava)
    }
@ -337,7 +335,7 @@ object ScholixUtils extends Serializable {
    s.setRelationship(
      new ScholixRelationship(semanticRelation.original, "datacite", semanticRelation.inverse)
    )
-    s.setSource(generateScholixResourceFromSummary(source))
+    s.setSource(source)
    s
  }
--- a/dhp-pace-core/pom.xml
+++ b/dhp-pace-core/pom.xml
@ -0,0 +1,110 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
    <modelVersion>4.0.0</modelVersion>
 	<parent>
 		<groupId>eu.dnetlib.dhp</groupId>
 		<artifactId>dhp</artifactId>
 		<version>1.2.5-SNAPSHOT</version>
 		<relativePath>../pom.xml</relativePath>
 	</parent>
 	<groupId>eu.dnetlib.dhp</groupId>
 	<artifactId>dhp-pace-core</artifactId>
 	<version>1.2.5-SNAPSHOT</version>
    <packaging>jar</packaging>
 	<build>
 		<plugins>
 			<plugin>
 				<groupId>net.alchim31.maven</groupId>
 				<artifactId>scala-maven-plugin</artifactId>
 				<version>${net.alchim31.maven.version}</version>
 				<executions>
 					<execution>
 						<id>scala-compile-first</id>
 						<phase>initialize</phase>
 						<goals>
 							<goal>add-source</goal>
 							<goal>compile</goal>
 						</goals>
 					</execution>
 					<execution>
 						<id>scala-test-compile</id>
 						<phase>process-test-resources</phase>
 						<goals>
 							<goal>testCompile</goal>
 						</goals>
 					</execution>
 				</executions>
 				<configuration>
 					<failOnMultipleScalaVersions>true</failOnMultipleScalaVersions>
 					<scalaCompatVersion>${scala.binary.version}</scalaCompatVersion>
 					<scalaVersion>${scala.version}</scalaVersion>
 				</configuration>
 			</plugin>
 		</plugins>
 	</build>
 	<dependencies>
 		<dependency>
 			<groupId>edu.cmu</groupId>
 			<artifactId>secondstring</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>com.google.guava</groupId>
 			<artifactId>guava</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>com.google.code.gson</groupId>
 			<artifactId>gson</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.apache.commons</groupId>
 			<artifactId>commons-lang3</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>commons-io</groupId>
 			<artifactId>commons-io</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.antlr</groupId>
 			<artifactId>stringtemplate</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>commons-logging</groupId>
 			<artifactId>commons-logging</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.reflections</groupId>
 			<artifactId>reflections</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>com.fasterxml.jackson.core</groupId>
 			<artifactId>jackson-databind</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.apache.commons</groupId>
 			<artifactId>commons-math3</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>com.jayway.jsonpath</groupId>
 			<artifactId>json-path</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>com.ibm.icu</groupId>
 			<artifactId>icu4j</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.apache.spark</groupId>
 			<artifactId>spark-core_${scala.binary.version}</artifactId>
 		</dependency>
 		<dependency>
 			<groupId>org.apache.spark</groupId>
 			<artifactId>spark-sql_${scala.binary.version}</artifactId>
 		</dependency>
 	</dependencies>
 </project>
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/AbstractClusteringFunction.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/AbstractClusteringFunction.java
@ -0,0 +1,46 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.HashSet;
 import java.util.List;
 import java.util.Map;
 import java.util.stream.Collectors;
 import org.apache.commons.lang3.StringUtils;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 import eu.dnetlib.pace.config.Config;
 public abstract class AbstractClusteringFunction extends AbstractPaceFunctions implements ClusteringFunction {
 	protected Map<String, Integer> params;
 	public AbstractClusteringFunction(final Map<String, Integer> params) {
 		this.params = params;
 	}
 	protected abstract Collection<String> doApply(Config conf, String s);
 	@Override
 	public Collection<String> apply(Config conf, List<String> fields) {
 		return fields
 			.stream()
 			.filter(f -> !f.isEmpty())
 			.map(this::normalize)
 			.map(s -> filterAllStopWords(s))
 			.map(s -> doApply(conf, s))
 			.map(c -> filterBlacklisted(c, ngramBlacklist))
 			.flatMap(c -> c.stream())
 			.filter(StringUtils::isNotBlank)
 			.collect(Collectors.toCollection(HashSet::new));
 	}
 	public Map<String, Integer> getParams() {
 		return params;
 	}
 	protected Integer param(String name) {
 		return params.get(name);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/Acronyms.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/Acronyms.java
@ -0,0 +1,51 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.Map;
 import java.util.Set;
 import java.util.StringTokenizer;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("acronyms")
 public class Acronyms extends AbstractClusteringFunction {
 	public Acronyms(Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(Config conf, String s) {
 		return extractAcronyms(s, param("max"), param("minLen"), param("maxLen"));
 	}
 	private Set<String> extractAcronyms(final String s, int maxAcronyms, int minLen, int maxLen) {
 		final Set<String> acronyms = Sets.newLinkedHashSet();
 		for (int i = 0; i < maxAcronyms; i++) {
 			final StringTokenizer st = new StringTokenizer(s);
 			final StringBuilder sb = new StringBuilder();
 			while (st.hasMoreTokens()) {
 				final String token = st.nextToken();
 				if (sb.length() > maxLen) {
 					break;
 				}
 				if (token.length() > 1 && i < token.length()) {
 					sb.append(token.charAt(i));
 				}
 			}
 			String acronym = sb.toString();
 			if (acronym.length() > minLen) {
 				acronyms.add(acronym);
 			}
 		}
 		return acronyms;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/ClusteringClass.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/ClusteringClass.java
@ -0,0 +1,14 @@
 package eu.dnetlib.pace.clustering;
 import java.lang.annotation.ElementType;
 import java.lang.annotation.Retention;
 import java.lang.annotation.RetentionPolicy;
 import java.lang.annotation.Target;
@Retention(RetentionPolicy.RUNTIME)
@Target(ElementType.TYPE)
 public @interface ClusteringClass {
 	public String value();
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/ClusteringFunction.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/ClusteringFunction.java
@ -0,0 +1,16 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.List;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 public interface ClusteringFunction {
 	public Collection<String> apply(Config config, List<String> fields);
 	public Map<String, Integer> getParams();
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/ImmutableFieldValue.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/ImmutableFieldValue.java
@ -0,0 +1,28 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.List;
 import java.util.Map;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("immutablefieldvalue")
 public class ImmutableFieldValue extends AbstractClusteringFunction {
 	public ImmutableFieldValue(final Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, final String s) {
 		final List<String> res = Lists.newArrayList();
 		res.add(s);
 		return res;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/KeywordsClustering.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/KeywordsClustering.java
@ -0,0 +1,54 @@
 package eu.dnetlib.pace.clustering;
 import java.util.*;
 import java.util.stream.Collectors;
 import org.apache.commons.lang3.StringUtils;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("keywordsclustering")
 public class KeywordsClustering extends AbstractClusteringFunction {
 	public KeywordsClustering(Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, String s) {
 		// takes city codes and keywords codes without duplicates
 		Set<String> keywords = getKeywords(s, conf.translationMap(), params.getOrDefault("windowSize", 4));
 		Set<String> cities = getCities(s, params.getOrDefault("windowSize", 4));
 		// list of combination to return as result
 		final Collection<String> combinations = new LinkedHashSet<String>();
 		for (String keyword : keywordsToCodes(keywords, conf.translationMap())) {
 			for (String city : citiesToCodes(cities)) {
 				combinations.add(keyword + "-" + city);
 				if (combinations.size() >= params.getOrDefault("max", 2)) {
 					return combinations;
 				}
 			}
 		}
 		return combinations;
 	}
 	@Override
 	public Collection<String> apply(final Config conf, List<String> fields) {
 		return fields
 			.stream()
 			.filter(f -> !f.isEmpty())
 			.map(this::cleanup)
 			.map(this::normalize)
 			.map(s -> filterAllStopWords(s))
 			.map(s -> doApply(conf, s))
 			.map(c -> filterBlacklisted(c, ngramBlacklist))
 			.flatMap(c -> c.stream())
 			.filter(StringUtils::isNotBlank)
 			.collect(Collectors.toCollection(HashSet::new));
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/LastNameFirstInitial.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/LastNameFirstInitial.java
@ -0,0 +1,79 @@
 package eu.dnetlib.pace.clustering;
 import java.util.*;
 import java.util.stream.Collectors;
 import org.apache.commons.lang3.StringUtils;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.model.Person;
@ClusteringClass("lnfi")
 public class LastNameFirstInitial extends AbstractClusteringFunction {
 	private boolean DEFAULT_AGGRESSIVE = true;
 	public LastNameFirstInitial(final Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	public Collection<String> apply(Config conf, List<String> fields) {
 		return fields
 			.stream()
 			.filter(f -> !f.isEmpty())
 			.map(this::normalize)
 			.map(s -> doApply(conf, s))
 			.map(c -> filterBlacklisted(c, ngramBlacklist))
 			.flatMap(c -> c.stream())
 			.filter(StringUtils::isNotBlank)
 			.collect(Collectors.toCollection(HashSet::new));
 	}
 	@Override
 	protected String normalize(final String s) {
 		return fixAliases(transliterate(nfd(unicodeNormalization(s))))
 			// do not compact the regexes in a single expression, would cause StackOverflowError in case of large input
 			// strings
 			.replaceAll("[^ \\w]+", "")
 			.replaceAll("(\\p{InCombiningDiacriticalMarks})+", "")
 			.replaceAll("(\\p{Punct})+", " ")
 			.replaceAll("(\\d)+", " ")
 			.replaceAll("(\\n)+", " ")
 			.trim();
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, final String s) {
 		final List<String> res = Lists.newArrayList();
 		final boolean aggressive = (Boolean) (getParams().containsKey("aggressive") ? getParams().get("aggressive")
 			: DEFAULT_AGGRESSIVE);
 		Person p = new Person(s, aggressive);
 		if (p.isAccurate()) {
 			String lastName = p.getNormalisedSurname().toLowerCase();
 			String firstInitial = p.getNormalisedFirstName().toLowerCase().substring(0, 1);
 			res.add(firstInitial.concat(lastName));
 		} else { // is not accurate, meaning it has no defined name and surname
 			List<String> fullname = Arrays.asList(p.getNormalisedFullname().split(" "));
 			if (fullname.size() == 1) {
 				res.add(p.getNormalisedFullname().toLowerCase());
 			} else if (fullname.size() == 2) {
 				res.add(fullname.get(0).substring(0, 1).concat(fullname.get(1)).toLowerCase());
 				res.add(fullname.get(1).substring(0, 1).concat(fullname.get(0)).toLowerCase());
 			} else {
 				res.add(fullname.get(0).substring(0, 1).concat(fullname.get(fullname.size() - 1)).toLowerCase());
 				res.add(fullname.get(fullname.size() - 1).substring(0, 1).concat(fullname.get(0)).toLowerCase());
 			}
 		}
 		return res;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/LowercaseClustering.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/LowercaseClustering.java
@ -0,0 +1,38 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.List;
 import java.util.Map;
 import org.apache.commons.lang3.StringUtils;
 import com.google.common.collect.Lists;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("lowercase")
 public class LowercaseClustering extends AbstractClusteringFunction {
 	public LowercaseClustering(final Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	public Collection<String> apply(Config conf, List<String> fields) {
 		Collection<String> c = Sets.newLinkedHashSet();
 		for (String f : fields) {
 			c.addAll(doApply(conf, f));
 		}
 		return c;
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, final String s) {
 		if (StringUtils.isBlank(s)) {
 			return Lists.newArrayList();
 		}
 		return Lists.newArrayList(s.toLowerCase().trim());
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/NGramUtils.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/NGramUtils.java
@ -0,0 +1,23 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Set;
 import org.apache.commons.lang3.StringUtils;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 public class NGramUtils extends AbstractPaceFunctions {
 	static private final NGramUtils NGRAMUTILS = new NGramUtils();
 	private static final int SIZE = 100;
 	private static final Set<String> stopwords = AbstractPaceFunctions
 		.loadFromClasspath("/eu/dnetlib/pace/config/stopwords_en.txt");
 	public static String cleanupForOrdering(String s) {
 		String result = NGRAMUTILS.filterStopWords(NGRAMUTILS.normalize(s), stopwords);
 		return result.isEmpty() ? result : result.replace(" ", "");
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/NgramPairs.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/NgramPairs.java
@ -0,0 +1,42 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("ngrampairs")
 public class NgramPairs extends Ngrams {
 	public NgramPairs(Map<String, Integer> params) {
 		super(params, false);
 	}
 	public NgramPairs(Map<String, Integer> params, boolean sorted) {
 		super(params, sorted);
 	}
 	@Override
 	protected Collection<String> doApply(Config conf, String s) {
 		return ngramPairs(Lists.newArrayList(getNgrams(s, param("ngramLen"), param("max") * 2, 1, 2)), param("max"));
 	}
 	protected Collection<String> ngramPairs(final List<String> ngrams, int maxNgrams) {
 		Collection<String> res = Lists.newArrayList();
 		int j = 0;
 		for (int i = 0; i < ngrams.size() && res.size() < maxNgrams; i++) {
 			if (++j >= ngrams.size()) {
 				break;
 			}
 			res.add(ngrams.get(i) + ngrams.get(j));
 			// System.out.println("-- " + concatNgrams);
 		}
 		return res;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/Ngrams.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/Ngrams.java
@ -0,0 +1,52 @@
 package eu.dnetlib.pace.clustering;
 import java.util.*;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("ngrams")
 public class Ngrams extends AbstractClusteringFunction {
 	private final boolean sorted;
 	public Ngrams(Map<String, Integer> params) {
 		this(params, false);
 	}
 	public Ngrams(Map<String, Integer> params, boolean sorted) {
 		super(params);
 		this.sorted = sorted;
 	}
 	@Override
 	protected Collection<String> doApply(Config conf, String s) {
 		return getNgrams(s, param("ngramLen"), param("max"), param("maxPerToken"), param("minNgramLen"));
 	}
 	protected Collection<String> getNgrams(String s, int ngramLen, int max, int maxPerToken, int minNgramLen) {
 		final Collection<String> ngrams = sorted ? new TreeSet<>() : new LinkedHashSet<String>();
 		final StringTokenizer st = new StringTokenizer(s);
 		while (st.hasMoreTokens()) {
 			final String token = st.nextToken();
 			if (!token.isEmpty()) {
 				for (int i = 0; i < maxPerToken && ngramLen + i <= token.length(); i++) {
 					String ngram = token.substring(i, Math.min(ngramLen + i, token.length())).trim();
 					if (ngram.length() >= minNgramLen) {
 						ngrams.add(ngram);
 						if (ngrams.size() >= max) {
 							return ngrams;
 						}
 					}
 				}
 			}
 		}
 		// System.out.println(ngrams + " n: " + ngrams.size());
 		return ngrams;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/PersonClustering.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/PersonClustering.java
@ -0,0 +1,84 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
 import org.apache.commons.lang3.StringUtils;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.model.Person;
@ClusteringClass("personClustering")
 public class PersonClustering extends AbstractPaceFunctions implements ClusteringFunction {
 	private Map<String, Integer> params;
 	private static final int MAX_TOKENS = 5;
 	public PersonClustering(final Map<String, Integer> params) {
 		this.params = params;
 	}
 	@Override
 	public Collection<String> apply(final Config conf, final List<String> fields) {
 		final Set<String> hashes = Sets.newHashSet();
 		for (final String f : fields) {
 			final Person person = new Person(f, false);
 			if (StringUtils.isNotBlank(person.getNormalisedFirstName())
 				&& StringUtils.isNotBlank(person.getNormalisedSurname())) {
 				hashes.add(firstLC(person.getNormalisedFirstName()) + person.getNormalisedSurname().toLowerCase());
 			} else {
 				for (final String token1 : tokens(f, MAX_TOKENS)) {
 					for (final String token2 : tokens(f, MAX_TOKENS)) {
 						if (!token1.equals(token2)) {
 							hashes.add(firstLC(token1) + token2);
 						}
 					}
 				}
 			}
 		}
 		return hashes;
 	}
 //	@Override
 //	public Collection<String> apply(final List<Field> fields) {
 //		final Set<String> hashes = Sets.newHashSet();
 //
 //		for (final Field f : fields) {
 //
 //			final GTAuthor gta = GTAuthor.fromOafJson(f.stringValue());
 //
 //			final Author a = gta.getAuthor();
 //
 //			if (StringUtils.isNotBlank(a.getFirstname()) && StringUtils.isNotBlank(a.getSecondnames())) {
 //				hashes.add(firstLC(a.getFirstname()) + a.getSecondnames().toLowerCase());
 //			} else {
 //				for (final String token1 : tokens(f.stringValue(), MAX_TOKENS)) {
 //					for (final String token2 : tokens(f.stringValue(), MAX_TOKENS)) {
 //						if (!token1.equals(token2)) {
 //							hashes.add(firstLC(token1) + token2);
 //						}
 //					}
 //				}
 //			}
 //		}
 //
 //		return hashes;
 //	}
 	@Override
 	public Map<String, Integer> getParams() {
 		return params;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/PersonHash.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/PersonHash.java
@ -0,0 +1,34 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.List;
 import java.util.Map;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.model.Person;
@ClusteringClass("personHash")
 public class PersonHash extends AbstractClusteringFunction {
 	private boolean DEFAULT_AGGRESSIVE = false;
 	public PersonHash(final Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, final String s) {
 		final List<String> res = Lists.newArrayList();
 		final boolean aggressive = (Boolean) (getParams().containsKey("aggressive") ? getParams().get("aggressive")
 			: DEFAULT_AGGRESSIVE);
 		res.add(new Person(s, aggressive).hash());
 		return res;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/RandomClusteringFunction.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/RandomClusteringFunction.java
@ -0,0 +1,20 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 public class RandomClusteringFunction extends AbstractClusteringFunction {
 	public RandomClusteringFunction(Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, String s) {
 		return null;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/SortedNgramPairs.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/SortedNgramPairs.java
@ -0,0 +1,19 @@
 package eu.dnetlib.pace.clustering;
 import java.util.*;
 import com.google.common.base.Joiner;
 import com.google.common.base.Splitter;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("sortedngrampairs")
 public class SortedNgramPairs extends NgramPairs {
 	public SortedNgramPairs(Map<String, Integer> params) {
 		super(params, true);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/SpaceTrimmingFieldValue.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/SpaceTrimmingFieldValue.java
@ -0,0 +1,34 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.List;
 import java.util.Map;
 import org.apache.commons.lang3.RandomStringUtils;
 import org.apache.commons.lang3.StringUtils;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("spacetrimmingfieldvalue")
 public class SpaceTrimmingFieldValue extends AbstractClusteringFunction {
 	public SpaceTrimmingFieldValue(final Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(final Config conf, final String s) {
 		final List<String> res = Lists.newArrayList();
 		res
 			.add(
 				StringUtils.isBlank(s) ? RandomStringUtils.random(getParams().get("randomLength"))
 					: s.toLowerCase().replaceAll("\\s+", ""));
 		return res;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/SuffixPrefix.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/SuffixPrefix.java
@ -0,0 +1,42 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.Map;
 import java.util.Set;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("suffixprefix")
 public class SuffixPrefix extends AbstractClusteringFunction {
 	public SuffixPrefix(Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(Config conf, String s) {
 		return suffixPrefix(s, param("len"), param("max"));
 	}
 	private Collection<String> suffixPrefix(String s, int len, int max) {
 		final Set<String> bigrams = Sets.newLinkedHashSet();
 		int i = 0;
 		while (++i < s.length() && bigrams.size() < max) {
 			int j = s.indexOf(" ", i);
 			int offset = j + len + 1 < s.length() ? j + len + 1 : s.length();
 			if (j - len > 0) {
 				String bigram = s.substring(j - len, offset).replaceAll(" ", "").trim();
 				if (bigram.length() >= 4) {
 					bigrams.add(bigram);
 				}
 			}
 		}
 		return bigrams;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/UrlClustering.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/UrlClustering.java
@ -0,0 +1,52 @@
 package eu.dnetlib.pace.clustering;
 import java.net.MalformedURLException;
 import java.net.URL;
 import java.util.Collection;
 import java.util.HashSet;
 import java.util.List;
 import java.util.Map;
 import java.util.stream.Collectors;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("urlclustering")
 public class UrlClustering extends AbstractPaceFunctions implements ClusteringFunction {
 	protected Map<String, Integer> params;
 	public UrlClustering(final Map<String, Integer> params) {
 		this.params = params;
 	}
 	@Override
 	public Collection<String> apply(final Config conf, List<String> fields) {
 		try {
 			return fields
 				.stream()
 				.filter(f -> !f.isEmpty())
 				.map(this::asUrl)
 				.map(URL::getHost)
 				.collect(Collectors.toCollection(HashSet::new));
 		} catch (IllegalStateException e) {
 			return new HashSet<>();
 		}
 	}
 	@Override
 	public Map<String, Integer> getParams() {
 		return null;
 	}
 	private URL asUrl(String value) {
 		try {
 			return new URL(value);
 		} catch (MalformedURLException e) {
 			// should not happen as checked by pace typing
 			throw new IllegalStateException("invalid URL: " + value);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/WordsStatsSuffixPrefixChain.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/WordsStatsSuffixPrefixChain.java
@ -0,0 +1,91 @@
 package eu.dnetlib.pace.clustering;
 import java.util.*;
 import java.util.stream.Collectors;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("wordsStatsSuffixPrefixChain")
 public class WordsStatsSuffixPrefixChain extends AbstractClusteringFunction {
 	public WordsStatsSuffixPrefixChain(Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(Config conf, String s) {
 		return suffixPrefixChain(s, param("mod"));
 	}
 	private Collection<String> suffixPrefixChain(String s, int mod) {
 		// create the list of words from the string (remove short words)
 		List<String> wordsList = Arrays
 			.stream(s.split(" "))
 			.filter(si -> si.length() > 3)
 			.collect(Collectors.toList());
 		final int words = wordsList.size();
 		final int letters = s.length();
 		// create the prefix: number of words + number of letters/mod
 		String prefix = words + "-" + letters / mod + "-";
 		return doSuffixPrefixChain(wordsList, prefix);
 	}
 	private Collection<String> doSuffixPrefixChain(List<String> wordsList, String prefix) {
 		Set<String> set = Sets.newLinkedHashSet();
 		switch (wordsList.size()) {
 			case 0:
 			case 1:
 				break;
 			case 2:
 				set
 					.add(
 						prefix +
 							suffix(wordsList.get(0), 3) +
 							prefix(wordsList.get(1), 3));
 				set
 					.add(
 						prefix +
 							prefix(wordsList.get(0), 3) +
 							suffix(wordsList.get(1), 3));
 				break;
 			default:
 				set
 					.add(
 						prefix +
 							suffix(wordsList.get(0), 3) +
 							prefix(wordsList.get(1), 3) +
 							suffix(wordsList.get(2), 3));
 				set
 					.add(
 						prefix +
 							prefix(wordsList.get(0), 3) +
 							suffix(wordsList.get(1), 3) +
 							prefix(wordsList.get(2), 3));
 				break;
 		}
 		return set;
 	}
 	private String suffix(String s, int len) {
 		return s.substring(s.length() - len);
 	}
 	private String prefix(String s, int len) {
 		return s.substring(0, len);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/WordsSuffixPrefix.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/WordsSuffixPrefix.java
@ -0,0 +1,59 @@
 package eu.dnetlib.pace.clustering;
 import java.util.Collection;
 import java.util.Map;
 import java.util.Set;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
@ClusteringClass("wordssuffixprefix")
 public class WordsSuffixPrefix extends AbstractClusteringFunction {
 	public WordsSuffixPrefix(Map<String, Integer> params) {
 		super(params);
 	}
 	@Override
 	protected Collection<String> doApply(Config conf, String s) {
 		return suffixPrefix(s, param("len"), param("max"));
 	}
 	private Collection<String> suffixPrefix(String s, int len, int max) {
 		final int words = s.split(" ").length;
 		// adjust the token length according to the number of words
 		switch (words) {
 			case 1:
 				return Sets.newLinkedHashSet();
 			case 2:
 				return doSuffixPrefix(s, len + 2, max, words);
 			case 3:
 				return doSuffixPrefix(s, len + 1, max, words);
 			default:
 				return doSuffixPrefix(s, len, max, words);
 		}
 	}
 	private Collection<String> doSuffixPrefix(String s, int len, int max, int words) {
 		final Set<String> bigrams = Sets.newLinkedHashSet();
 		int i = 0;
 		while (++i < s.length() && bigrams.size() < max) {
 			int j = s.indexOf(" ", i);
 			int offset = j + len + 1 < s.length() ? j + len + 1 : s.length();
 			if (j - len > 0) {
 				String bigram = s.substring(j - len, offset).replaceAll(" ", "").trim();
 				if (bigram.length() >= 4) {
 					bigrams.add(words + bigram);
 				}
 			}
 		}
 		return bigrams;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/common/AbstractPaceFunctions.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/common/AbstractPaceFunctions.java
@ -0,0 +1,352 @@
 package eu.dnetlib.pace.common;
 import java.io.IOException;
 import java.io.StringWriter;
 import java.nio.charset.StandardCharsets;
 import java.text.Normalizer;
 import java.util.*;
 import java.util.regex.Matcher;
 import java.util.regex.Pattern;
 import java.util.stream.Collectors;
 import org.apache.commons.io.IOUtils;
 import org.apache.commons.lang3.StringUtils;
 import com.google.common.base.Joiner;
 import com.google.common.base.Splitter;
 import com.google.common.collect.Iterables;
 import com.google.common.collect.Lists;
 import com.google.common.collect.Sets;
 import com.ibm.icu.text.Transliterator;
 import eu.dnetlib.pace.clustering.NGramUtils;
 /**
 * Set of common functions for the framework
 *
 * @author claudio
 */
 public abstract class AbstractPaceFunctions {
 	// city map to be used when translating the city names into codes
 	private static Map<String, String> cityMap = AbstractPaceFunctions
 		.loadMapFromClasspath("/eu/dnetlib/pace/config/city_map.csv");
 	// list of stopwords in different languages
 	protected static Set<String> stopwords_gr = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_gr.txt");
 	protected static Set<String> stopwords_en = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_en.txt");
 	protected static Set<String> stopwords_de = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_de.txt");
 	protected static Set<String> stopwords_es = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_es.txt");
 	protected static Set<String> stopwords_fr = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_fr.txt");
 	protected static Set<String> stopwords_it = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_it.txt");
 	protected static Set<String> stopwords_pt = loadFromClasspath("/eu/dnetlib/pace/config/stopwords_pt.txt");
 	// transliterator
 	protected static Transliterator transliterator = Transliterator.getInstance("Any-Eng");
 	// blacklist of ngrams: to avoid generic keys
 	protected static Set<String> ngramBlacklist = loadFromClasspath("/eu/dnetlib/pace/config/ngram_blacklist.txt");
 	// html regex for normalization
 	public final Pattern HTML_REGEX = Pattern.compile("<[^>]*>");
 	private static final String alpha = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 ";
 	private static final String aliases_from = "⁰¹²³⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ₀₁₂₃₄₅₆₇₈₉₊₋₌₍₎àáâäæãåāèéêëēėęəîïíīįìôöòóœøōõûüùúūßśšłžźżçćčñń";
 	private static final String aliases_to = "0123456789+-=()n0123456789+-=()aaaaaaaaeeeeeeeeiiiiiioooooooouuuuussslzzzcccnn";
 	// doi prefix for normalization
 	public final Pattern DOI_PREFIX = Pattern.compile("(https?:\\/\\/dx\\.doi\\.org\\/)|(doi:)");
 	private Pattern numberPattern = Pattern.compile("-?\\d+(\\.\\d+)?");
 	private Pattern hexUnicodePattern = Pattern.compile("\\\\u(\\p{XDigit}{4})");
 	protected String concat(final List<String> l) {
 		return Joiner.on(" ").skipNulls().join(l);
 	}
 	protected String cleanup(final String s) {
 		final String s1 = HTML_REGEX.matcher(s).replaceAll("");
 		final String s2 = unicodeNormalization(s1.toLowerCase());
 		final String s3 = nfd(s2);
 		final String s4 = fixXML(s3);
 		final String s5 = s4.replaceAll("([0-9]+)", " $1 ");
 		final String s6 = transliterate(s5);
 		final String s7 = fixAliases(s6);
 		final String s8 = s7.replaceAll("[^\\p{ASCII}]", "");
 		final String s9 = s8.replaceAll("[\\p{Punct}]", " ");
 		final String s10 = s9.replaceAll("\\n", " ");
 		final String s11 = s10.replaceAll("(?m)\\s+", " ");
 		final String s12 = s11.trim();
 		return s12;
 	}
 	protected String fixXML(final String a) {
 		return a
 			.replaceAll("&ndash;", " ")
 			.replaceAll("&amp;", " ")
 			.replaceAll("&quot;", " ")
 			.replaceAll("&minus;", " ");
 	}
 	protected boolean checkNumbers(final String a, final String b) {
 		final String numbersA = getNumbers(a);
 		final String numbersB = getNumbers(b);
 		final String romansA = getRomans(a);
 		final String romansB = getRomans(b);
 		return !numbersA.equals(numbersB) || !romansA.equals(romansB);
 	}
 	protected String getRomans(final String s) {
 		final StringBuilder sb = new StringBuilder();
 		for (final String t : s.split(" ")) {
 			sb.append(isRoman(t) ? t : "");
 		}
 		return sb.toString();
 	}
 	protected boolean isRoman(final String s) {
 		return s
 			.replaceAll("^M{0,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$", "qwertyuiop")
 			.equals("qwertyuiop");
 	}
 	protected String getNumbers(final String s) {
 		final StringBuilder sb = new StringBuilder();
 		for (final String t : s.split(" ")) {
 			sb.append(isNumber(t) ? t : "");
 		}
 		return sb.toString();
 	}
 	public boolean isNumber(String strNum) {
 		if (strNum == null) {
 			return false;
 		}
 		return numberPattern.matcher(strNum).matches();
 	}
 	protected static String fixAliases(final String s) {
 		final StringBuilder sb = new StringBuilder();
 		for (final char ch : Lists.charactersOf(s)) {
 			final int i = StringUtils.indexOf(aliases_from, ch);
 			sb.append(i >= 0 ? aliases_to.charAt(i) : ch);
 		}
 		return sb.toString();
 	}
 	protected static String transliterate(final String s) {
 		try {
 			return transliterator.transliterate(s);
 		} catch (Exception e) {
 			return s;
 		}
 	}
 	protected String removeSymbols(final String s) {
 		final StringBuilder sb = new StringBuilder();
 		for (final char ch : Lists.charactersOf(s)) {
 			sb.append(StringUtils.contains(alpha, ch) ? ch : " ");
 		}
 		return sb.toString().replaceAll("\\s+", " ");
 	}
 	protected boolean notNull(final String s) {
 		return s != null;
 	}
 	protected String normalize(final String s) {
 		return fixAliases(transliterate(nfd(unicodeNormalization(s))))
 			.toLowerCase()
 			// do not compact the regexes in a single expression, would cause StackOverflowError in case of large input
 			// strings
 			.replaceAll("[^ \\w]+", "")
 			.replaceAll("(\\p{InCombiningDiacriticalMarks})+", "")
 			.replaceAll("(\\p{Punct})+", " ")
 			.replaceAll("(\\d)+", " ")
 			.replaceAll("(\\n)+", " ")
 			.trim();
 	}
 	public String nfd(final String s) {
 		return Normalizer.normalize(s, Normalizer.Form.NFD);
 	}
 	public String utf8(final String s) {
 		byte[] bytes = s.getBytes(StandardCharsets.UTF_8);
 		return new String(bytes, StandardCharsets.UTF_8);
 	}
 	public String unicodeNormalization(final String s) {
 		Matcher m = hexUnicodePattern.matcher(s);
 		StringBuffer buf = new StringBuffer(s.length());
 		while (m.find()) {
 			String ch = String.valueOf((char) Integer.parseInt(m.group(1), 16));
 			m.appendReplacement(buf, Matcher.quoteReplacement(ch));
 		}
 		m.appendTail(buf);
 		return buf.toString();
 	}
 	protected String filterStopWords(final String s, final Set<String> stopwords) {
 		final StringTokenizer st = new StringTokenizer(s);
 		final StringBuilder sb = new StringBuilder();
 		while (st.hasMoreTokens()) {
 			final String token = st.nextToken();
 			if (!stopwords.contains(token)) {
 				sb.append(token);
 				sb.append(" ");
 			}
 		}
 		return sb.toString().trim();
 	}
 	public String filterAllStopWords(String s) {
 		s = filterStopWords(s, stopwords_en);
 		s = filterStopWords(s, stopwords_de);
 		s = filterStopWords(s, stopwords_it);
 		s = filterStopWords(s, stopwords_fr);
 		s = filterStopWords(s, stopwords_pt);
 		s = filterStopWords(s, stopwords_es);
 		s = filterStopWords(s, stopwords_gr);
 		return s;
 	}
 	protected Collection<String> filterBlacklisted(final Collection<String> set, final Set<String> ngramBlacklist) {
 		final Set<String> newset = Sets.newLinkedHashSet();
 		for (final String s : set) {
 			if (!ngramBlacklist.contains(s)) {
 				newset.add(s);
 			}
 		}
 		return newset;
 	}
 	public static Set<String> loadFromClasspath(final String classpath) {
 		Transliterator transliterator = Transliterator.getInstance("Any-Eng");
 		final Set<String> h = Sets.newHashSet();
 		try {
 			for (final String s : IOUtils.readLines(NGramUtils.class.getResourceAsStream(classpath))) {
 				h.add(fixAliases(transliterator.transliterate(s))); // transliteration of the stopwords
 			}
 		} catch (final Throwable e) {
 			return Sets.newHashSet();
 		}
 		return h;
 	}
 	public static Map<String, String> loadMapFromClasspath(final String classpath) {
 		Transliterator transliterator = Transliterator.getInstance("Any-Eng");
 		final Map<String, String> m = new HashMap<>();
 		try {
 			for (final String s : IOUtils.readLines(AbstractPaceFunctions.class.getResourceAsStream(classpath))) {
 				// string is like this: code;word1;word2;word3
 				String[] line = s.split(";");
 				String value = line[0];
 				for (int i = 1; i < line.length; i++) {
 					m.put(fixAliases(transliterator.transliterate(line[i].toLowerCase())), value);
 				}
 			}
 		} catch (final Throwable e) {
 			return new HashMap<>();
 		}
 		return m;
 	}
 	public String removeKeywords(String s, Set<String> keywords) {
 		s = " " + s + " ";
 		for (String k : keywords) {
 			s = s.replaceAll(k.toLowerCase(), "");
 		}
 		return s.trim();
 	}
 	public double commonElementsPercentage(Set<String> s1, Set<String> s2) {
 		double longer = Math.max(s1.size(), s2.size());
 		return (double) s1.stream().filter(s2::contains).count() / longer;
 	}
 	// convert the set of keywords to codes
 	public Set<String> toCodes(Set<String> keywords, Map<String, String> translationMap) {
 		return keywords.stream().map(s -> translationMap.get(s)).collect(Collectors.toSet());
 	}
 	public Set<String> keywordsToCodes(Set<String> keywords, Map<String, String> translationMap) {
 		return toCodes(keywords, translationMap);
 	}
 	public Set<String> citiesToCodes(Set<String> keywords) {
 		return toCodes(keywords, cityMap);
 	}
 	protected String firstLC(final String s) {
 		return StringUtils.substring(s, 0, 1).toLowerCase();
 	}
 	protected Iterable<String> tokens(final String s, final int maxTokens) {
 		return Iterables.limit(Splitter.on(" ").omitEmptyStrings().trimResults().split(s), maxTokens);
 	}
 	public String normalizePid(String pid) {
 		return DOI_PREFIX.matcher(pid.toLowerCase()).replaceAll("");
 	}
 	// get the list of keywords into the input string
 	public Set<String> getKeywords(String s1, Map<String, String> translationMap, int windowSize) {
 		String s = s1;
 		List<String> tokens = Arrays.asList(s.toLowerCase().split(" "));
 		Set<String> codes = new HashSet<>();
 		if (tokens.size() < windowSize)
 			windowSize = tokens.size();
 		int length = windowSize;
 		while (length != 0) {
 			for (int i = 0; i <= tokens.size() - length; i++) {
 				String candidate = concat(tokens.subList(i, i + length));
 				if (translationMap.containsKey(candidate)) {
 					codes.add(candidate);
 					s = s.replace(candidate, "").trim();
 				}
 			}
 			tokens = Arrays.asList(s.split(" "));
 			length -= 1;
 		}
 		return codes;
 	}
 	public Set<String> getCities(String s1, int windowSize) {
 		return getKeywords(s1, cityMap, windowSize);
 	}
 	public static <T> String readFromClasspath(final String filename, final Class<T> clazz) {
 		final StringWriter sw = new StringWriter();
 		try {
 			IOUtils.copy(clazz.getResourceAsStream(filename), sw);
 			return sw.toString();
 		} catch (final IOException e) {
 			throw new RuntimeException("cannot load resource from classpath: " + filename);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/Config.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/Config.java
@ -0,0 +1,54 @@
 package eu.dnetlib.pace.config;
 import java.util.List;
 import java.util.Map;
 import java.util.function.Predicate;
 import java.util.regex.Pattern;
 import eu.dnetlib.pace.model.ClusteringDef;
 import eu.dnetlib.pace.model.FieldDef;
 import eu.dnetlib.pace.tree.support.TreeNodeDef;
 /**
 * Interface for PACE configuration bean.
 *
 * @author claudio
 */
 public interface Config {
 	/**
 	 * Field configuration definitions.
 	 *
 	 * @return the list of definitions
 	 */
 	public List<FieldDef> model();
 	/**
 	 * Decision Tree definition
 	 *
 	 * @return the map representing the decision tree
 	 */
 	public Map<String, TreeNodeDef> decisionTree();
 	/**
 	 * Clusterings.
 	 *
 	 * @return the list
 	 */
 	public List<ClusteringDef> clusterings();
 	/**
 	 * Blacklists.
 	 *
 	 * @return the map
 	 */
 	public Map<String, Predicate<String>> blacklists();
 	/**
 	 * Translation map.
 	 *
 	 * @return the map
 	 * */
 	public Map<String, String> translationMap();
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/DedupConfig.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/DedupConfig.java
@ -0,0 +1,178 @@
 package eu.dnetlib.pace.config;
 import java.io.IOException;
 import java.io.Serializable;
 import java.nio.charset.StandardCharsets;
 import java.util.AbstractMap;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 import java.util.Map.Entry;
 import java.util.function.Predicate;
 import java.util.regex.Pattern;
 import java.util.regex.PatternSyntaxException;
 import java.util.stream.Collectors;
 import org.antlr.stringtemplate.StringTemplate;
 import org.apache.commons.io.IOUtils;
 import org.apache.commons.lang3.StringUtils;
 import com.fasterxml.jackson.annotation.JsonIgnore;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import com.google.common.collect.Maps;
 import eu.dnetlib.pace.model.ClusteringDef;
 import eu.dnetlib.pace.model.FieldDef;
 import eu.dnetlib.pace.tree.support.TreeNodeDef;
 import eu.dnetlib.pace.util.PaceException;
 public class DedupConfig implements Config, Serializable {
 	private static String CONFIG_TEMPLATE = "dedupConfig.st";
 	private PaceConfig pace;
 	private WfConfig wf;
 	@JsonIgnore
 	private Map<String, Predicate<String>> blacklists;
 	private static Map<String, String> defaults = Maps.newHashMap();
 	static {
 		defaults.put("dedupRun", "001");
 		defaults.put("entityType", "result");
 		defaults.put("subEntityType", "resulttype");
 		defaults.put("subEntityValue", "publication");
 		defaults.put("orderField", "title");
 		defaults.put("queueMaxSize", "2000");
 		defaults.put("groupMaxSize", "10");
 		defaults.put("slidingWindowSize", "200");
 		defaults.put("rootBuilder", "result");
 		defaults.put("includeChildren", "true");
 		defaults.put("maxIterations", "20");
 		defaults.put("idPath", "$.id");
 	}
 	public DedupConfig() {
 	}
 	public static DedupConfig load(final String json) {
 		final DedupConfig config;
 		try {
 			config = new ObjectMapper().readValue(json, DedupConfig.class);
 			config.getPace().initModel();
 			config.getPace().initTranslationMap();
 			config.blacklists = config
 				.getPace()
 				.getBlacklists()
 				.entrySet()
 				.stream()
 				.map(
 					e -> new AbstractMap.SimpleEntry<String, List<Pattern>>(e.getKey(),
 						e
 							.getValue()
 							.stream()
 							.filter(s -> !StringUtils.isBlank(s))
 							.map(Pattern::compile)
 							.collect(Collectors.toList())))
 				.collect(
 					Collectors
 						.toMap(
 							e -> e.getKey(),
 							e -> (Predicate<String> & Serializable) s -> e
 								.getValue()
 								.stream()
 								.filter(p -> p.matcher(s).matches())
 								.findFirst()
 								.isPresent()))
 			;
 			return config;
 		} catch (IOException | PatternSyntaxException e) {
 			throw new PaceException("Error in parsing configuration json", e);
 		}
 	}
 	public static DedupConfig loadDefault() throws IOException {
 		return loadDefault(new HashMap<String, String>());
 	}
 	public static DedupConfig loadDefault(final Map<String, String> params) throws IOException {
 		final StringTemplate template = new StringTemplate(new DedupConfig().readFromClasspath(CONFIG_TEMPLATE));
 		for (final Entry<String, String> e : defaults.entrySet()) {
 			template.setAttribute(e.getKey(), e.getValue());
 		}
 		for (final Entry<String, String> e : params.entrySet()) {
 			if (template.getAttribute(e.getKey()) != null) {
 				template.getAttributes().computeIfPresent(e.getKey(), (o, o2) -> e.getValue());
 			} else {
 				template.setAttribute(e.getKey(), e.getValue());
 			}
 		}
 		final String json = template.toString();
 		return load(json);
 	}
 	private String readFromClasspath(final String resource) throws IOException {
 		return IOUtils.toString(getClass().getResource(resource), StandardCharsets.UTF_8);
 	}
 	public PaceConfig getPace() {
 		return pace;
 	}
 	public void setPace(final PaceConfig pace) {
 		this.pace = pace;
 	}
 	public WfConfig getWf() {
 		return wf;
 	}
 	public void setWf(final WfConfig wf) {
 		this.wf = wf;
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("unable to serialise configuration", e);
 		}
 	}
 	@Override
 	public Map<String, TreeNodeDef> decisionTree() {
 		return getPace().getDecisionTree();
 	}
 	@Override
 	public List<FieldDef> model() {
 		return getPace().getModel();
 	}
 	@Override
 	public List<ClusteringDef> clusterings() {
 		return getPace().getClustering();
 	}
 	@Override
 	public Map<String, Predicate<String>> blacklists() {
 		return blacklists;
 	}
 	@Override
 	public Map<String, String> translationMap() {
 		return getPace().translationMap();
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/PaceConfig.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/PaceConfig.java
@ -0,0 +1,108 @@
 package eu.dnetlib.pace.config;
 import java.io.Serializable;
 import java.util.List;
 import java.util.Map;
 import com.fasterxml.jackson.annotation.JsonIgnore;
 import com.google.common.collect.Maps;
 import com.ibm.icu.text.Transliterator;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 import eu.dnetlib.pace.model.ClusteringDef;
 import eu.dnetlib.pace.model.FieldDef;
 import eu.dnetlib.pace.tree.support.TreeNodeDef;
 import eu.dnetlib.pace.util.PaceResolver;
 public class PaceConfig extends AbstractPaceFunctions implements Serializable {
 	private List<FieldDef> model;
 	private List<ClusteringDef> clustering;
 	private Map<String, TreeNodeDef> decisionTree;
 	private Map<String, List<String>> blacklists;
 	private Map<String, List<String>> synonyms;
 	@JsonIgnore
 	private Map<String, String> translationMap;
 	public Map<String, FieldDef> getModelMap() {
 		return modelMap;
 	}
 	@JsonIgnore
 	private Map<String, FieldDef> modelMap;
 	@JsonIgnore
 	public static PaceResolver resolver = new PaceResolver();
 	public PaceConfig() {
 	}
 	public void initModel() {
 		modelMap = Maps.newHashMap();
 		for (FieldDef fd : getModel()) {
 			modelMap.put(fd.getName(), fd);
 		}
 	}
 	public void initTranslationMap() {
 		translationMap = Maps.newHashMap();
 		Transliterator transliterator = Transliterator.getInstance("Any-Eng");
 		for (String key : synonyms.keySet()) {
 			for (String term : synonyms.get(key)) {
 				translationMap
 					.put(
 						fixAliases(transliterator.transliterate(term.toLowerCase())),
 						key);
 			}
 		}
 	}
 	public Map<String, String> translationMap() {
 		return translationMap;
 	}
 	public List<FieldDef> getModel() {
 		return model;
 	}
 	public void setModel(final List<FieldDef> model) {
 		this.model = model;
 	}
 	public List<ClusteringDef> getClustering() {
 		return clustering;
 	}
 	public void setClustering(final List<ClusteringDef> clustering) {
 		this.clustering = clustering;
 	}
 	public Map<String, TreeNodeDef> getDecisionTree() {
 		return decisionTree;
 	}
 	public void setDecisionTree(Map<String, TreeNodeDef> decisionTree) {
 		this.decisionTree = decisionTree;
 	}
 	public Map<String, List<String>> getBlacklists() {
 		return blacklists;
 	}
 	public void setBlacklists(final Map<String, List<String>> blacklists) {
 		this.blacklists = blacklists;
 	}
 	public Map<String, List<String>> getSynonyms() {
 		return synonyms;
 	}
 	public void setSynonyms(Map<String, List<String>> synonyms) {
 		this.synonyms = synonyms;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/Type.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/Type.java
@ -0,0 +1,6 @@
 package eu.dnetlib.pace.config;
 public enum Type {
 	String, Int, List, JSON, URL, StringConcat, DoubleArray
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/WfConfig.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/config/WfConfig.java
@ -0,0 +1,294 @@
 package eu.dnetlib.pace.config;
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.HashSet;
 import java.util.List;
 import java.util.Set;
 import org.apache.commons.lang3.StringUtils;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import com.google.common.collect.Lists;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.util.PaceException;
 public class WfConfig implements Serializable {
 	/**
 	 * Entity type.
 	 */
 	private String entityType = "";
 	/**
 	 * Sub-Entity type refers to one of fields declared in the model. See eu.dnetlib.pace.config.PaceConfig.modelMap
 	 */
 	private String subEntityType = "";
 	/**
 	 * Sub-Entity value declares a value for subTypes to be considered.
 	 */
 	private String subEntityValue = "";
 	/**
 	 * Field name used to sort the values in the reducer phase.
 	 */
 	private String orderField = "";
 	/**
 	 * Column Families involved in the relations redirection.
 	 */
 	private List<String> rootBuilder = Lists.newArrayList();
 	/**
 	 * Set of datasource namespace prefixes that won't be deduplicated.
 	 */
 	private Set<String> skipList = Sets.newHashSet();
 	/**
 	 * Subprefix used to build the root id, allows multiple dedup runs.
 	 */
 	private String dedupRun = "";
 	/**
 	 * Similarity threshold.
 	 */
 	private double threshold = 0;
 	/** The queue max size. */
 	private int queueMaxSize = 2000;
 	/** The group max size. */
 	private int groupMaxSize;
 	/** The sliding window size. */
 	private int slidingWindowSize;
 	/** The configuration id. */
 	private String configurationId;
 	/** The include children. */
 	private boolean includeChildren;
 	/** Default maximum number of allowed children. */
 	private final static int MAX_CHILDREN = 10;
 	/** Maximum number of allowed children. */
 	private int maxChildren = MAX_CHILDREN;
 	/** Default maximum number of iterations. */
 	private final static int MAX_ITERATIONS = 20;
 	/** Maximum number of iterations */
 	private int maxIterations = MAX_ITERATIONS;
 	/** The Jquery path to retrieve the identifier */
 	private String idPath = "$.id";
 	public WfConfig() {
 	}
 	/**
 	 * Instantiates a new dedup config.
 	 *
 	 * @param entityType
 	 *            the entity type
 	 * @param orderField
 	 *            the order field
 	 * @param rootBuilder
 	 *            the root builder families
 	 * @param dedupRun
 	 *            the dedup run
 	 * @param skipList
 	 *            the skip list
 	 * @param queueMaxSize
 	 *            the queue max size
 	 * @param groupMaxSize
 	 *            the group max size
 	 * @param slidingWindowSize
 	 *            the sliding window size
 	 * @param includeChildren
 	 *            allows the children to be included in the representative records or not.
 	 * @param maxIterations
 	 * 			  the maximum number of iterations
 	 * @param idPath
 	 * 			  the path for the id of the entity
 	 */
 	public WfConfig(final String entityType, final String orderField, final List<String> rootBuilder,
 		final String dedupRun,
 		final Set<String> skipList, final int queueMaxSize, final int groupMaxSize, final int slidingWindowSize,
 		final boolean includeChildren, final int maxIterations, final String idPath) {
 		super();
 		this.entityType = entityType;
 		this.orderField = orderField;
 		this.rootBuilder = rootBuilder;
 		this.dedupRun = cleanupStringNumber(dedupRun);
 		this.skipList = skipList;
 		this.queueMaxSize = queueMaxSize;
 		this.groupMaxSize = groupMaxSize;
 		this.slidingWindowSize = slidingWindowSize;
 		this.includeChildren = includeChildren;
 		this.maxIterations = maxIterations;
 		this.idPath = idPath;
 	}
 	/**
 	 * Cleanup string number.
 	 *
 	 * @param s
 	 *            the s
 	 * @return the string
 	 */
 	private String cleanupStringNumber(final String s) {
 		return s.contains("'") ? s.replaceAll("'", "") : s;
 	}
 	public boolean hasSubType() {
 		return StringUtils.isNotBlank(getSubEntityType()) && StringUtils.isNotBlank(getSubEntityValue());
 	}
 	public String getEntityType() {
 		return entityType;
 	}
 	public void setEntityType(final String entityType) {
 		this.entityType = entityType;
 	}
 	public String getSubEntityType() {
 		return subEntityType;
 	}
 	public void setSubEntityType(final String subEntityType) {
 		this.subEntityType = subEntityType;
 	}
 	public String getSubEntityValue() {
 		return subEntityValue;
 	}
 	public void setSubEntityValue(final String subEntityValue) {
 		this.subEntityValue = subEntityValue;
 	}
 	public String getOrderField() {
 		return orderField;
 	}
 	public void setOrderField(final String orderField) {
 		this.orderField = orderField;
 	}
 	public List<String> getRootBuilder() {
 		return rootBuilder;
 	}
 	public void setRootBuilder(final List<String> rootBuilder) {
 		this.rootBuilder = rootBuilder;
 	}
 	public Set<String> getSkipList() {
 		return skipList != null ? skipList : new HashSet<String>();
 	}
 	public void setSkipList(final Set<String> skipList) {
 		this.skipList = skipList;
 	}
 	public String getDedupRun() {
 		return dedupRun;
 	}
 	public void setDedupRun(final String dedupRun) {
 		this.dedupRun = dedupRun;
 	}
 	public double getThreshold() {
 		return threshold;
 	}
 	public void setThreshold(final double threshold) {
 		this.threshold = threshold;
 	}
 	public int getQueueMaxSize() {
 		return queueMaxSize;
 	}
 	public void setQueueMaxSize(final int queueMaxSize) {
 		this.queueMaxSize = queueMaxSize;
 	}
 	public int getGroupMaxSize() {
 		return groupMaxSize;
 	}
 	public void setGroupMaxSize(final int groupMaxSize) {
 		this.groupMaxSize = groupMaxSize;
 	}
 	public int getSlidingWindowSize() {
 		return slidingWindowSize;
 	}
 	public void setSlidingWindowSize(final int slidingWindowSize) {
 		this.slidingWindowSize = slidingWindowSize;
 	}
 	public String getConfigurationId() {
 		return configurationId;
 	}
 	public void setConfigurationId(final String configurationId) {
 		this.configurationId = configurationId;
 	}
 	public boolean isIncludeChildren() {
 		return includeChildren;
 	}
 	public void setIncludeChildren(final boolean includeChildren) {
 		this.includeChildren = includeChildren;
 	}
 	public int getMaxChildren() {
 		return maxChildren;
 	}
 	public void setMaxChildren(final int maxChildren) {
 		this.maxChildren = maxChildren;
 	}
 	public int getMaxIterations() {
 		return maxIterations;
 	}
 	public void setMaxIterations(int maxIterations) {
 		this.maxIterations = maxIterations;
 	}
 	public String getIdPath() {
 		return idPath;
 	}
 	public void setIdPath(String idPath) {
 		this.idPath = idPath;
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see java.lang.Object#toString()
 	 */
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("unable to serialise " + this.getClass().getName(), e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/ClusteringDef.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/ClusteringDef.java
@ -0,0 +1,63 @@
 package eu.dnetlib.pace.model;
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.List;
 import java.util.Map;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import eu.dnetlib.pace.clustering.ClusteringFunction;
 import eu.dnetlib.pace.config.PaceConfig;
 import eu.dnetlib.pace.util.PaceException;
 public class ClusteringDef implements Serializable {
 	private String name;
 	private List<String> fields;
 	private Map<String, Integer> params;
 	public ClusteringDef() {
 	}
 	public String getName() {
 		return name;
 	}
 	public void setName(final String name) {
 		this.name = name;
 	}
 	public ClusteringFunction clusteringFunction() {
 		return PaceConfig.resolver.getClusteringFunction(getName(), params);
 	}
 	public List<String> getFields() {
 		return fields;
 	}
 	public void setFields(final List<String> fields) {
 		this.fields = fields;
 	}
 	public Map<String, Integer> getParams() {
 		return params;
 	}
 	public void setParams(final Map<String, Integer> params) {
 		this.params = params;
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("unable to serialise " + this.getClass().getName(), e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/FieldDef.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/FieldDef.java
@ -0,0 +1,103 @@
 package eu.dnetlib.pace.model;
 import java.io.Serializable;
 import java.util.List;
 import com.fasterxml.jackson.core.JsonProcessingException;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import com.google.common.base.Splitter;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Type;
 /**
 * The schema is composed by field definitions (FieldDef). Each field has a type, a name, and an associated compare algorithm.
 */
 public class FieldDef implements Serializable {
 	public final static String PATH_SEPARATOR = "/";
 	private String name;
 	private String path;
 	private Type type;
 	private boolean overrideMatch;
 	/**
 	 * Sets maximum size for the repeatable fields in the model. -1 for unbounded size.
 	 */
 	private int size = -1;
 	/**
 	 * Sets maximum length for field values in the model. -1 for unbounded length.
 	 */
 	private int length = -1;
 	public FieldDef() {
 	}
 	public String getName() {
 		return name;
 	}
 	public String getPath() {
 		return path;
 	}
 	public List<String> getPathList() {
 		return Lists.newArrayList(Splitter.on(PATH_SEPARATOR).split(getPath()));
 	}
 	public Type getType() {
 		return type;
 	}
 	public void setType(final Type type) {
 		this.type = type;
 	}
 	public boolean isOverrideMatch() {
 		return overrideMatch;
 	}
 	public void setOverrideMatch(final boolean overrideMatch) {
 		this.overrideMatch = overrideMatch;
 	}
 	public int getSize() {
 		return size;
 	}
 	public void setSize(int size) {
 		this.size = size;
 	}
 	public int getLength() {
 		return length;
 	}
 	public void setLength(int length) {
 		this.length = length;
 	}
 	public void setName(String name) {
 		this.name = name;
 	}
 	public void setPath(String path) {
 		this.path = path;
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (JsonProcessingException e) {
 			return null;
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/Person.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/Person.java
@ -0,0 +1,156 @@
 package eu.dnetlib.pace.model;
 import java.nio.charset.Charset;
 import java.text.Normalizer;
 import java.util.List;
 import java.util.Set;
 import com.google.common.base.Joiner;
 import com.google.common.base.Splitter;
 import com.google.common.collect.Iterables;
 import com.google.common.collect.Lists;
 import com.google.common.hash.Hashing;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 import eu.dnetlib.pace.util.Capitalise;
 import eu.dnetlib.pace.util.DotAbbreviations;
 public class Person {
 	private static final String UTF8 = "UTF-8";
 	private List<String> name = Lists.newArrayList();
 	private List<String> surname = Lists.newArrayList();
 	private List<String> fullname = Lists.newArrayList();
 	private final String original;
 	private static Set<String> particles = null;
 	public Person(String s, final boolean aggressive) {
 		original = s;
 		s = Normalizer.normalize(s, Normalizer.Form.NFD);
 		s = s.replaceAll("\\(.+\\)", "");
 		s = s.replaceAll("\\[.+\\]", "");
 		s = s.replaceAll("\\{.+\\}", "");
 		s = s.replaceAll("\\s+-\\s+", "-");
 		s = s.replaceAll("[\\p{Punct}&&[^,-]]", " ");
 		s = s.replaceAll("\\d", " ");
 		s = s.replaceAll("\\n", " ");
 		s = s.replaceAll("\\.", " ");
 		s = s.replaceAll("\\s+", " ");
 		if (aggressive) {
 			s = s.replaceAll("[\\p{InCombiningDiacriticalMarks}&&[^,-]]", "");
 			// s = s.replaceAll("[\\W&&[^,-]]", "");
 		}
 		if (s.contains(",")) { // if the name contains a comma it is easy derivable the name and the surname
 			final String[] arr = s.split(",");
 			if (arr.length == 1) {
 				fullname = splitTerms(arr[0]);
 			} else if (arr.length > 1) {
 				surname = splitTerms(arr[0]);
 				name = splitTerms(arr[1]);
 				fullname.addAll(surname);
 				fullname.addAll(name);
 			}
 		} else {
 			fullname = splitTerms(s);
 			int lastInitialPosition = fullname.size();
 			boolean hasSurnameInUpperCase = false;
 			for (int i = 0; i < fullname.size(); i++) {
 				final String term = fullname.get(i);
 				if (term.length() == 1) {
 					lastInitialPosition = i;
 				} else if (term.equals(term.toUpperCase())) {
 					hasSurnameInUpperCase = true;
 				}
 			}
 			if (lastInitialPosition < (fullname.size() - 1)) { // Case: Michele G. Artini
 				name = fullname.subList(0, lastInitialPosition + 1);
 				surname = fullname.subList(lastInitialPosition + 1, fullname.size());
 			} else if (hasSurnameInUpperCase) { // Case: Michele ARTINI
 				for (final String term : fullname) {
 					if ((term.length() > 1) && term.equals(term.toUpperCase())) {
 						surname.add(term);
 					} else {
 						name.add(term);
 					}
 				}
 			}
 		}
 	}
 	private List<String> splitTerms(final String s) {
 		if (particles == null) {
 			particles = AbstractPaceFunctions.loadFromClasspath("/eu/dnetlib/pace/config/name_particles.txt");
 		}
 		final List<String> list = Lists.newArrayList();
 		for (final String part : Splitter.on(" ").omitEmptyStrings().split(s)) {
 			if (!particles.contains(part.toLowerCase())) {
 				list.add(part);
 			}
 		}
 		return list;
 	}
 	public List<String> getName() {
 		return name;
 	}
 	public String getNameString() {
 		return Joiner.on(" ").join(getName());
 	}
 	public List<String> getSurname() {
 		return surname;
 	}
 	public List<String> getFullname() {
 		return fullname;
 	}
 	public String getOriginal() {
 		return original;
 	}
 	public String hash() {
 		return Hashing.murmur3_128().hashString(getNormalisedFullname(), Charset.forName(UTF8)).toString();
 	}
 	public String getNormalisedFirstName() {
 		return Joiner.on(" ").join(getCapitalFirstnames());
 	}
 	public String getNormalisedSurname() {
 		return Joiner.on(" ").join(getCapitalSurname());
 	}
 	public String getSurnameString() {
 		return Joiner.on(" ").join(getSurname());
 	}
 	public String getNormalisedFullname() {
 		return isAccurate() ? getNormalisedSurname() + ", " + getNormalisedFirstName() : Joiner.on(" ").join(fullname);
 	}
 	public List<String> getCapitalFirstnames() {
 		return Lists.newArrayList(Iterables.transform(getNameWithAbbreviations(), new Capitalise()));
 	}
 	public List<String> getCapitalSurname() {
 		return Lists.newArrayList(Iterables.transform(surname, new Capitalise()));
 	}
 	public List<String> getNameWithAbbreviations() {
 		return Lists.newArrayList(Iterables.transform(name, new DotAbbreviations()));
 	}
 	public boolean isAccurate() {
 		return ((name != null) && (surname != null) && !name.isEmpty() && !surname.isEmpty());
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/PersonComparatorUtils.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/PersonComparatorUtils.java
@ -0,0 +1,119 @@
 package eu.dnetlib.pace.model;
 import java.util.ArrayList;
 import java.util.Collections;
 import java.util.List;
 import java.util.Set;
 import com.google.common.collect.Lists;
 import com.google.common.collect.Sets;
 public class PersonComparatorUtils {
 	private static final int MAX_FULLNAME_LENGTH = 50;
 	public static Set<String> getNgramsForPerson(String fullname) {
 		Set<String> set = Sets.newHashSet();
 		if (fullname.length() > MAX_FULLNAME_LENGTH) {
 			return set;
 		}
 		Person p = new Person(fullname, true);
 		if (p.isAccurate()) {
 			for (String name : p.getName()) {
 				for (String surname : p.getSurname()) {
 					set.add((name.charAt(0) + "_" + surname).toLowerCase());
 				}
 			}
 		} else {
 			List<String> list = p.getFullname();
 			for (int i = 0; i < list.size(); i++) {
 				if (list.get(i).length() > 1) {
 					for (int j = 0; j < list.size(); j++) {
 						if (i != j) {
 							set.add((list.get(j).charAt(0) + "_" + list.get(i)).toLowerCase());
 						}
 					}
 				}
 			}
 		}
 		return set;
 	}
 	public static boolean areSimilar(String s1, String s2) {
 		Person p1 = new Person(s1, true);
 		Person p2 = new Person(s2, true);
 		if (p1.isAccurate() && p2.isAccurate()) {
 			return verifyNames(p1.getName(), p2.getName()) && verifySurnames(p1.getSurname(), p2.getSurname());
 		} else {
 			return verifyFullnames(p1.getFullname(), p2.getFullname());
 		}
 	}
 	private static boolean verifyNames(List<String> list1, List<String> list2) {
 		return verifySimilarity(extractExtendedNames(list1), extractExtendedNames(list2))
 			&& verifySimilarity(extractInitials(list1), extractInitials(list2));
 	}
 	private static boolean verifySurnames(List<String> list1, List<String> list2) {
 		if (list1.size() != list2.size()) {
 			return false;
 		}
 		for (int i = 0; i < list1.size(); i++) {
 			if (!list1.get(i).equalsIgnoreCase(list2.get(i))) {
 				return false;
 			}
 		}
 		return true;
 	}
 	private static boolean verifyFullnames(List<String> list1, List<String> list2) {
 		Collections.sort(list1);
 		Collections.sort(list2);
 		return verifySimilarity(extractExtendedNames(list1), extractExtendedNames(list2))
 			&& verifySimilarity(extractInitials(list1), extractInitials(list2));
 	}
 	private static List<String> extractExtendedNames(List<String> list) {
 		ArrayList<String> res = Lists.newArrayList();
 		for (String s : list) {
 			if (s.length() > 1) {
 				res.add(s.toLowerCase());
 			}
 		}
 		return res;
 	}
 	private static List<String> extractInitials(List<String> list) {
 		ArrayList<String> res = Lists.newArrayList();
 		for (String s : list) {
 			res.add(s.substring(0, 1).toLowerCase());
 		}
 		return res;
 	}
 	private static boolean verifySimilarity(List<String> list1, List<String> list2) {
 		if (list1.size() > list2.size()) {
 			return verifySimilarity(list2, list1);
 		}
 		// NB: List2 is greater than list1 (or equal)
 		int pos = -1;
 		for (String s : list1) {
 			int curr = list2.indexOf(s);
 			if (curr > pos) {
 				list2.set(curr, "*"); // I invalidate the found element, example: "amm - amm"
 				pos = curr;
 			} else {
 				return false;
 			}
 		}
 		return true;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/RowDataOrderingComparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/RowDataOrderingComparator.java
@ -0,0 +1,60 @@
 package eu.dnetlib.pace.model;
 import java.util.Comparator;
 import org.apache.spark.sql.Row;
 import eu.dnetlib.pace.clustering.NGramUtils;
 /**
 * The Class MapDocumentComparator.
 */
 public class RowDataOrderingComparator implements Comparator<Row> {
 	/** The comparator field. */
 	private int comparatorField;
 	/**
 	 * Instantiates a new map document comparator.
 	 *
 	 * @param comparatorField
 	 *            the comparator field
 	 */
 	public RowDataOrderingComparator(final int comparatorField) {
 		this.comparatorField = comparatorField;
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see java.util.Comparator#compare(java.lang.Object, java.lang.Object)
 	 */
 	@Override
 	public int compare(final Row d1, final Row d2) {
 		if (d1 == null)
 			return d2 == null ? 0 : -1;
 		else if (d2 == null) {
 			return 1;
 		}
 		final String o1 = d1.getString(comparatorField);
 		final String o2 = d2.getString(comparatorField);
 		if (o1 == null)
 			return o2 == null ? 0 : -1;
 		else if (o2 == null) {
 			return 1;
 		}
 		final String to1 = NGramUtils.cleanupForOrdering(o1);
 		final String to2 = NGramUtils.cleanupForOrdering(o2);
 		int res = to1.compareTo(to2);
 		if (res == 0) {
 			return o1.compareTo(o2);
 		}
 		return res;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/SparkDedupConfig.scala
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/model/SparkDedupConfig.scala
@ -0,0 +1,644 @@
 package eu.dnetlib.pace.model
 import com.jayway.jsonpath.{Configuration, JsonPath, Option}
 import eu.dnetlib.pace.config.{DedupConfig, Type}
 import eu.dnetlib.pace.tree.support.TreeProcessor
 import eu.dnetlib.pace.util.MapDocumentUtil.truncateValue
 import eu.dnetlib.pace.util.{BlockProcessor, MapDocumentUtil, SparkReporter}
 import org.apache.spark.SparkContext
 import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
 import org.apache.spark.sql.catalyst.encoders.{ExpressionEncoder, RowEncoder}
 import org.apache.spark.sql.{Column, Dataset, Encoder, Encoders, Row, functions}
 import org.apache.spark.sql.catalyst.expressions.{GenericRowWithSchema, Literal}
 import org.apache.spark.sql.expressions.{Aggregator, MutableAggregationBuffer, UserDefinedAggregateFunction, UserDefinedFunction, Window}
 import org.apache.spark.sql.types.{ArrayType, DataType, DataTypes, Metadata, StructField, StructType}
 import java.util
 import java.util.function.Predicate
 import java.util.regex.Pattern
 import scala.collection.JavaConverters._
 import scala.collection.mutable
 import org.apache.spark.sql.functions.{col, lit, udf}
 import java.util.Collections
 import java.util.stream.Collectors
 case class SparkDedupConfig(conf: DedupConfig, numPartitions: Int) extends Serializable {
  private val URL_REGEX: Pattern = Pattern.compile("^\\s*(http|https|ftp)\\://.*")
  private val CONCAT_REGEX: Pattern = Pattern.compile("\\|\\|\\|")
  private val urlFilter = (s: String) => URL_REGEX.matcher(s).matches
  val modelExtractor: (Dataset[String] => Dataset[Row]) = df => {
    df.withColumn("mapDocument", rowFromJsonUDF.apply(df.col(df.columns(0))))
      .withColumn("identifier", new Column("mapDocument.identifier"))
      //.repartition(new Column("identifier"))
      .dropDuplicates("identifier")
      .select("mapDocument.*")
    df.map(r => rowFromJson(r))(RowEncoder(rowDataType))
      .dropDuplicates("identifier")
  }
  val generateClusters: (Dataset[Row] => Dataset[Row]) = df => {
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    val df_with_keys = conf
      .clusterings()
      .asScala
      .foldLeft(df_with_filters)((res, cd) => {
        res.withColumn(
          cd.getName + "_clustered",
          functions.explode_outer(
            clusterValuesUDF(cd).apply(
              functions.array(
                cd.getFields.asScala
                  .map(f => res.col(if (conf.blacklists.containsKey(f)) f.concat("_filtered") else f)): _*
              )
            )
          )
        )
      })
    // filter blacklisted values// filter blacklisted values
    // create one column per cluster prefix// create one column per cluster prefix
    // GROUPING sets approach// GROUPING sets approach
    val tempTable = this.getClass.getSimpleName + "__generateClusters";
    df_with_keys.createOrReplaceTempView(this.getClass.getSimpleName + "__generateClusters")
    val keys = conf.clusterings().asScala.map(_.getName + "_clustered").mkString(",")
    val fields = rowDataType.fieldNames.mkString(",")
    //  Using SQL because GROUPING SETS are not available through Scala/Java DSL
    df_with_keys.sqlContext.sql(
      ("SELECT coalesce(" + keys + ") as key, sort_array(collect_sort_slice(" + fields + ")) as block FROM " + tempTable + " WHERE coalesce(" + keys + ") IS NOT NULL GROUP BY GROUPING SETS (" + keys + ") HAVING size(block) > 1")
    )
  }
  val generateClustersWithDFAPI: (Dataset[Row] => Dataset[Row]) = df => {
   System.out.println(conf.getWf.getEntityType + "::" +conf.getWf.getSubEntityType)
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    var relBlocks: Dataset[Row] = null
    import scala.collection.JavaConversions._
    for (cd <- conf.clusterings()) {
      val columns: util.List[Column] = new util.ArrayList[Column](cd.getFields().size)
      for (fName <- cd.getFields()) {
        if (conf.blacklists.containsKey(fName))
          columns.add(new Column(fName + "_filtered"))
        else
          columns.add(new Column(fName))
      }
      val tmp: Dataset[Row] = df_with_filters.withColumn("key", functions.explode(clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*))))
       /*.select((Seq(rowDataType.fieldNames: _*) ++ Seq("key")).map(col): _*)
       .groupByKey(r => r.getAs[String]("key"))(Encoders.STRING)
        .agg(collectSortSliceAggregator.toColumn)
        .toDF("key", "block")
        .select(col("block.block").as("block"))*/
      System.out.println(cd.getName)
      val  ds = tmp.groupBy("key")
      // .agg(functions.sort_array(collectSortSliceUDAF(rowDataType.fieldNames.map(col): _*)).as("block"))
       .agg(functions.collect_set(functions.struct(rowDataType.fieldNames.map(col): _*)).as("block"))
        //.filter(functions.size(new Column("block")).geq(new Literal(2, DataTypes.IntegerType)))
      //df_with_filters.printSchema()
      //ds.printSchema()
      if (relBlocks == null) relBlocks = ds
      else relBlocks = relBlocks.union(ds)
    }
   // System.out.println()
    relBlocks
  }
  val generateClustersWithWindows: (Dataset[Row] => Dataset[Row]) = df => {
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    var relBlocks: Dataset[Row] = null
    import scala.collection.JavaConversions._
    for (cd <- conf.clusterings()) {
      System.out.println(conf.getWf.getEntityType + "::" + conf.getWf.getSubEntityType+ ": " + cd.getName + " " + cd.toString)
      val columns: util.List[Column] = new util.ArrayList[Column](cd.getFields().size)
      for (fName <- cd.getFields()) {
        if (conf.blacklists.containsKey(fName))
          columns.add(new Column(fName + "_filtered"))
        else
          columns.add(new Column(fName))
      }
      // Add 'key' column with the value generated by the given clustering definition
      val ds: Dataset[Row] = df_with_filters.withColumn("key", functions.explode(clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*))))
        // Add position column having the position of the row within the set of rows having the same key value ordered by the sorting value
        .withColumn("position", functions.row_number().over(Window.partitionBy("key").orderBy(col(conf.getWf.getOrderField))))
        // filter out rows with position exceeding the maxqueuesize parameter
        .filter(col("position").leq(conf.getWf.getQueueMaxSize))
        .groupBy("key")
        .agg(functions.collect_set(functions.struct(rowDataType.fieldNames.map(col): _*)).as("block"))
        .filter(functions.size(new Column("block")).geq(new Literal(2, DataTypes.IntegerType)))
      if (relBlocks == null) relBlocks = ds
      else relBlocks = relBlocks.union(ds)
    }
    relBlocks
  }
  val generateClustersWithDFAPIMerged: (Dataset[Row] => Dataset[Row]) = df => {
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    import scala.collection.JavaConversions._
   val keys = conf.clusterings().foldLeft(null : Column)((res, cd) => {
     val columns: util.List[Column] = new util.ArrayList[Column](cd.getFields().size)
     for (fName <- cd.getFields()) {
       if (conf.blacklists.containsKey(fName))
         columns.add(new Column(fName + "_filtered"))
       else
         columns.add(new Column(fName))
     }
     if (res != null)
     functions.array_union(res, clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*)))
     else
     clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*))
   })
      val ds: Dataset[Row] = df_with_filters.withColumn("key", functions.explode(keys))
        .select((Seq(rowDataType.fieldNames: _*) ++ Seq("key")).map(col): _*)
        .groupByKey(r => r.getAs[String]("key"))(Encoders.STRING)
        .agg(collectSortSliceAggregator.toColumn)
        .toDF("key", "block")
        .select(col("block.block").as("block"))
        /*.groupBy("key")
        .agg(collectSortSliceUDAF(rowDataType.fieldNames.map(col): _*).as("block"))*/
        .filter(functions.size(new Column("block")).geq(new Literal(2, DataTypes.IntegerType)))
    ds
  }
  val generateClustersWithRDDReduction: (Dataset[Row] => Dataset[Row]) = df => {
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    var relBlocks: Dataset[Row] = null
    import scala.collection.JavaConversions._
    for (cd <- conf.clusterings()) {
      val columns: util.List[Column] = new util.ArrayList[Column](cd.getFields().size)
      for (fName <- cd.getFields()) {
        if (conf.blacklists.containsKey(fName))
          columns.add(new Column(fName + "_filtered"))
        else
          columns.add(new Column(fName))
      }
      val ds: Dataset[Row] = df.sparkSession.createDataFrame(df_with_filters.withColumn("key", functions.explode(clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*))))
        .select(col("key"), functions.array(functions.struct(rowDataType.fieldNames.map(col): _*).as("value")))
        .rdd.keyBy(_.getString(0))
        .reduceByKey((a, b) => {
          val b1 = a.getSeq[Row](1)
          val b2 = b.getSeq[Row](1)
          if (b1.size + b2.size > conf.getWf.getQueueMaxSize)
            Row(a.get(0), b1.union(b2).sortBy(_.getString(orderingFieldPosition)).slice(0, conf.getWf.getQueueMaxSize))
          else
            Row(a.get(0), b1.union(b2))
        })
        .map(_._2)
        .filter(k => k.getSeq(1).size > 1),
        new StructType().add(StructField("key", DataTypes.StringType)).add(StructField("block", ArrayType(rowDataType)))
      )
      if (relBlocks == null) relBlocks = ds
      else relBlocks = relBlocks.union(ds)
    }
    relBlocks
  }
  val printAnalytics: (Dataset[Row] => Dataset[Row]) = df => {
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    var relBlocks: Dataset[Row] = null
    import scala.collection.JavaConversions._
    for (cd <- conf.clusterings()) {
      val columns: util.List[Column] = new util.ArrayList[Column](cd.getFields().size)
      for (fName <- cd.getFields()) {
        if (conf.blacklists.containsKey(fName))
          columns.add(new Column(fName + "_filtered"))
        else
          columns.add(new Column(fName))
      }
      // Add 'key' column with the value generated by the given clustering definition
      val ds: Dataset[Row] = df_with_filters.withColumn("key", functions.explode(clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*))))
        // Add position column having the position of the row within the set of rows having the same key value ordered by the sorting value
        .withColumn("position", functions.row_number().over(Window.partitionBy("key").orderBy(conf.getWf.getOrderField)))
        // filter out rows with position exceeding the maxqueuesize parameter
        .filter(col("position").lt(conf.getWf.getQueueMaxSize))
      // inner join to compute all combination of rows to compare
      // note the condition on position to obtain 'windowing': given a row this is compared at most with the next
      // SlidingWindowSize rows following the sort order
      val dsWithMatch = ds.as("l").join(ds.as("r"),
        col("l.key").equalTo(col("r.key")),
        "inner"
      )
        .filter((col("l.position").lt(col("r.position")))
          && (col("r.position").lt(col("l.position").plus(lit(conf.getWf.getSlidingWindowSize)))))
        // Add match column with the result of comparison
      // dsWithMatch.show(false)
      if (relBlocks == null)
        relBlocks = dsWithMatch
      else
        relBlocks = relBlocks.union(dsWithMatch)
    }
    System.out.println(conf.getWf.getEntityType + "::" + conf.getWf.getSubEntityType)
    System.out.println("Total number of comparations: " + relBlocks.count())
    df
  }
  val generateAndProcessClustersWithJoins: (Dataset[Row] => Dataset[Row]) = df => {
    val df_with_filters = conf.getPace.getModel.asScala.foldLeft(df)((res, fdef) => {
      if (conf.blacklists.containsKey(fdef.getName)) {
        res.withColumn(
          fdef.getName + "_filtered",
          filterColumnUDF(fdef).apply(new Column(fdef.getName))
        )
      } else {
        res
      }
    })
    var relBlocks: Dataset[Row] = null
    import scala.collection.JavaConversions._
    for (cd <- conf.clusterings()) {
      val columns: util.List[Column] = new util.ArrayList[Column](cd.getFields().size)
      for (fName <- cd.getFields()) {
        if (conf.blacklists.containsKey(fName))
          columns.add(new Column(fName + "_filtered"))
        else
          columns.add(new Column(fName))
      }
      // Add 'key' column with the value generated by the given clustering definition
      val ds: Dataset[Row] = df_with_filters.withColumn("key", functions.explode(clusterValuesUDF(cd).apply(functions.array(columns.asScala: _*))))
        // Add position column having the position of the row within the set of rows having the same key value ordered by the sorting value
        .withColumn("position", functions.row_number().over(Window.partitionBy("key").orderBy(conf.getWf.getOrderField)))
        // filter out rows with position exceeding the maxqueuesize parameter
        .filter(col("position").lt(conf.getWf.getQueueMaxSize))
      // inner join to compute all combination of rows to compare
      // note the condition on position to obtain 'windowing': given a row this is compared at most with the next
      // SlidingWindowSize rows following the sort order
      val dsWithMatch = ds.as("l").join(ds.as("r"),
        col("l.key").equalTo(col("r.key")),
        "inner"
        )
        .filter((col("l.position").lt(col("r.position")))
          && (col("r.position").lt(col("l.position").plus(lit(conf.getWf.getSlidingWindowSize)))))
        // Add match column with the result of comparison
        .withColumn("match", udf[Boolean, Row, Row]((a, b) => {
          val treeProcessor = new TreeProcessor(conf)
         treeProcessor.compare(a, b)
        }).apply(functions.struct(rowDataType.fieldNames.map(s => col("l.".concat(s))): _*), functions.struct(rowDataType.fieldNames.map(s => col("r.".concat(s))): _*)))
        .filter(col("match").equalTo(true))
        .select(col("l.identifier").as("from"), col("r.identifier").as("to"))
     // dsWithMatch.show(false)
      if (relBlocks == null)
        relBlocks = dsWithMatch
      else
        relBlocks = relBlocks.union(dsWithMatch)
    }
    val res = relBlocks
      //.select(col("l.identifier").as("from"), col("r.identifier").as("to"))
      //.repartition()
      .distinct()
   // res.show(false)
    res.select(functions.struct("from", "to"))
  }
  val processClusters: (Dataset[Row] => Dataset[Row]) = df => {
    val entity = conf.getWf.getEntityType
    df.filter(functions.size(new Column("block")).geq(new Literal(2, DataTypes.IntegerType)))
      .withColumn("relations", processBlock(df.sqlContext.sparkContext).apply(new Column("block")))
      .select(functions.explode(new Column("relations")).as("relation"))
      //.repartition(new Column("relation"))
      .dropDuplicates("relation")
  }
  val rowDataType: StructType = {
 //    val unordered = conf.getPace.getModel.asScala.foldLeft(
 //      new StructType()
 //    )((resType, fdef) => {
 //      resType.add(fdef.getType match {
 //        case Type.List | Type.JSON =>
 //          StructField(fdef.getName, DataTypes.createArrayType(DataTypes.StringType), true, Metadata.empty)
 //        case Type.DoubleArray =>
 //          StructField(fdef.getName, DataTypes.createArrayType(DataTypes.DoubleType), true, Metadata.empty)
 //        case _ =>
 //          StructField(fdef.getName, DataTypes.StringType, true, Metadata.empty)
 //      })
 //    })
 //
 //    conf.getPace.getModel.asScala.filterNot(_.getName.equals(conf.getWf.getOrderField)).foldLeft(
 //      new StructType()
 //        .add(unordered(conf.getWf.getOrderField))
 //        .add(StructField("identifier", DataTypes.StringType, false, Metadata.empty))
 //    )((resType, fdef) => resType.add(unordered(fdef.getName)))
    val identifier = new FieldDef()
    identifier.setName("identifier")
    identifier.setType(Type.String)
    (conf.getPace.getModel.asScala ++ Seq(identifier)).sortBy(_.getName)
      .foldLeft(
          new StructType()
        )((resType, fdef) => {
          resType.add(fdef.getType match {
            case Type.List | Type.JSON =>
              StructField(fdef.getName, DataTypes.createArrayType(DataTypes.StringType), true, Metadata.empty)
            case Type.DoubleArray =>
              StructField(fdef.getName, DataTypes.createArrayType(DataTypes.DoubleType), true, Metadata.empty)
            case _ =>
              StructField(fdef.getName, DataTypes.StringType, true, Metadata.empty)
          })
        })
  }
  val identityFieldPosition: Int = rowDataType.fieldIndex("identifier")
  val orderingFieldPosition: Int = rowDataType.fieldIndex(conf.getWf.getOrderField)
  def rowFromJson(json: String) : Row = {
    val documentContext =
      JsonPath.using(Configuration.defaultConfiguration.addOptions(Option.SUPPRESS_EXCEPTIONS)).parse(json)
    val values = new Array[Any](rowDataType.size)
    values(identityFieldPosition) = MapDocumentUtil.getJPathString(conf.getWf.getIdPath, documentContext)
    rowDataType.fieldNames.zipWithIndex.foldLeft(values) {
      case ((res, (fname, index))) => {
        val fdef = conf.getPace.getModelMap.get(fname)
        if (fdef != null) {
          res(index) = fdef.getType match {
            case Type.String | Type.Int =>
              MapDocumentUtil.truncateValue(
                MapDocumentUtil.getJPathString(fdef.getPath, documentContext),
                fdef.getLength
              )
            case Type.URL =>
              var uv = MapDocumentUtil.getJPathString(fdef.getPath, documentContext)
              if (!urlFilter(uv)) uv = ""
              uv
            case Type.List | Type.JSON =>
              MapDocumentUtil.truncateList(
                MapDocumentUtil.getJPathList(fdef.getPath, documentContext, fdef.getType),
                fdef.getSize
              ).toArray
            case Type.StringConcat =>
              val jpaths = CONCAT_REGEX.split(fdef.getPath)
              truncateValue(
                jpaths
                  .map(jpath => MapDocumentUtil.getJPathString(jpath, documentContext))
                  .mkString(" "),
                fdef.getLength
              )
            case Type.DoubleArray =>
              MapDocumentUtil.getJPathArray(fdef.getPath, json)
          }
        }
        res
      }
    }
    new GenericRowWithSchema(values, rowDataType)
  }
  val rowFromJsonUDF = udf(rowFromJson(_), rowDataType)
  def filterColumnUDF(fdef: FieldDef): UserDefinedFunction = {
    val blacklist: Predicate[String] = conf.blacklists().get(fdef.getName)
    if (blacklist == null) {
      throw new IllegalArgumentException("Column: " + fdef.getName + " does not have any filter")
    } else {
      fdef.getType match {
        case Type.List | Type.JSON =>
          udf[Array[String], Array[String]](values => {
            values.filter((v: String) => !blacklist.test(v))
          })
        case _ =>
          udf[String, String](v => {
            if (blacklist.test(v)) ""
            else v
          })
      }
    }
  }
  def clusterValuesUDF(cd: ClusteringDef) = {
    udf[mutable.WrappedArray[String], mutable.WrappedArray[Object]](values => {
      values.flatMap(f => cd.clusteringFunction().apply(conf, Seq(f.toString).asJava).asScala).map(cd.getName.concat(_))
    })
  }
  def processBlock(implicit sc: SparkContext) = {
    val accumulators = SparkReporter.constructAccumulator(conf, sc)
    udf[Array[Tuple2[String, String]], mutable.WrappedArray[Row]](block => {
      val reporter = new SparkReporter(accumulators)
      val mapDocuments = block.asJava.stream
        .sorted(new RowDataOrderingComparator(orderingFieldPosition))
        .limit(conf.getWf.getQueueMaxSize)
        .collect(Collectors.toList[Row]())
      new BlockProcessor(conf, identityFieldPosition, orderingFieldPosition).processSortedRows(mapDocuments, reporter)
      reporter.getRelations.asScala.toArray
    }).asNondeterministic()
  }
  val collectSortSliceAggregator : Aggregator[Row,Seq[Row], Row] = new Aggregator[Row, Seq[Row], Row] () {
    override def zero: Seq[Row] = Seq[Row]()
    override def reduce(buffer: Seq[Row], input: Row): Seq[Row] = {
      merge(buffer, Seq(input))
    }
    override def merge(buffer: Seq[Row], toMerge: Seq[Row]): Seq[Row] = {
      val newBlock = buffer ++ toMerge
      if (newBlock.size > conf.getWf.getQueueMaxSize)
        newBlock.sortBy(_.getString(orderingFieldPosition)).slice(0, conf.getWf.getQueueMaxSize)
      else
        newBlock
    }
    override def finish(reduction: Seq[Row]): Row = {
      Row(reduction.toArray)
    }
    override def bufferEncoder: Encoder[Seq[Row]] = Encoders.kryo[Seq[Row]]
    override def outputEncoder: Encoder[Row] = RowEncoder.apply(new StructType().add("block", DataTypes.createArrayType(rowDataType), nullable = true))
  }
  val collectSortSliceUDAF : UserDefinedAggregateFunction = new UserDefinedAggregateFunction {
    override def inputSchema: StructType = rowDataType
    override def bufferSchema: StructType = {
      new StructType().add("block", DataTypes.createArrayType(rowDataType), nullable = true)
    }
    override def dataType: DataType = DataTypes.createArrayType(rowDataType)
    override def deterministic: Boolean = true
    override def initialize(buffer: MutableAggregationBuffer): Unit = {
      buffer(0) = Seq[Row]()
    }
    override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
      val newBlock = buffer.getSeq[Row](0) ++ Seq(input)
      if (newBlock.size > conf.getWf.getQueueMaxSize)
        buffer(0) = newBlock.sortBy(_.getString(orderingFieldPosition)).slice(0, conf.getWf.getQueueMaxSize)
      else
        buffer(0) = newBlock
    }
    override def merge(buffer: MutableAggregationBuffer, row: Row): Unit = {
      val newBlock = buffer.getSeq[Row](0) ++ row.getSeq[Row](0)
      if (newBlock.size > conf.getWf.getQueueMaxSize)
        buffer(0) = newBlock.sortBy(_.getString(orderingFieldPosition)).slice(0, conf.getWf.getQueueMaxSize)
      else
        buffer(0) = newBlock
    }
    override def evaluate(buffer: Row): Any = {
      buffer.getSeq[Row](0)
    }
  }
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/AlwaysMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/AlwaysMatch.java
@ -0,0 +1,42 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("alwaysMatch")
 public class AlwaysMatch<T> extends AbstractComparator<T> {
 	public AlwaysMatch(final Map<String, String> params) {
 		super(params, new com.wcohen.ss.JaroWinkler());
 	}
 	public AlwaysMatch(final double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	protected AlwaysMatch(final double weight, final AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	@Override
 	public double compare(final Object a, final Object b, final Config conf) {
 		return 1.0;
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/AuthorsMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/AuthorsMatch.java
@ -0,0 +1,157 @@
 package eu.dnetlib.pace.tree;
 import java.util.List;
 import java.util.Map;
 import java.util.stream.Collectors;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.model.Person;
 import eu.dnetlib.pace.tree.support.AbstractListComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("authorsMatch")
 public class AuthorsMatch extends AbstractListComparator {
 	Map<String, String> params;
 	private double SURNAME_THRESHOLD;
 	private double NAME_THRESHOLD;
 	private double FULLNAME_THRESHOLD;
 	private String MODE; // full or surname
 	private int SIZE_THRESHOLD;
 	private String TYPE; // count or percentage
 	private int common;
 	public AuthorsMatch(Map<String, String> params) {
 		super(params, new com.wcohen.ss.JaroWinkler());
 		this.params = params;
 		MODE = params.getOrDefault("mode", "full");
 		SURNAME_THRESHOLD = Double.parseDouble(params.getOrDefault("surname_th", "0.95"));
 		NAME_THRESHOLD = Double.parseDouble(params.getOrDefault("name_th", "0.95"));
 		FULLNAME_THRESHOLD = Double.parseDouble(params.getOrDefault("fullname_th", "0.9"));
 		SIZE_THRESHOLD = Integer.parseInt(params.getOrDefault("size_th", "20"));
 		TYPE = params.getOrDefault("type", "percentage");
 		common = 0;
 	}
 	protected AuthorsMatch(double w, AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double compare(final List<String> a, final List<String> b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty())
 			return -1;
 		if (a.size() > SIZE_THRESHOLD || b.size() > SIZE_THRESHOLD)
 			return 1.0;
 		List<Person> aList = a.stream().map(author -> new Person(author, false)).collect(Collectors.toList());
 		List<Person> bList = b.stream().map(author -> new Person(author, false)).collect(Collectors.toList());
 		common = 0;
 		// compare each element of List1 with each element of List2
 		for (Person p1 : aList)
 			for (Person p2 : bList) {
 				// both persons are inaccurate
 				if (!p1.isAccurate() && !p2.isAccurate()) {
 					// compare just normalized fullnames
 					String fullname1 = normalization(
 						p1.getNormalisedFullname().isEmpty() ? p1.getOriginal() : p1.getNormalisedFullname());
 					String fullname2 = normalization(
 						p2.getNormalisedFullname().isEmpty() ? p2.getOriginal() : p2.getNormalisedFullname());
 					if (ssalgo.score(fullname1, fullname2) > FULLNAME_THRESHOLD) {
 						common += 1;
 						break;
 					}
 				}
 				// one person is inaccurate
 				if (p1.isAccurate() ^ p2.isAccurate()) {
 					// prepare data
 					// data for the accurate person
 					String name = normalization(
 						p1.isAccurate() ? p1.getNormalisedFirstName() : p2.getNormalisedFirstName());
 					String surname = normalization(
 						p1.isAccurate() ? p1.getNormalisedSurname() : p2.getNormalisedSurname());
 					// data for the inaccurate person
 					String fullname = normalization(
 						p1.isAccurate()
 							? ((p2.getNormalisedFullname().isEmpty()) ? p2.getOriginal() : p2.getNormalisedFullname())
 							: (p1.getNormalisedFullname().isEmpty() ? p1.getOriginal() : p1.getNormalisedFullname()));
 					if (fullname.contains(surname)) {
 						if (MODE.equals("full")) {
 							if (fullname.contains(name)) {
 								common += 1;
 								break;
 							}
 						} else { // MODE equals "surname"
 							common += 1;
 							break;
 						}
 					}
 				}
 				// both persons are accurate
 				if (p1.isAccurate() && p2.isAccurate()) {
 					if (compareSurname(p1, p2)) {
 						if (MODE.equals("full")) {
 							if (compareFirstname(p1, p2)) {
 								common += 1;
 								break;
 							}
 						} else { // MODE equals "surname"
 							common += 1;
 							break;
 						}
 					}
 				}
 			}
 		// normalization factor to compute the score
 		int normFactor = aList.size() == bList.size() ? aList.size() : (aList.size() + bList.size() - common);
 		if (TYPE.equals("percentage")) {
 			return (double) common / normFactor;
 		} else {
 			return (double) common;
 		}
 	}
 	public boolean compareSurname(Person p1, Person p2) {
 		return ssalgo
 			.score(
 				normalization(p1.getNormalisedSurname()), normalization(p2.getNormalisedSurname())) > SURNAME_THRESHOLD;
 	}
 	public boolean compareFirstname(Person p1, Person p2) {
 		if (p1.getNormalisedFirstName().length() <= 2 || p2.getNormalisedFirstName().length() <= 2) {
 			if (firstLC(p1.getNormalisedFirstName()).equals(firstLC(p2.getNormalisedFirstName())))
 				return true;
 		}
 		return ssalgo
 			.score(
 				normalization(p1.getNormalisedFirstName()),
 				normalization(p2.getNormalisedFirstName())) > NAME_THRESHOLD;
 	}
 	public String normalization(String s) {
 		return normalize(utf8(cleanup(s)));
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/CityMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/CityMatch.java
@ -0,0 +1,48 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import java.util.Set;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("cityMatch")
 public class CityMatch extends AbstractStringComparator {
 	private Map<String, String> params;
 	public CityMatch(Map<String, String> params) {
 		super(params);
 		this.params = params;
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		String ca = cleanup(a);
 		String cb = cleanup(b);
 		ca = normalize(ca);
 		cb = normalize(cb);
 		ca = filterAllStopWords(ca);
 		cb = filterAllStopWords(cb);
 		Set<String> cities1 = getCities(ca, Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> cities2 = getCities(cb, Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> codes1 = citiesToCodes(cities1);
 		Set<String> codes2 = citiesToCodes(cities2);
 		// if no cities are detected, the comparator gives 1.0
 		if (codes1.isEmpty() && codes2.isEmpty())
 			return 1.0;
 		else {
 			if (codes1.isEmpty() ^ codes2.isEmpty())
 				return -1; // undefined if one of the two has no cities
 			return commonElementsPercentage(codes1, codes2);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/CosineSimilarity.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/CosineSimilarity.java
@ -0,0 +1,47 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("cosineSimilarity")
 public class CosineSimilarity extends AbstractComparator<double[]> {
 	Map<String, String> params;
 	public CosineSimilarity(Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double compare(Object a, Object b, Config config) {
 		return compare((double[]) a, (double[]) b, config);
 	}
 	public double compare(final double[] a, final double[] b, final Config conf) {
 		if (a.length == 0 || b.length == 0)
 			return -1;
 		return cosineSimilarity(a, b);
 	}
 	double cosineSimilarity(double[] a, double[] b) {
 		double dotProduct = 0;
 		double normASum = 0;
 		double normBSum = 0;
 		for (int i = 0; i < a.length; i++) {
 			dotProduct += a[i] * b[i];
 			normASum += a[i] * a[i];
 			normBSum += b[i] * b[i];
 		}
 		double eucledianDist = Math.sqrt(normASum) * Math.sqrt(normBSum);
 		return dotProduct / eucledianDist;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/DoiExactMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/DoiExactMatch.java
@ -0,0 +1,27 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * The Class ExactMatch.
 *
 * @author claudio
 */
@ComparatorClass("doiExactMatch")
 public class DoiExactMatch extends ExactMatchIgnoreCase {
 	public final String PREFIX = "(http:\\/\\/dx\\.doi\\.org\\/)|(doi:)";
 	public DoiExactMatch(final Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	protected String toString(final Object f) {
 		return super.toString(f).replaceAll(PREFIX, "");
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/DomainExactMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/DomainExactMatch.java
@ -0,0 +1,30 @@
 package eu.dnetlib.pace.tree;
 import java.net.MalformedURLException;
 import java.net.URL;
 import java.util.Map;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("domainExactMatch")
 public class DomainExactMatch extends ExactMatchIgnoreCase {
 	public DomainExactMatch(final Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	protected String toString(final Object f) {
 		try {
 			return asUrl(super.toString(f)).getHost();
 		} catch (MalformedURLException e) {
 			return "";
 		}
 	}
 	private URL asUrl(final String value) throws MalformedURLException {
 		return new URL(value);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/ExactMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/ExactMatch.java
@ -0,0 +1,44 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("exactMatch")
 public class ExactMatch extends AbstractStringComparator {
 	public ExactMatch(Map<String, String> params) {
 		super(params, new com.wcohen.ss.JaroWinkler());
 	}
 	public ExactMatch(final double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	protected ExactMatch(final double weight, final AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty()) {
 			return -1.0; // return -1 if a field is missing
 		}
 		return a.equals(b) ? 1.0 : 0;
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/ExactMatchIgnoreCase.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/ExactMatchIgnoreCase.java
@ -0,0 +1,32 @@
 package eu.dnetlib.pace.tree;
 import java.util.List;
 import java.util.Map;
 import com.google.common.base.Joiner;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("exactMatchIgnoreCase")
 public class ExactMatchIgnoreCase extends AbstractStringComparator {
 	public ExactMatchIgnoreCase(Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double compare(String a, String b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty())
 			return -1;
 		return a.equalsIgnoreCase(b) ? 1 : 0;
 	}
 	protected String toString(final Object object) {
 		return toFirstString(object);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/InstanceTypeMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/InstanceTypeMatch.java
@ -0,0 +1,80 @@
 package eu.dnetlib.pace.tree;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
 import java.util.stream.Collectors;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractListComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("instanceTypeMatch")
 public class InstanceTypeMatch extends AbstractListComparator {
 	final Map<String, String> translationMap = new HashMap<>();
 	public InstanceTypeMatch(Map<String, String> params) {
 		super(params);
 		// jolly types
 		translationMap.put("Conference object", "*");
 		translationMap.put("Other literature type", "*");
 		translationMap.put("Unknown", "*");
 		// article types
 		translationMap.put("Article", "Article");
 		translationMap.put("Data Paper", "Article");
 		translationMap.put("Software Paper", "Article");
 		translationMap.put("Preprint", "Article");
 		// thesis types
 		translationMap.put("Thesis", "Thesis");
 		translationMap.put("Master thesis", "Thesis");
 		translationMap.put("Bachelor thesis", "Thesis");
 		translationMap.put("Doctoral thesis", "Thesis");
 	}
 	@Override
 	public double compare(final List<String> a, final List<String> b, final Config conf) {
 		if (a == null || b == null) {
 			return -1;
 		}
 		if (a.isEmpty() || b.isEmpty()) {
 			return -1;
 		}
 		final Set<String> ca = a.stream().map(this::translate).collect(Collectors.toSet());
 		final Set<String> cb = b.stream().map(this::translate).collect(Collectors.toSet());
 		// if at least one is a jolly type, it must produce a match
 		if (ca.contains("*") || cb.contains("*"))
 			return 1.0;
 		int incommon = Sets.intersection(ca, cb).size();
 		// if at least one is in common, it must produce a match
 		return incommon >= 1 ? 1 : 0;
 	}
 	public String translate(String term) {
 		return translationMap.getOrDefault(term, term);
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JaroWinkler.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JaroWinkler.java
@ -0,0 +1,46 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 //case class JaroWinkler(w: Double) extends SecondStringDistanceAlgo(w, new com.wcohen.ss.JaroWinkler())
@ComparatorClass("jaroWinkler")
 public class JaroWinkler extends AbstractStringComparator {
 	public JaroWinkler(Map<String, String> params) {
 		super(params, new com.wcohen.ss.JaroWinkler());
 	}
 	public JaroWinkler(double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	protected JaroWinkler(double weight, AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	@Override
 	public double distance(String a, String b, final Config conf) {
 		String ca = cleanup(a);
 		String cb = cleanup(b);
 		return normalize(ssalgo.score(ca, cb));
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JaroWinklerNormalizedName.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JaroWinklerNormalizedName.java
@ -0,0 +1,74 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import java.util.Set;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("jaroWinklerNormalizedName")
 public class JaroWinklerNormalizedName extends AbstractStringComparator {
 	private Map<String, String> params;
 	public JaroWinklerNormalizedName(Map<String, String> params) {
 		super(params, new com.wcohen.ss.JaroWinkler());
 		this.params = params;
 	}
 	public JaroWinklerNormalizedName(double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	protected JaroWinklerNormalizedName(double weight, AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	@Override
 	public double distance(String a, String b, final Config conf) {
 		String ca = cleanup(a);
 		String cb = cleanup(b);
 		ca = normalize(ca);
 		cb = normalize(cb);
 		ca = filterAllStopWords(ca);
 		cb = filterAllStopWords(cb);
 		Set<String> keywords1 = getKeywords(
 			ca, conf.translationMap(), Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> keywords2 = getKeywords(
 			cb, conf.translationMap(), Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> cities1 = getCities(ca, Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> cities2 = getCities(cb, Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		ca = removeKeywords(ca, keywords1);
 		ca = removeKeywords(ca, cities1);
 		cb = removeKeywords(cb, keywords2);
 		cb = removeKeywords(cb, cities2);
 		ca = ca.replaceAll("[ ]{2,}", " ");
 		cb = cb.replaceAll("[ ]{2,}", " ");
 		if (ca.isEmpty() && cb.isEmpty())
 			return 1.0;
 		else
 			return normalize(ssalgo.score(ca, cb));
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JaroWinklerTitle.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JaroWinklerTitle.java
@ -0,0 +1,47 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 //case class JaroWinkler(w: Double) extends SecondStringDistanceAlgo(w, new com.wcohen.ss.JaroWinkler())
@ComparatorClass("jaroWinklerTitle")
 public class JaroWinklerTitle extends AbstractStringComparator {
 	public JaroWinklerTitle(Map<String, String> params) {
 		super(params, new com.wcohen.ss.JaroWinkler());
 	}
 	public JaroWinklerTitle(double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	protected JaroWinklerTitle(double weight, AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	@Override
 	public double distance(String a, String b, final Config conf) {
 		String ca = cleanup(a);
 		String cb = cleanup(b);
 		boolean check = checkNumbers(ca, cb);
 		return check ? 0.5 : normalize(ssalgo.score(ca, cb));
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JsonListMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/JsonListMatch.java
@ -0,0 +1,82 @@
 package eu.dnetlib.pace.tree;
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
 import java.util.stream.Collectors;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
 import com.google.common.collect.Sets;
 import com.jayway.jsonpath.Configuration;
 import com.jayway.jsonpath.DocumentContext;
 import com.jayway.jsonpath.JsonPath;
 import com.jayway.jsonpath.Option;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractListComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 import eu.dnetlib.pace.util.MapDocumentUtil;
@ComparatorClass("jsonListMatch")
 public class JsonListMatch extends AbstractListComparator {
 	private static final Log log = LogFactory.getLog(JsonListMatch.class);
 	private Map<String, String> params;
 	private String MODE; // "percentage" or "count"
 	public JsonListMatch(final Map<String, String> params) {
 		super(params);
 		this.params = params;
 		MODE = params.getOrDefault("mode", "percentage");
 	}
 	@Override
 	public double compare(final List<String> sa, final List<String> sb, final Config conf) {
 		if (sa.isEmpty() || sb.isEmpty()) {
 			return -1;
 		}
 		final Set<String> ca = sa.stream().map(this::toComparableString).collect(Collectors.toSet());
 		final Set<String> cb = sb.stream().map(this::toComparableString).collect(Collectors.toSet());
 		int incommon = Sets.intersection(ca, cb).size();
 		int simDiff = Sets.symmetricDifference(ca, cb).size();
 		if (incommon + simDiff == 0) {
 			return 0.0;
 		}
 		if (MODE.equals("percentage"))
 			return (double) incommon / (incommon + simDiff);
 		else
 			return incommon;
 	}
 	// converts every json into a comparable string basing on parameters
 	private String toComparableString(String json) {
 		StringBuilder st = new StringBuilder(); // to build the string used for comparisons basing on the jpath into
 												// parameters
 		final DocumentContext documentContext = JsonPath
 			.using(Configuration.defaultConfiguration().addOptions(Option.SUPPRESS_EXCEPTIONS))
 			.parse(json);
 		// for each path in the param list
 		for (String key : params.keySet().stream().filter(k -> k.contains("jpath")).collect(Collectors.toList())) {
 			String path = params.get(key);
 			String value = MapDocumentUtil.getJPathString(path, documentContext);
 			if (value == null || value.isEmpty())
 				value = "";
 			st.append(value);
 			st.append("::");
 		}
 		st.setLength(st.length() - 2);
 		return st.toString();
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/KeywordMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/KeywordMatch.java
@ -0,0 +1,50 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import java.util.Set;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("keywordMatch")
 public class KeywordMatch extends AbstractStringComparator {
 	Map<String, String> params;
 	public KeywordMatch(Map<String, String> params) {
 		super(params);
 		this.params = params;
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		String ca = cleanup(a);
 		String cb = cleanup(b);
 		ca = normalize(ca);
 		cb = normalize(cb);
 		ca = filterAllStopWords(ca);
 		cb = filterAllStopWords(cb);
 		Set<String> keywords1 = getKeywords(
 			ca, conf.translationMap(), Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> keywords2 = getKeywords(
 			cb, conf.translationMap(), Integer.parseInt(params.getOrDefault("windowSize", "4")));
 		Set<String> codes1 = toCodes(keywords1, conf.translationMap());
 		Set<String> codes2 = toCodes(keywords2, conf.translationMap());
 		// if no cities are detected, the comparator gives 1.0
 		if (codes1.isEmpty() && codes2.isEmpty())
 			return 1.0;
 		else {
 			if (codes1.isEmpty() ^ codes2.isEmpty())
 				return -1.0; // undefined if one of the two has no keywords
 			return commonElementsPercentage(codes1, codes2);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Level2JaroWinkler.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Level2JaroWinkler.java
@ -0,0 +1,37 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.tree.support.AbstractComparator;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("level2JaroWinkler")
 public class Level2JaroWinkler extends AbstractStringComparator {
 	public Level2JaroWinkler(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Level2JaroWinkler());
 	}
 	public Level2JaroWinkler(double w) {
 		super(w, new com.wcohen.ss.Level2JaroWinkler());
 	}
 	protected Level2JaroWinkler(double w, AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Level2JaroWinklerTitle.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Level2JaroWinklerTitle.java
@ -0,0 +1,50 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("level2JaroWinklerTitle")
 public class Level2JaroWinklerTitle extends AbstractStringComparator {
 	public Level2JaroWinklerTitle(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Level2JaroWinkler());
 	}
 	public Level2JaroWinklerTitle(final double w) {
 		super(w, new com.wcohen.ss.Level2JaroWinkler());
 	}
 	protected Level2JaroWinklerTitle(final double w, final AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		final String ca = cleanup(a);
 		final String cb = cleanup(b);
 		final boolean check = checkNumbers(ca, cb);
 		if (check)
 			return 0.5;
 		return ssalgo.score(ca, cb);
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Level2Levenstein.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Level2Levenstein.java
@ -0,0 +1,36 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("level2Levenstein")
 public class Level2Levenstein extends AbstractStringComparator {
 	public Level2Levenstein(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Level2Levenstein());
 	}
 	public Level2Levenstein(double w) {
 		super(w, new com.wcohen.ss.Level2Levenstein());
 	}
 	protected Level2Levenstein(double w, AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(double d) {
 		return 1 / Math.pow(Math.abs(d) + 1, 0.1);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Levenstein.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/Levenstein.java
@ -0,0 +1,36 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("levenstein")
 public class Levenstein extends AbstractStringComparator {
 	public Levenstein(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Levenstein());
 	}
 	public Levenstein(double w) {
 		super(w, new com.wcohen.ss.Levenstein());
 	}
 	protected Levenstein(double w, AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(double d) {
 		return 1 / Math.pow(Math.abs(d) + 1, 0.1);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/LevensteinTitle.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/LevensteinTitle.java
@ -0,0 +1,59 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("levensteinTitle")
 public class LevensteinTitle extends AbstractStringComparator {
 	private static final Log log = LogFactory.getLog(LevensteinTitle.class);
 	public LevensteinTitle(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Levenstein());
 	}
 	public LevensteinTitle(final double w) {
 		super(w, new com.wcohen.ss.Levenstein());
 	}
 	protected LevensteinTitle(final double w, final AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		final String ca = cleanup(a);
 		final String cb = cleanup(b);
 		final boolean check = checkNumbers(ca, cb);
 		if (check)
 			return 0.5;
 		return normalize(ssalgo.score(ca, cb), ca.length(), cb.length());
 	}
 	private double normalize(final double score, final int la, final int lb) {
 		return 1 - (Math.abs(score) / Math.max(la, lb));
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return 1 / Math.pow(Math.abs(d) + 1, 0.1);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/LevensteinTitleIgnoreVersion.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/LevensteinTitleIgnoreVersion.java
@ -0,0 +1,58 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * Compared compare between two titles, ignoring version numbers. Suitable for Software entities.
 */
@ComparatorClass("levensteinTitleIgnoreVersion")
 public class LevensteinTitleIgnoreVersion extends AbstractStringComparator {
 	public LevensteinTitleIgnoreVersion(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Levenstein());
 	}
 	public LevensteinTitleIgnoreVersion(final double w) {
 		super(w, new com.wcohen.ss.Levenstein());
 	}
 	protected LevensteinTitleIgnoreVersion(final double w, final AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		String ca = cleanup(a);
 		String cb = cleanup(b);
 		ca = ca.replaceAll("\\d", "").replaceAll(getRomans(ca), "").trim();
 		cb = cb.replaceAll("\\d", "").replaceAll(getRomans(cb), "").trim();
 		ca = filterAllStopWords(ca);
 		cb = filterAllStopWords(cb);
 		return normalize(ssalgo.score(ca, cb), ca.length(), cb.length());
 	}
 	private double normalize(final double score, final int la, final int lb) {
 		return 1 - (Math.abs(score) / Math.max(la, lb));
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return 1 / Math.pow(Math.abs(d) + 1, 0.1);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/ListContainsMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/ListContainsMatch.java
@ -0,0 +1,66 @@
 package eu.dnetlib.pace.tree;
 import java.util.List;
 import java.util.Map;
 import java.util.stream.Collectors;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractListComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * The Class Contains match
 *
 * @author miconis
 * */
@ComparatorClass("listContainsMatch")
 public class ListContainsMatch extends AbstractListComparator {
 	private Map<String, String> params;
 	private boolean CASE_SENSITIVE;
 	private String STRING;
 	private String AGGREGATOR;
 	public ListContainsMatch(Map<String, String> params) {
 		super(params);
 		this.params = params;
 		// read parameters
 		CASE_SENSITIVE = Boolean.parseBoolean(params.getOrDefault("caseSensitive", "false"));
 		STRING = params.get("string");
 		AGGREGATOR = params.get("bool");
 	}
 	@Override
 	public double compare(List<String> sa, List<String> sb, Config conf) {
 		if (sa.isEmpty() || sb.isEmpty()) {
 			return -1;
 		}
 		if (!CASE_SENSITIVE) {
 			sa = sa.stream().map(String::toLowerCase).collect(Collectors.toList());
 			sb = sb.stream().map(String::toLowerCase).collect(Collectors.toList());
 			STRING = STRING.toLowerCase();
 		}
 		switch (AGGREGATOR) {
 			case "AND":
 				if (sa.contains(STRING) && sb.contains(STRING))
 					return 1.0;
 				break;
 			case "OR":
 				if (sa.contains(STRING) || sb.contains(STRING))
 					return 1.0;
 				break;
 			case "XOR":
 				if (sa.contains(STRING) ^ sb.contains(STRING))
 					return 1.0;
 				break;
 			default:
 				return 0.0;
 		}
 		return 0.0;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/MustBeDifferent.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/MustBeDifferent.java
@ -0,0 +1,42 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("mustBeDifferent")
 public class MustBeDifferent extends AbstractStringComparator {
 	public MustBeDifferent(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Levenstein());
 	}
 	public MustBeDifferent(final double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	protected MustBeDifferent(final double weight, final AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		return !a.equals(b) ? 1.0 : 0;
 	}
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/NullDistanceAlgo.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/NullDistanceAlgo.java
@ -0,0 +1,24 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.Comparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * Not all fields of a document need to partecipate in the compare measure. We model those fields as having a
 * NullDistanceAlgo.
 */
@ComparatorClass("null")
 public class NullDistanceAlgo<T> implements Comparator<T> {
 	public NullDistanceAlgo(Map<String, String> params) {
 	}
 	@Override
 	public double compare(Object a, Object b, Config config) {
 		return 0;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/NumbersComparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/NumbersComparator.java
@ -0,0 +1,35 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("numbersComparator")
 public class NumbersComparator extends AbstractStringComparator {
 	Map<String, String> params;
 	public NumbersComparator(Map<String, String> params) {
 		super(params);
 		this.params = params;
 	}
 	@Override
 	public double distance(String a, String b, Config conf) {
 		// extracts numbers from the field
 		String numbers1 = getNumbers(nfd(a));
 		String numbers2 = getNumbers(nfd(b));
 		if (numbers1.isEmpty() || numbers2.isEmpty())
 			return -1.0;
 		int n1 = Integer.parseInt(numbers1);
 		int n2 = Integer.parseInt(numbers2);
 		return Math.abs(n1 - n2);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/NumbersMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/NumbersMatch.java
@ -0,0 +1,36 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractComparator;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("numbersMatch")
 public class NumbersMatch extends AbstractStringComparator {
 	public NumbersMatch(Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double distance(String a, String b, Config conf) {
 		// extracts numbers from the field
 		String numbers1 = getNumbers(nfd(a));
 		String numbers2 = getNumbers(nfd(b));
 		if (numbers1.isEmpty() && numbers2.isEmpty())
 			return 1.0;
 		if (numbers1.isEmpty() || numbers2.isEmpty())
 			return -1.0;
 		if (numbers1.equals(numbers2))
 			return 1.0;
 		return 0.0;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/RomansMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/RomansMatch.java
@ -0,0 +1,36 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractComparator;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("romansMatch")
 public class RomansMatch extends AbstractStringComparator {
 	public RomansMatch(Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double distance(String a, String b, Config conf) {
 		// extracts romans from the field
 		String romans1 = getRomans(nfd(a));
 		String romans2 = getRomans(nfd(b));
 		if (romans1.isEmpty() && romans2.isEmpty())
 			return 1.0;
 		if (romans1.isEmpty() || romans2.isEmpty())
 			return -1.0;
 		if (romans1.equals(romans2))
 			return 1.0;
 		return 0.0;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SizeMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SizeMatch.java
@ -0,0 +1,40 @@
 package eu.dnetlib.pace.tree;
 import java.util.List;
 import java.util.Map;
 import com.google.common.collect.Lists;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractListComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * Returns true if the number of values in the fields is the same.
 *
 * @author claudio
 */
@ComparatorClass("sizeMatch")
 public class SizeMatch extends AbstractListComparator {
 	/**
 	 * Instantiates a new size match.
 	 *
 	 * @param params
 	 *            the parameters
 	 */
 	public SizeMatch(final Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double compare(final List<String> a, final List<String> b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty())
 			return -1.0;
 		return a.size() == b.size() ? 1.0 : 0.0;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SortedJaroWinkler.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SortedJaroWinkler.java
@ -0,0 +1,61 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.tree.support.AbstractSortedComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * The Class SortedJaroWinkler.
 */
@ComparatorClass("sortedJaroWinkler")
 public class SortedJaroWinkler extends AbstractSortedComparator {
 	public SortedJaroWinkler(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Levenstein());
 	}
 	/**
 	 * Instantiates a new sorted jaro winkler.
 	 * 
 	 * @param weight
 	 *            the weight
 	 */
 	public SortedJaroWinkler(final double weight) {
 		super(weight, new com.wcohen.ss.JaroWinkler());
 	}
 	/**
 	 * Instantiates a new sorted jaro winkler.
 	 * 
 	 * @param weight
 	 *            the weight
 	 * @param ssalgo
 	 *            the ssalgo
 	 */
 	protected SortedJaroWinkler(final double weight, final AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.DistanceAlgo#getWeight()
 	 */
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.SecondStringDistanceAlgo#normalize(double)
 	 */
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SortedLevel2JaroWinkler.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SortedLevel2JaroWinkler.java
@ -0,0 +1,61 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.tree.support.AbstractSortedComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * The Class SortedJaroWinkler.
 */
@ComparatorClass("sortedLevel2JaroWinkler")
 public class SortedLevel2JaroWinkler extends AbstractSortedComparator {
 	/**
 	 * Instantiates a new sorted jaro winkler.
 	 * 
 	 * @param weight
 	 *            the weight
 	 */
 	public SortedLevel2JaroWinkler(final double weight) {
 		super(weight, new com.wcohen.ss.Level2JaroWinkler());
 	}
 	public SortedLevel2JaroWinkler(final Map<String, String> params) {
 		super(params, new com.wcohen.ss.Level2JaroWinkler());
 	}
 	/**
 	 * Instantiates a new sorted jaro winkler.
 	 * 
 	 * @param weight
 	 *            the weight
 	 * @param ssalgo
 	 *            the ssalgo
 	 */
 	protected SortedLevel2JaroWinkler(final double weight, final AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.DistanceAlgo#getWeight()
 	 */
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.SecondStringDistanceAlgo#normalize(double)
 	 */
 	@Override
 	protected double normalize(final double d) {
 		return d;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/StringContainsMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/StringContainsMatch.java
@ -0,0 +1,65 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractComparator;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * The Class Contains match
 *
 * @author miconis
 * */
@ComparatorClass("stringContainsMatch")
 public class StringContainsMatch extends AbstractStringComparator {
 	private Map<String, String> params;
 	private boolean CASE_SENSITIVE;
 	private String STRING;
 	private String AGGREGATOR;
 	public StringContainsMatch(Map<String, String> params) {
 		super(params);
 		this.params = params;
 		// read parameters
 		CASE_SENSITIVE = Boolean.parseBoolean(params.getOrDefault("caseSensitive", "false"));
 		STRING = params.get("string");
 		AGGREGATOR = params.get("aggregator");
 	}
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		String ca = a;
 		String cb = b;
 		if (!CASE_SENSITIVE) {
 			ca = a.toLowerCase();
 			cb = b.toLowerCase();
 			STRING = STRING.toLowerCase();
 		}
 		switch (AGGREGATOR) {
 			case "AND":
 				if (ca.contains(STRING) && cb.contains(STRING))
 					return 1.0;
 				break;
 			case "OR":
 				if (ca.contains(STRING) || cb.contains(STRING))
 					return 1.0;
 				break;
 			case "XOR":
 				if (ca.contains(STRING) ^ cb.contains(STRING))
 					return 1.0;
 				break;
 			default:
 				return 0.0;
 		}
 		return 0.0;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/StringListMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/StringListMatch.java
@ -0,0 +1,56 @@
 package eu.dnetlib.pace.tree;
 import java.util.HashSet;
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
 import com.google.common.collect.Sets;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractListComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("stringListMatch")
 public class StringListMatch extends AbstractListComparator {
 	private static final Log log = LogFactory.getLog(StringListMatch.class);
 	private Map<String, String> params;
 	final private String TYPE; // percentage or count
 	public StringListMatch(final Map<String, String> params) {
 		super(params);
 		this.params = params;
 		TYPE = params.getOrDefault("type", "percentage");
 	}
 	@Override
 	public double compare(final List<String> a, final List<String> b, final Config conf) {
 		final Set<String> pa = new HashSet<>(a);
 		final Set<String> pb = new HashSet<>(b);
 		if (pa.isEmpty() || pb.isEmpty()) {
 			return -1; // return undefined if one of the two lists is empty
 		}
 		int incommon = Sets.intersection(pa, pb).size();
 		int simDiff = Sets.symmetricDifference(pa, pb).size();
 		if (incommon + simDiff == 0) {
 			return 0.0;
 		}
 		if (TYPE.equals("percentage"))
 			return (double) incommon / (incommon + simDiff);
 		else
 			return incommon;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SubStringLevenstein.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/SubStringLevenstein.java
@ -0,0 +1,90 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import org.apache.commons.lang3.StringUtils;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * The Class SubStringLevenstein.
 */
@ComparatorClass("subStringLevenstein")
 public class SubStringLevenstein extends AbstractStringComparator {
 	/**
 	 * The limit.
 	 */
 	protected int limit;
 	/**
 	 * Instantiates a new sub string levenstein.
 	 *
 	 * @param w the w
 	 */
 	public SubStringLevenstein(final double w) {
 		super(w, new com.wcohen.ss.Levenstein());
 	}
 	public SubStringLevenstein(Map<String, String> params) {
 		super(params, new com.wcohen.ss.Levenstein());
 		this.limit = Integer.parseInt(params.getOrDefault("limit", "1"));
 	}
 	/**
 	 * Instantiates a new sub string levenstein.
 	 *
 	 * @param w     the w
 	 * @param limit the limit
 	 */
 	public SubStringLevenstein(final double w, final int limit) {
 		super(w, new com.wcohen.ss.Levenstein());
 		this.limit = limit;
 	}
 	/**
 	 * Instantiates a new sub string levenstein.
 	 *
 	 * @param w      the w
 	 * @param limit  the limit
 	 * @param ssalgo the ssalgo
 	 */
 	protected SubStringLevenstein(final double w, final int limit, final AbstractStringDistance ssalgo) {
 		super(w, ssalgo);
 		this.limit = limit;
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.SecondStringDistanceAlgo#compare(eu.dnetlib.pace.model.Field,
 	 * eu.dnetlib.pace.model.Field)
 	 */
 	@Override
 	public double distance(final String a, final String b, final Config conf) {
 		return distance(StringUtils.left(a, limit), StringUtils.left(b, limit), conf);
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.DistanceAlgo#getWeight()
 	 */
 	@Override
 	public double getWeight() {
 		return super.weight;
 	}
 	/*
 	 * (non-Javadoc)
 	 * @see eu.dnetlib.pace.compare.SecondStringDistanceAlgo#normalize(double)
 	 */
 	@Override
 	protected double normalize(final double d) {
 		return 1 / Math.pow(Math.abs(d) + 1, 0.1);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/TitleVersionMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/TitleVersionMatch.java
@ -0,0 +1,39 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * Returns true if the titles in the given documents contains the same numbers, false otherwise.
 *
 * @author claudio
 *
 */
@ComparatorClass("titleVersionMatch")
 public class TitleVersionMatch extends AbstractStringComparator {
 	public TitleVersionMatch(final Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double compare(final String valueA, final String valueB, final Config conf) {
 		if (valueA.isEmpty() || valueB.isEmpty())
 			return -1;
 		return notNull(valueA) && notNull(valueB) && !checkNumbers(valueA, valueB) ? 1 : 0;
 	}
 	@Override
 	public String toString() {
 		return getClass().getSimpleName() + ":" + super.toString();
 	}
 	protected String toString(final Object object) {
 		return toFirstString(object);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/UrlMatcher.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/UrlMatcher.java
@ -0,0 +1,63 @@
 package eu.dnetlib.pace.tree;
 import java.net.MalformedURLException;
 import java.net.URL;
 import java.util.Map;
 import org.apache.commons.lang3.StringUtils;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
@ComparatorClass("urlMatcher")
 public class UrlMatcher extends Levenstein {
 	private Map<String, String> params;
 	public UrlMatcher(Map<String, String> params) {
 		super(params);
 		this.params = params;
 	}
 	public UrlMatcher(double weight, Map<String, String> params) {
 		super(weight);
 		this.params = params;
 	}
 	public void setParams(Map<String, String> params) {
 		this.params = params;
 	}
 	@Override
 	public double distance(String a, String b, final Config conf) {
 		final URL urlA = asUrl(a);
 		final URL urlB = asUrl(b);
 		if (!urlA.getHost().equalsIgnoreCase(urlB.getHost())) {
 			return 0.0;
 		}
 		Double hostW = Double.parseDouble(params.getOrDefault("host", "0.5"));
 		Double pathW = Double.parseDouble(params.getOrDefault("path", "0.5"));
 		if (StringUtils.isBlank(urlA.getPath()) || StringUtils.isBlank(urlB.getPath())) {
 			return hostW * 0.5;
 		}
 		return hostW + pathW * super.distance(urlA.getPath(), urlB.getPath(), conf);
 	}
 	private URL asUrl(final String value) {
 		try {
 			return new URL(value);
 		} catch (MalformedURLException e) {
 			// should not happen as checked by pace typing
 			throw new IllegalStateException("invalid URL: " + value);
 		}
 	}
 	protected String toString(final Object object) {
 		return toFirstString(object);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/YearMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/YearMatch.java
@ -0,0 +1,52 @@
 package eu.dnetlib.pace.tree;
 import java.util.Map;
 import org.apache.commons.lang3.StringUtils;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.tree.support.AbstractStringComparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 /**
 * Returns true if the year of the date field in the given documents are the same, false when any of the two is invalid or it's missing.
 *
 * @author claudio
 */
@ComparatorClass("yearMatch")
 public class YearMatch extends AbstractStringComparator {
 	private int limit = 4;
 	public YearMatch(final Map<String, String> params) {
 		super(params);
 	}
 	@Override
 	public double compare(final String a, final String b, final Config conf) {
 		final String valueA = getNumbers(getFirstValue(a));
 		final String valueB = getNumbers(getFirstValue(b));
 		if (valueA.isEmpty() || valueB.isEmpty())
 			return -1;
 		final boolean lengthMatch = checkLength(valueA) && checkLength(valueB);
 		final boolean onemissing = valueA.isEmpty() || valueB.isEmpty();
 		return lengthMatch && valueA.equals(valueB) || onemissing ? 1 : 0;
 	}
 	protected boolean checkLength(final String s) {
 		return s.length() == limit;
 	}
 	protected String getFirstValue(final String value) {
 		return (value != null) && !value.isEmpty() ? StringUtils.left(value, limit) : "";
 	}
 	@Override
 	public String toString() {
 		return getClass().getSimpleName() + ":" + super.toString();
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractComparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractComparator.java
@ -0,0 +1,131 @@
 package eu.dnetlib.pace.tree.support;
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
 import com.google.common.base.Joiner;
 import com.google.common.collect.Lists;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.common.AbstractPaceFunctions;
 import eu.dnetlib.pace.config.Config;
 public abstract class AbstractComparator<T> extends AbstractPaceFunctions implements Comparator<T> {
 	/** The ssalgo. */
 	protected AbstractStringDistance ssalgo;
 	/** The weight. */
 	protected double weight = 0.0;
 	private Map<String, String> params;
 	protected AbstractComparator(Map<String, String> params) {
 		this.params = params;
 	}
 	protected AbstractComparator(Map<String, String> params, final AbstractStringDistance ssalgo) {
 		this.params = params;
 		this.weight = 1.0;
 		this.ssalgo = ssalgo;
 	}
 	/**
 	 * Instantiates a new second string compare algo.
 	 *
 	 * @param weight
 	 *            the weight
 	 * @param ssalgo
 	 *            the ssalgo
 	 */
 	protected AbstractComparator(final double weight, final AbstractStringDistance ssalgo) {
 		this.ssalgo = ssalgo;
 		this.weight = weight;
 	}
 	protected AbstractComparator(final AbstractStringDistance ssalgo) {
 		this.ssalgo = ssalgo;
 	}
 	/**
 	 * Normalize.
 	 *
 	 * @param d
 	 *            the d
 	 * @return the double
 	 */
 	protected double normalize(double d) {
 		return d;
 	}
 	/**
 	 * Distance.
 	 *
 	 * @param a
 	 *            the a
 	 * @param b
 	 *            the b
 	 * @return the double
 	 */
 	protected double distance(final String a, final String b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty()) {
 			return -1; // return -1 if a field is missing
 		}
 		double score = ssalgo.score(a, b);
 		return normalize(score);
 	}
 	protected double compare(final String a, final String b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty())
 			return -1;
 		return distance(a, b, conf);
 	}
 	/**
 	 * Convert the given argument to a List of Strings
 	 *
 	 * @param object
 	 *            function argument
 	 * @return the list
 	 */
 	protected List<String> toList(final Object object) {
 		if (object instanceof List) {
 			return (List<String>) object;
 		}
 		return Lists.newArrayList(object.toString());
 	}
 	/**
 	 * Convert the given argument to a String
 	 *
 	 * @param object
 	 *            function argument
 	 * @return the list
 	 */
 	protected String toString(final Object object) {
 		if (object instanceof List) {
 			List<String> l = (List<String>) object;
 			return Joiner.on(" ").join(l);
 		}
 		return object.toString();
 	}
 	protected String toFirstString(final Object object) {
 		if (object instanceof List) {
 			List<String> l = (List<String>) object;
 			return l.isEmpty() ? "" : l.get(0);
 		}
 		return object.toString();
 	}
 	public double getWeight() {
 		return this.weight;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractListComparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractListComparator.java
@ -0,0 +1,41 @@
 package eu.dnetlib.pace.tree.support;
 import java.util.List;
 import java.util.Map;
 import com.google.common.collect.Lists;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.config.Type;
 abstract public class AbstractListComparator extends AbstractComparator<List<String>> {
 	protected AbstractListComparator(Map<String, String> params) {
 		super(params);
 	}
 	protected AbstractListComparator(Map<String, String> params, AbstractStringDistance ssalgo) {
 		super(params, ssalgo);
 	}
 	protected AbstractListComparator(double weight, AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	protected AbstractListComparator(AbstractStringDistance ssalgo) {
 		super(ssalgo);
 	}
 	@Override
 	public double compare(Object a, Object b, Config conf) {
 		return compare(toList(a), toList(b), conf);
 	}
 	public double compare(final List<String> a, final List<String> b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty())
 			return -1;
 		return distance(concat(a), concat(b), conf);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractSortedComparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractSortedComparator.java
@ -0,0 +1,41 @@
 package eu.dnetlib.pace.tree.support;
 import java.util.AbstractList;
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
 import com.google.common.collect.Lists;
 import com.wcohen.ss.AbstractStringDistance;
 public abstract class AbstractSortedComparator extends AbstractListComparator {
 	/**
 	 * Instantiates a new sorted second string compare algo.
 	 *
 	 * @param weight
 	 *            the weight
 	 * @param ssalgo
 	 *            the ssalgo
 	 */
 	protected AbstractSortedComparator(final double weight, final AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	protected AbstractSortedComparator(final Map<String, String> params, final AbstractStringDistance ssalgo) {
 		super(Double.parseDouble(params.get("weight")), ssalgo);
 	}
 	@Override
 	protected List<String> toList(final Object object) {
 		if (object instanceof List) {
 			List<String> fl = (List<String>) object;
 			List<String> values = Lists.newArrayList(fl);
 			Collections.sort(values);
 			return values;
 		}
 		return Lists.newArrayList(object.toString());
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractStringComparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AbstractStringComparator.java
@ -0,0 +1,46 @@
 package eu.dnetlib.pace.tree.support;
 import java.util.Map;
 import com.wcohen.ss.AbstractStringDistance;
 import eu.dnetlib.pace.config.Config;
 public abstract class AbstractStringComparator extends AbstractComparator<String> {
 	protected AbstractStringComparator(Map<String, String> params) {
 		super(params);
 	}
 	protected AbstractStringComparator(Map<String, String> params, AbstractStringDistance ssalgo) {
 		super(params, ssalgo);
 	}
 	protected AbstractStringComparator(double weight, AbstractStringDistance ssalgo) {
 		super(weight, ssalgo);
 	}
 	protected AbstractStringComparator(AbstractStringDistance ssalgo) {
 		super(ssalgo);
 	}
 	public double distance(final String a, final String b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty()) {
 			return -1; // return -1 if a field is missing
 		}
 		double score = ssalgo.score(a, b);
 		return normalize(score);
 	}
 	@Override
 	public double compare(Object a, Object b, Config conf) {
 		return compare(toString(a), toString(b), conf);
 	}
 	public double compare(final String a, final String b, final Config conf) {
 		if (a.isEmpty() || b.isEmpty())
 			return -1;
 		return distance(a, b, conf);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AggType.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/AggType.java
@ -0,0 +1,21 @@
 package eu.dnetlib.pace.tree.support;
 import eu.dnetlib.pace.util.PaceException;
 public enum AggType {
 	W_MEAN, // weighted mean
 	AVG, // average
 	SUM, MAX, MIN, AND, // used for necessary conditions
 	OR; // used for sufficient conditions
 	public static AggType getEnum(String value) {
 		try {
 			return AggType.valueOf(value);
 		} catch (IllegalArgumentException e) {
 			throw new PaceException("Undefined aggregation type", e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/Comparator.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/Comparator.java
@ -0,0 +1,12 @@
 package eu.dnetlib.pace.tree.support;
 import eu.dnetlib.pace.config.Config;
 public interface Comparator<T> {
 	/*
 	 * return : -1 -> can't decide (i.e. missing field) >0 -> similarity degree (depends on the algorithm)
 	 */
 	public double compare(Object a, Object b, Config conf);
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/ComparatorClass.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/ComparatorClass.java
@ -0,0 +1,14 @@
 package eu.dnetlib.pace.tree.support;
 import java.lang.annotation.ElementType;
 import java.lang.annotation.Retention;
 import java.lang.annotation.RetentionPolicy;
 import java.lang.annotation.Target;
@Retention(RetentionPolicy.RUNTIME)
@Target(ElementType.TYPE)
 public @interface ComparatorClass {
 	public String value();
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/FieldConf.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/FieldConf.java
@ -0,0 +1,84 @@
 package eu.dnetlib.pace.tree.support;
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.Map;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import eu.dnetlib.pace.util.PaceException;
 /**
 * The class that defines the configuration of each field in the decision tree.
 * */
 public class FieldConf implements Serializable {
 	private String field; // name of the field on which apply the comparator
 	private String comparator; // comparator name
 	private double weight = 1.0; // weight for the field (to be used in the aggregation)
 	private Map<String, String> params; // parameters
 	private boolean countIfUndefined;
 	public boolean isCountIfUndefined() {
 		return countIfUndefined;
 	}
 	public void setCountIfUndefined(boolean countIfUndefined) {
 		this.countIfUndefined = countIfUndefined;
 	}
 	public FieldConf() {
 	}
 	public FieldConf(String field, String comparator, double weight, Map<String, String> params,
 		boolean countIfUndefined) {
 		this.field = field;
 		this.comparator = comparator;
 		this.weight = weight;
 		this.params = params;
 		this.countIfUndefined = countIfUndefined;
 	}
 	public String getField() {
 		return field;
 	}
 	public void setField(String field) {
 		this.field = field;
 	}
 	public String getComparator() {
 		return comparator;
 	}
 	public void setComparator(String comparator) {
 		this.comparator = comparator;
 	}
 	public double getWeight() {
 		return weight;
 	}
 	public void setWeight(double weight) {
 		this.weight = weight;
 	}
 	public Map<String, String> getParams() {
 		return params;
 	}
 	public void setParams(Map<String, String> params) {
 		this.params = params;
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("Impossible to convert to JSON: ", e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/FieldStats.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/FieldStats.java
@ -0,0 +1,89 @@
 package eu.dnetlib.pace.tree.support;
 import java.io.IOException;
 import java.io.Serializable;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import eu.dnetlib.pace.util.PaceException;
 /**
 * The class that contains the result of each comparison in the decision tree
 * */
 public class FieldStats implements Serializable {
 	private double weight; // weight for the field (to be used in the aggregation)
 	private double threshold; // threshold for the field (to be used in some kind of aggregations)
 	private double result; // the result of the comparison
 	private Object a;
 	private Object b;
 	private boolean countIfUndefined;
 	public FieldStats(double weight, double threshold, double result, boolean countIfUndefined, Object a, Object b) {
 		this.weight = weight;
 		this.threshold = threshold;
 		this.result = result;
 		this.countIfUndefined = countIfUndefined;
 		this.a = a;
 		this.b = b;
 	}
 	public double getThreshold() {
 		return threshold;
 	}
 	public void setThreshold(double threshold) {
 		this.threshold = threshold;
 	}
 	public double getWeight() {
 		return weight;
 	}
 	public void setWeight(double weight) {
 		this.weight = weight;
 	}
 	public double getResult() {
 		return result;
 	}
 	public void setResult(double result) {
 		this.result = result;
 	}
 	public boolean isCountIfUndefined() {
 		return countIfUndefined;
 	}
 	public void setCountIfUndefined(boolean countIfUndefined) {
 		this.countIfUndefined = countIfUndefined;
 	}
 	public Object getA() {
 		return a;
 	}
 	public void setA(Object a) {
 		this.a = a;
 	}
 	public Object getB() {
 		return b;
 	}
 	public void setB(Object b) {
 		this.b = b;
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("Impossible to convert to JSON: ", e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/MatchType.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/MatchType.java
@ -0,0 +1,25 @@
 package eu.dnetlib.pace.tree.support;
 public enum MatchType {
 	MATCH, NO_MATCH, UNDEFINED;
 	public static MatchType parse(String value) {
 		if (MATCH.name().equals(value)) {
 			return MATCH;
 		} else if (NO_MATCH.name().equals(value)) {
 			return NO_MATCH;
 		} else {
 			return UNDEFINED;
 		}
 //        try {
 //            return MatchType.valueOf(value);
 //        }
 //        catch (IllegalArgumentException e) {
 //            return MatchType.UNDEFINED; //return UNDEFINED if the enum is not parsable
 //        }
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeNodeDef.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeNodeDef.java
@ -0,0 +1,170 @@
 package eu.dnetlib.pace.tree.support;
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.List;
 import org.apache.spark.sql.Row;
 import org.apache.spark.sql.types.ArrayType;
 import org.apache.spark.sql.types.DataType;
 import org.apache.spark.sql.types.StringType;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.config.PaceConfig;
 import eu.dnetlib.pace.util.PaceException;
 public class TreeNodeDef implements Serializable {
 	final static String CROSS_COMPARE = "crossCompare";
 	private List<FieldConf> fields;
 	private AggType aggregation;
 	private double threshold;
 	private String positive;
 	private String negative;
 	private String undefined;
 	boolean ignoreUndefined;
 	public TreeNodeDef(List<FieldConf> fields, AggType aggregation, double threshold, String positive, String negative,
 		String undefined, boolean ignoreUndefined) {
 		this.fields = fields;
 		this.aggregation = aggregation;
 		this.threshold = threshold;
 		this.positive = positive;
 		this.negative = negative;
 		this.undefined = undefined;
 		this.ignoreUndefined = ignoreUndefined;
 	}
 	public TreeNodeDef() {
 	}
 	// function for the evaluation of the node
 	public TreeNodeStats evaluate(Row doc1, Row doc2, Config conf) {
 		TreeNodeStats stats = new TreeNodeStats();
 		// for each field in the node, it computes the
 		for (FieldConf fieldConf : fields) {
 			double weight = fieldConf.getWeight();
 			double result;
 			Object value1 = getJavaValue(doc1, fieldConf.getField());
 			Object value2 = getJavaValue(doc2, fieldConf.getField());
 			// if the param specifies a cross comparison (i.e. compare elements from different fields), compute the
 			// result for both sides and return the maximum
 			String crossField = fieldConf.getParams().get(CROSS_COMPARE);
 			if (crossField != null) {
 				double result1 = comparator(fieldConf).compare(value1, getJavaValue(doc2, crossField), conf);
 				double result2 = comparator(fieldConf).compare(getJavaValue(doc1, crossField), value2, conf);
 				result = Math.max(result1, result2);
 			} else {
 				result = comparator(fieldConf).compare(value1, value2, conf);
 			}
 			stats
 				.addFieldStats(
 					fieldConf.getComparator() + " on " + fieldConf.getField() + " " + fields.indexOf(fieldConf),
 					new FieldStats(
 						weight,
 						Double.parseDouble(fieldConf.getParams().getOrDefault("threshold", "1.0")),
 						result,
 						fieldConf.isCountIfUndefined(),
 						value1,
 						value2));
 		}
 		return stats;
 	}
 	public Object getJavaValue(Row row, String name) {
 		int pos = row.fieldIndex(name);
 		if (pos >= 0) {
 			DataType dt = row.schema().fields()[pos].dataType();
 			if (dt instanceof StringType) {
 				return row.getString(pos);
 			} else if (dt instanceof ArrayType) {
 				return row.getList(pos);
 			}
 		}
 		return null;
 	}
 	private Comparator comparator(final FieldConf field) {
 		return PaceConfig.resolver.getComparator(field.getComparator(), field.getParams());
 	}
 	public List<FieldConf> getFields() {
 		return fields;
 	}
 	public void setFields(List<FieldConf> fields) {
 		this.fields = fields;
 	}
 	public AggType getAggregation() {
 		return aggregation;
 	}
 	public void setAggregation(AggType aggregation) {
 		this.aggregation = aggregation;
 	}
 	public double getThreshold() {
 		return threshold;
 	}
 	public void setThreshold(double threshold) {
 		this.threshold = threshold;
 	}
 	public String getPositive() {
 		return positive;
 	}
 	public void setPositive(String positive) {
 		this.positive = positive;
 	}
 	public String getNegative() {
 		return negative;
 	}
 	public void setNegative(String negative) {
 		this.negative = negative;
 	}
 	public String getUndefined() {
 		return undefined;
 	}
 	public void setUndefined(String undefined) {
 		this.undefined = undefined;
 	}
 	public boolean isIgnoreUndefined() {
 		return ignoreUndefined;
 	}
 	public void setIgnoreUndefined(boolean ignoreUndefined) {
 		this.ignoreUndefined = ignoreUndefined;
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("Impossible to convert to JSON: ", e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeNodeStats.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeNodeStats.java
@ -0,0 +1,134 @@
 package eu.dnetlib.pace.tree.support;
 import java.io.Serializable;
 import java.util.HashMap;
 import java.util.Map;
 public class TreeNodeStats implements Serializable {
 	private Map<String, FieldStats> results; // this is an accumulator for the results of the node
 	public TreeNodeStats() {
 		this.results = new HashMap<>();
 	}
 	public Map<String, FieldStats> getResults() {
 		return results;
 	}
 	public void addFieldStats(String id, FieldStats fieldStats) {
 		this.results.put(id, fieldStats);
 	}
 	public int fieldsCount() {
 		return this.results.size();
 	}
 	public int undefinedCount() {
 		int undefinedCount = 0;
 		for (FieldStats fs : this.results.values()) {
 			if (fs.getResult() == -1)
 				undefinedCount++;
 		}
 		return undefinedCount;
 	}
 	public double scoreSum() {
 		double scoreSum = 0.0;
 		for (FieldStats fs : this.results.values()) {
 			if (fs.getResult() >= 0.0) {
 				scoreSum += fs.getResult();
 			}
 		}
 		return scoreSum;
 	}
 	// return the sum of the weights without considering the fields with countIfMissing=false && result=-1
 	public double weightSum() {
 		double weightSum = 0.0;
 		for (FieldStats fs : this.results.values()) {
 			if (fs.getResult() >= 0.0 || (fs.getResult() < 0.0 && fs.isCountIfUndefined())) {
 				weightSum += fs.getWeight();
 			}
 		}
 		return weightSum;
 	}
 	public double weightedScoreSum() {
 		double weightedScoreSum = 0.0;
 		for (FieldStats fs : this.results.values()) {
 			if (fs.getResult() >= 0.0) {
 				weightedScoreSum += fs.getResult() * fs.getWeight();
 			}
 		}
 		return weightedScoreSum;
 	}
 	public double max() {
 		double max = -1.0;
 		for (FieldStats fs : this.results.values()) {
 			if (fs.getResult() > max)
 				max = fs.getResult();
 		}
 		return max;
 	}
 	public double min() {
 		double min = 100.0; // random high value
 		for (FieldStats fs : this.results.values()) {
 			if (fs.getResult() < min) {
 				if (fs.getResult() >= 0.0 || (fs.getResult() == -1 && fs.isCountIfUndefined()))
 					min = fs.getResult();
 			}
 		}
 		return min;
 	}
 	// if at least one is true, return 1.0
 	public double or() {
 		for (FieldStats fieldStats : this.results.values()) {
 			if (fieldStats.getResult() >= fieldStats.getThreshold())
 				return 1.0;
 		}
 		return 0.0;
 	}
 	// if at least one is false, return 0.0
 	public double and() {
 		for (FieldStats fieldStats : this.results.values()) {
 			if (fieldStats.getResult() == -1) {
 				if (fieldStats.isCountIfUndefined())
 					return 0.0;
 			} else {
 				if (fieldStats.getResult() < fieldStats.getThreshold())
 					return 0.0;
 			}
 		}
 		return 1.0;
 	}
 	public double getFinalScore(AggType aggregation) {
 		switch (aggregation) {
 			case AVG:
 				return scoreSum() / fieldsCount();
 			case SUM:
 				return scoreSum();
 			case MAX:
 				return max();
 			case MIN:
 				return min();
 			case W_MEAN:
 				return weightedScoreSum() / weightSum();
 			case OR:
 				return or();
 			case AND:
 				return and();
 			default:
 				return 0.0;
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeProcessor.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeProcessor.java
@ -0,0 +1,92 @@
 package eu.dnetlib.pace.tree.support;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
 import org.apache.spark.sql.Row;
 import eu.dnetlib.pace.config.Config;
 import eu.dnetlib.pace.util.PaceException;
 /**
 * The compare between two documents is given by the weighted mean of the field distances
 */
 public class TreeProcessor {
 	private static final Log log = LogFactory.getLog(TreeProcessor.class);
 	private Config config;
 	public TreeProcessor(final Config config) {
 		this.config = config;
 	}
 	// row based copies
 	public boolean compare(final Row a, final Row b) {
 		// evaluate the decision tree
 		return evaluateTree(a, b).getResult() == MatchType.MATCH;
 	}
 	public TreeStats evaluateTree(final Row doc1, final Row doc2) {
 		TreeStats treeStats = new TreeStats();
 		String nextNodeName = "start";
 		do {
 			TreeNodeDef currentNode = config.decisionTree().get(nextNodeName);
 			// throw an exception if the node doesn't exist
 			if (currentNode == null)
 				throw new PaceException("Missing tree node: " + nextNodeName);
 			TreeNodeStats stats = currentNode.evaluate(doc1, doc2, config);
 			treeStats.addNodeStats(nextNodeName, stats);
 			// if ignoreUndefined=false the miss is considered as undefined
 			if (!currentNode.isIgnoreUndefined() && stats.undefinedCount() > 0) {
 				nextNodeName = currentNode.getUndefined();
 			}
 			// if ignoreUndefined=true the miss is ignored and the score computed anyway
 			else if (stats.getFinalScore(currentNode.getAggregation()) >= currentNode.getThreshold()) {
 				nextNodeName = currentNode.getPositive();
 			} else {
 				nextNodeName = currentNode.getNegative();
 			}
 		} while (MatchType.parse(nextNodeName) == MatchType.UNDEFINED);
 		treeStats.setResult(MatchType.parse(nextNodeName));
 		return treeStats;
 	}
 	public double computeScore(final Row doc1, final Row doc2) {
 		String nextNodeName = "start";
 		double score = 0.0;
 		do {
 			TreeNodeDef currentNode = config.decisionTree().get(nextNodeName);
 			// throw an exception if the node doesn't exist
 			if (currentNode == null)
 				throw new PaceException("The Tree Node doesn't exist: " + nextNodeName);
 			TreeNodeStats stats = currentNode.evaluate(doc1, doc2, config);
 			score = stats.getFinalScore(currentNode.getAggregation());
 			// if ignoreUndefined=false the miss is considered as undefined
 			if (!currentNode.isIgnoreUndefined() && stats.undefinedCount() > 0) {
 				nextNodeName = currentNode.getUndefined();
 			}
 			// if ignoreUndefined=true the miss is ignored and the score computed anyway
 			else if (stats.getFinalScore(currentNode.getAggregation()) >= currentNode.getThreshold()) {
 				nextNodeName = currentNode.getPositive();
 			} else {
 				nextNodeName = currentNode.getNegative();
 			}
 		} while (MatchType.parse(nextNodeName) == MatchType.UNDEFINED);
 		return score;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeStats.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/tree/support/TreeStats.java
@ -0,0 +1,52 @@
 package eu.dnetlib.pace.tree.support;
 import java.io.IOException;
 import java.util.HashMap;
 import java.util.Map;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import eu.dnetlib.pace.util.PaceException;
 public class TreeStats {
 	// <layer_id, <field:comparator, result>>
 	Map<String, TreeNodeStats> stats;
 	MatchType result;
 	public TreeStats() {
 		this.stats = new HashMap<>();
 		this.result = MatchType.NO_MATCH;
 	}
 	public MatchType getResult() {
 		return this.result;
 	}
 	public void setResult(MatchType result) {
 		this.result = result;
 	}
 	public Map<String, TreeNodeStats> getStats() {
 		return stats;
 	}
 	public void setStats(Map<String, TreeNodeStats> stats) {
 		this.stats = stats;
 	}
 	public void addNodeStats(String layerID, TreeNodeStats treeNodeStats) {
 		this.stats.put(layerID, treeNodeStats);
 	}
 	@Override
 	public String toString() {
 		try {
 			return new ObjectMapper().writerWithDefaultPrettyPrinter().writeValueAsString(this);
 		} catch (IOException e) {
 			throw new PaceException("Impossible to convert to JSON: ", e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/BlockProcessor.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/BlockProcessor.java
@ -0,0 +1,149 @@
 package eu.dnetlib.pace.util;
 import java.util.ArrayList;
 import java.util.Collection;
 import java.util.Iterator;
 import java.util.List;
 import org.apache.commons.lang3.StringUtils;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
 import org.apache.spark.sql.Row;
 import org.apache.spark.sql.types.ArrayType;
 import org.apache.spark.sql.types.DataType;
 import org.apache.spark.sql.types.StringType;
 import org.apache.spark.sql.types.StructType;
 import eu.dnetlib.pace.config.DedupConfig;
 import eu.dnetlib.pace.config.WfConfig;
 import eu.dnetlib.pace.tree.support.TreeProcessor;
 public class BlockProcessor {
 	public static final List<String> accumulators = new ArrayList<>();
 	private static final Log log = LogFactory.getLog(BlockProcessor.class);
 	private DedupConfig dedupConf;
 	private final int identifierFieldPos;
 	private final int orderFieldPos;
 	public static void constructAccumulator(final DedupConfig dedupConf) {
 		accumulators.add(String.format("%s::%s", dedupConf.getWf().getEntityType(), "records per hash key = 1"));
 		accumulators
 			.add(
 				String
 					.format(
 						"%s::%s", dedupConf.getWf().getEntityType(), "missing " + dedupConf.getWf().getOrderField()));
 		accumulators
 			.add(
 				String
 					.format(
 						"%s::%s", dedupConf.getWf().getEntityType(),
 						String
 							.format(
 								"Skipped records for count(%s) >= %s", dedupConf.getWf().getOrderField(),
 								dedupConf.getWf().getGroupMaxSize())));
 		accumulators.add(String.format("%s::%s", dedupConf.getWf().getEntityType(), "skip list"));
 		accumulators.add(String.format("%s::%s", dedupConf.getWf().getEntityType(), "dedupSimilarity (x2)"));
 		accumulators
 			.add(String.format("%s::%s", dedupConf.getWf().getEntityType(), "d < " + dedupConf.getWf().getThreshold()));
 	}
 	public BlockProcessor(DedupConfig dedupConf, int identifierFieldPos, int orderFieldPos) {
 		this.dedupConf = dedupConf;
 		this.identifierFieldPos = identifierFieldPos;
 		this.orderFieldPos = orderFieldPos;
 	}
 	public void processSortedRows(final List<Row> documents, final Reporter context) {
 		if (documents.size() > 1) {
 //            log.info("reducing key: '" + key + "' records: " + q.size());
 			processRows(documents, context);
 		} else {
 			context.incrementCounter(dedupConf.getWf().getEntityType(), "records per hash key = 1", 1);
 		}
 	}
 	private void processRows(final List<Row> queue, final Reporter context) {
 		for (int pivotPos = 0; pivotPos < queue.size(); pivotPos++) {
 			final Row pivot = queue.get(pivotPos);
 			final String idPivot = pivot.getString(identifierFieldPos); // identifier
 			final Object fieldsPivot = getJavaValue(pivot, orderFieldPos);
 			final String fieldPivot = (fieldsPivot == null) ? "" : fieldsPivot.toString();
 			final WfConfig wf = dedupConf.getWf();
 			if (fieldPivot != null) {
 				int i = 0;
 				for (int windowPos = pivotPos + 1; windowPos < queue.size(); windowPos++) {
 					final Row curr = queue.get(windowPos);
 					final String idCurr = curr.getString(identifierFieldPos); // identifier
 					if (mustSkip(idCurr)) {
 						context.incrementCounter(wf.getEntityType(), "skip list", 1);
 						break;
 					}
 					if (++i > wf.getSlidingWindowSize()) {
 						break;
 					}
 					final Object fieldsCurr = getJavaValue(curr, orderFieldPos);
 					final String fieldCurr = (fieldsCurr == null) ? null : fieldsCurr.toString();
 					if (!idCurr.equals(idPivot) && (fieldCurr != null)) {
 						final TreeProcessor treeProcessor = new TreeProcessor(dedupConf);
 						emitOutput(treeProcessor.compare(pivot, curr), idPivot, idCurr, context);
 					}
 				}
 			}
 		}
 	}
 	public Object getJavaValue(Row row, int pos) {
 		DataType dt = row.schema().fields()[pos].dataType();
 		if (dt instanceof StringType) {
 			return row.getString(pos);
 		} else if (dt instanceof ArrayType) {
 			return row.getList(pos);
 		}
 		return null;
 	}
 	private void emitOutput(final boolean result, final String idPivot, final String idCurr, final Reporter context) {
 		if (result) {
 			if (idPivot.compareTo(idCurr) <= 0) {
 				writeSimilarity(context, idPivot, idCurr);
 			} else {
 				writeSimilarity(context, idCurr, idPivot);
 			}
 			context.incrementCounter(dedupConf.getWf().getEntityType(), "dedupSimilarity (x2)", 1);
 		} else {
 			context.incrementCounter(dedupConf.getWf().getEntityType(), "d < " + dedupConf.getWf().getThreshold(), 1);
 		}
 	}
 	private boolean mustSkip(final String idPivot) {
 		return dedupConf.getWf().getSkipList().contains(getNsPrefix(idPivot));
 	}
 	private String getNsPrefix(final String id) {
 		return StringUtils.substringBetween(id, "|", "::");
 	}
 	private void writeSimilarity(final Reporter context, final String from, final String to) {
 		final String type = dedupConf.getWf().getEntityType();
 		context.emit(type, from, to);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/Capitalise.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/Capitalise.java
@ -0,0 +1,18 @@
 package eu.dnetlib.pace.util;
 import org.apache.commons.lang3.text.WordUtils;
 import com.google.common.base.Function;
 public class Capitalise implements Function<String, String> {
 	private final char[] DELIM = {
 		' ', '-'
 	};
 	@Override
 	public String apply(final String s) {
 		return WordUtils.capitalize(s.toLowerCase(), DELIM);
 	}
 };
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/DiffPatchMatch.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/DiffPatchMatch.java
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/DotAbbreviations.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/DotAbbreviations.java
@ -0,0 +1,11 @@
 package eu.dnetlib.pace.util;
 import com.google.common.base.Function;
 public class DotAbbreviations implements Function<String, String> {
 	@Override
 	public String apply(String s) {
 		return s.length() == 1 ? s + "." : s;
 	}
 };
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/MapDocumentUtil.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/MapDocumentUtil.java
@ -0,0 +1,172 @@
 package eu.dnetlib.pace.util;
 import java.math.BigDecimal;
 import java.util.*;
 import java.util.function.Predicate;
 import java.util.stream.Collectors;
 import com.fasterxml.jackson.core.JsonProcessingException;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import com.jayway.jsonpath.Configuration;
 import com.jayway.jsonpath.DocumentContext;
 import com.jayway.jsonpath.JsonPath;
 import com.jayway.jsonpath.Option;
 import eu.dnetlib.pace.config.DedupConfig;
 import eu.dnetlib.pace.config.Type;
 import eu.dnetlib.pace.model.*;
 import net.minidev.json.JSONArray;
 public class MapDocumentUtil {
 	public static final String URL_REGEX = "^(http|https|ftp)\\://.*";
 	public static Predicate<String> urlFilter = s -> s.trim().matches(URL_REGEX);
 	public static List<String> getJPathList(String path, String json, Type type) {
 		if (type == Type.List)
 			return JsonPath
 				.using(
 					Configuration
 						.defaultConfiguration()
 						.addOptions(Option.ALWAYS_RETURN_LIST, Option.SUPPRESS_EXCEPTIONS))
 				.parse(json)
 				.read(path);
 		Object jresult;
 		List<String> result = new ArrayList<>();
 		try {
 			jresult = JsonPath.read(json, path);
 		} catch (Throwable e) {
 			return result;
 		}
 		if (jresult instanceof JSONArray) {
 			((JSONArray) jresult).forEach(it -> {
 				try {
 					result.add(new ObjectMapper().writeValueAsString(it));
 				} catch (JsonProcessingException e) {
 				}
 			});
 			return result;
 		}
 		if (jresult instanceof LinkedHashMap) {
 			try {
 				result.add(new ObjectMapper().writeValueAsString(jresult));
 			} catch (JsonProcessingException e) {
 			}
 			return result;
 		}
 		if (jresult instanceof String) {
 			result.add((String) jresult);
 		}
 		return result;
 	}
 	public static String getJPathString(final String jsonPath, final String json) {
 		try {
 			Object o = JsonPath.read(json, jsonPath);
 			if (o instanceof String)
 				return (String) o;
 			if (o instanceof JSONArray && ((JSONArray) o).size() > 0)
 				return (String) ((JSONArray) o).get(0);
 			return "";
 		} catch (Exception e) {
 			return "";
 		}
 	}
 	public static double[] getJPathArray(final String jsonPath, final String json) {
 		try {
 			Object o = JsonPath.read(json, jsonPath);
 			if (o instanceof double[])
 				return (double[]) o;
 			if (o instanceof JSONArray) {
 				Object[] objects = ((JSONArray) o).toArray();
 				double[] array = new double[objects.length];
 				for (int i = 0; i < objects.length; i++) {
 					if (objects[i] instanceof BigDecimal)
 						array[i] = ((BigDecimal) objects[i]).doubleValue();
 					else
 						array[i] = (double) objects[i];
 				}
 				return array;
 			}
 			return new double[0];
 		} catch (Exception e) {
 			e.printStackTrace();
 			return new double[0];
 		}
 	}
 	public static String truncateValue(String value, int length) {
 		if (value == null)
 			return "";
 		if (length == -1 || length > value.length())
 			return value;
 		return value.substring(0, length);
 	}
 	public static List<String> truncateList(List<String> list, int size) {
 		if (size == -1 || size > list.size())
 			return list;
 		return list.subList(0, size);
 	}
 	public static String getJPathString(final String jsonPath, final DocumentContext json) {
 		try {
 			Object o = json.read(jsonPath);
 			if (o instanceof String)
 				return (String) o;
 			if (o instanceof JSONArray && ((JSONArray) o).size() > 0)
 				return (String) ((JSONArray) o).get(0);
 			return "";
 		} catch (Exception e) {
 			return "";
 		}
 	}
 	public static List<String> getJPathList(String path, DocumentContext json, Type type) {
 		// if (type == Type.List)
 		// return JsonPath.using(Configuration.defaultConfiguration().addOptions(Option.ALWAYS_RETURN_LIST,
 		// Option.SUPPRESS_EXCEPTIONS)).parse(json).read(path);
 		Object jresult;
 		List<String> result = new ArrayList<>();
 		try {
 			jresult = json.read(path);
 		} catch (Throwable e) {
 			return result;
 		}
 		if (jresult instanceof JSONArray) {
 			((JSONArray) jresult).forEach(it -> {
 				try {
 					result.add(new ObjectMapper().writeValueAsString(it));
 				} catch (JsonProcessingException e) {
 				}
 			});
 			return result;
 		}
 		if (jresult instanceof LinkedHashMap) {
 			try {
 				result.add(new ObjectMapper().writeValueAsString(jresult));
 			} catch (JsonProcessingException e) {
 			}
 			return result;
 		}
 		if (jresult instanceof String) {
 			result.add((String) jresult);
 		}
 		return result;
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/PaceException.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/PaceException.java
@ -0,0 +1,14 @@
 package eu.dnetlib.pace.util;
 public class PaceException extends RuntimeException {
 	public PaceException(String s, Throwable e) {
 		super(s, e);
 	}
 	public PaceException(String s) {
 		super(s);
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/PaceResolver.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/PaceResolver.java
@ -0,0 +1,61 @@
 package eu.dnetlib.pace.util;
 import java.io.Serializable;
 import java.lang.reflect.InvocationTargetException;
 import java.util.Map;
 import java.util.stream.Collectors;
 import org.reflections.Reflections;
 import eu.dnetlib.pace.clustering.ClusteringClass;
 import eu.dnetlib.pace.clustering.ClusteringFunction;
 import eu.dnetlib.pace.tree.support.Comparator;
 import eu.dnetlib.pace.tree.support.ComparatorClass;
 public class PaceResolver implements Serializable {
 	public static final Reflections CLUSTERING_RESOLVER = new Reflections("eu.dnetlib.pace.clustering");
 	public static final Reflections COMPARATOR_RESOLVER = new Reflections("eu.dnetlib.pace.tree");
 	private final Map<String, Class<ClusteringFunction>> clusteringFunctions;
 	private final Map<String, Class<Comparator>> comparators;
 	public PaceResolver() {
 		this.clusteringFunctions = CLUSTERING_RESOLVER
 			.getTypesAnnotatedWith(ClusteringClass.class)
 			.stream()
 			.filter(ClusteringFunction.class::isAssignableFrom)
 			.collect(
 				Collectors
 					.toMap(
 						cl -> cl.getAnnotation(ClusteringClass.class).value(), cl -> (Class<ClusteringFunction>) cl));
 		this.comparators = COMPARATOR_RESOLVER
 			.getTypesAnnotatedWith(ComparatorClass.class)
 			.stream()
 			.filter(Comparator.class::isAssignableFrom)
 			.collect(
 				Collectors.toMap(cl -> cl.getAnnotation(ComparatorClass.class).value(), cl -> (Class<Comparator>) cl));
 	}
 	public ClusteringFunction getClusteringFunction(String name, Map<String, Integer> params) throws PaceException {
 		try {
 			return clusteringFunctions.get(name).getDeclaredConstructor(Map.class).newInstance(params);
 		} catch (InstantiationException | IllegalAccessException | InvocationTargetException
 			| NoSuchMethodException e) {
 			throw new PaceException(name + " not found ", e);
 		}
 	}
 	public Comparator getComparator(String name, Map<String, String> params) throws PaceException {
 		try {
 			return comparators.get(name).getDeclaredConstructor(Map.class).newInstance(params);
 		} catch (InstantiationException | IllegalAccessException | InvocationTargetException | NoSuchMethodException
 			| NullPointerException e) {
 			throw new PaceException(name + " not found ", e);
 		}
 	}
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/Reporter.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/Reporter.java
@ -0,0 +1,11 @@
 package eu.dnetlib.pace.util;
 import java.io.Serializable;
 public interface Reporter extends Serializable {
 	void incrementCounter(String counterGroup, String counterName, long delta);
 	void emit(String type, String from, String to);
 }
--- a/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/SparkReporter.java
+++ b/dhp-pace-core/src/main/java/eu/dnetlib/pace/util/SparkReporter.java
@ -0,0 +1,86 @@
 package eu.dnetlib.pace.util;
 import java.util.ArrayList;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 import org.apache.spark.SparkContext;
 import org.apache.spark.util.LongAccumulator;
 import eu.dnetlib.pace.config.DedupConfig;
 import eu.dnetlib.pace.util.Reporter;
 import scala.Serializable;
 import scala.Tuple2;
 public class SparkReporter implements Serializable, Reporter {
 	private final List<Tuple2<String, String>> relations = new ArrayList<>();
 	private final Map<String, LongAccumulator> accumulators;
 	public SparkReporter(Map<String, LongAccumulator> accumulators) {
 		this.accumulators = accumulators;
 	}
 	public void incrementCounter(
 		String counterGroup,
 		String counterName,
 		long delta,
 		Map<String, LongAccumulator> accumulators) {
 		final String accumulatorName = String.format("%s::%s", counterGroup, counterName);
 		if (accumulators.containsKey(accumulatorName)) {
 			accumulators.get(accumulatorName).add(delta);
 		}
 	}
 	@Override
 	public void incrementCounter(String counterGroup, String counterName, long delta) {
 		incrementCounter(counterGroup, counterName, delta, accumulators);
 	}
 	@Override
 	public void emit(String type, String from, String to) {
 		relations.add(new Tuple2<>(from, to));
 	}
 	public List<Tuple2<String, String>> getRelations() {
 		return relations;
 	}
 	public static Map<String, LongAccumulator> constructAccumulator(
 		final DedupConfig dedupConf, final SparkContext context) {
 		Map<String, LongAccumulator> accumulators = new HashMap<>();
 		String acc1 = String.format("%s::%s", dedupConf.getWf().getEntityType(), "records per hash key = 1");
 		accumulators.put(acc1, context.longAccumulator(acc1));
 		String acc2 = String
 			.format(
 				"%s::%s",
 				dedupConf.getWf().getEntityType(), "missing " + dedupConf.getWf().getOrderField());
 		accumulators.put(acc2, context.longAccumulator(acc2));
 		String acc3 = String
 			.format(
 				"%s::%s",
 				dedupConf.getWf().getEntityType(),
 				String
 					.format(
 						"Skipped records for count(%s) >= %s",
 						dedupConf.getWf().getOrderField(), dedupConf.getWf().getGroupMaxSize()));
 		accumulators.put(acc3, context.longAccumulator(acc3));
 		String acc4 = String.format("%s::%s", dedupConf.getWf().getEntityType(), "skip list");
 		accumulators.put(acc4, context.longAccumulator(acc4));
 		String acc5 = String.format("%s::%s", dedupConf.getWf().getEntityType(), "dedupSimilarity (x2)");
 		accumulators.put(acc5, context.longAccumulator(acc5));
 		String acc6 = String
 			.format(
 				"%s::%s", dedupConf.getWf().getEntityType(), "d < " + dedupConf.getWf().getThreshold());
 		accumulators.put(acc6, context.longAccumulator(acc6));
 		return accumulators;
 	}
 }
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/city_map.csv
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/city_map.csv
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/dedupConfig.st
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/dedupConfig.st
@ -0,0 +1,27 @@
 {
 	"wf" : {
 		"threshold" : "$threshold$",
 		"dedupRun" : "$run$",
 		"entityType" : "$entityType$",
 		"subEntityType" : "$subEntityType$",
 		"subEntityValue" : "$subEntityValue$",
 		"orderField" : "$orderField$",
 		"queueMaxSize" : "$queueMaxSize$",
 		"groupMaxSize" : "$groupMaxSize$",
 		"slidingWindowSize" : "$slidingWindowSize$",
 		"rootBuilder" : [ $rootBuilder:{"$it$"};separator=", "$ ],
        "includeChildren" : "$includeChildren$",
        "configurationId" : "$configurationId$"
 	},
 	"pace" : {
 		"clustering" : [
 		],
 		"sufficientConditions" : [
 		],
 		"necessaryConditions" : [
 		],
 		"model" : [
 		],
 		"blacklists" : { }
 	}
 }
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/name_particles.txt
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/name_particles.txt
@ -0,0 +1,7 @@
 van
 der
 de
 dell
 sig
 mr
 mrs
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/ngram_blacklist.txt
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/ngram_blacklist.txt
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/stopwords_de.txt
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/stopwords_de.txt
@ -0,0 +1,620 @@
 a
 ab
 aber
 ach
 acht
 achte
 achten
 achter
 achtes
 ag
 alle
 allein
 allem
 aller
 allerdings
 alles
 allgemeinen
 als
 also
 am
 an
 ander
 andere
 anderem
 anderen
 anderer
 anderes
 anderm
 andern
 anderr
 anders
 au
 auch
 auf
 aus
 ausser
 ausserdem
 außer
 außerdem
 b
 bald
 bei
 beide
 beiden
 beim
 beispiel
 bekannt
 bereits
 besonders
 besser
 besten
 bin
 bis
 bisher
 bist
 c
 d
 d.h
 da
 dabei
 dadurch
 dafür
 dagegen
 daher
 dahin
 dahinter
 damals
 damit
 danach
 daneben
 dank
 dann
 daran
 darauf
 daraus
 darf
 darfst
 darin
 darum
 darunter
 darüber
 das
 dasein
 daselbst
 dass
 dasselbe
 davon
 davor
 dazu
 dazwischen
 daß
 dein
 deine
 deinem
 deinen
 deiner
 deines
 dem
 dementsprechend
 demgegenüber
 demgemäss
 demgemäß
 demselben
 demzufolge
 den
 denen
 denn
 denselben
 der
 deren
 derer
 derjenige
 derjenigen
 dermassen
 dermaßen
 derselbe
 derselben
 des
 deshalb
 desselben
 dessen
 deswegen
 dich
 die
 diejenige
 diejenigen
 dies
 diese
 dieselbe
 dieselben
 diesem
 diesen
 dieser
 dieses
 dir
 doch
 dort
 drei
 drin
 dritte
 dritten
 dritter
 drittes
 du
 durch
 durchaus
 durfte
 durften
 dürfen
 dürft
 e
 eben
 ebenso
 ehrlich
 ei
 ei,
 eigen
 eigene
 eigenen
 eigener
 eigenes
 ein
 einander
 eine
 einem
 einen
 einer
 eines
 einig
 einige
 einigem
 einigen
 einiger
 einiges
 einmal
 eins
 elf
 en
 ende
 endlich
 entweder
 er
 ernst
 erst
 erste
 ersten
 erster
 erstes
 es
 etwa
 etwas
 euch
 euer
 eure
 eurem
 euren
 eurer
 eures
 f
 folgende
 früher
 fünf
 fünfte
 fünften
 fünfter
 fünftes
 für
 g
 gab
 ganz
 ganze
 ganzen
 ganzer
 ganzes
 gar
 gedurft
 gegen
 gegenüber
 gehabt
 gehen
 geht
 gekannt
 gekonnt
 gemacht
 gemocht
 gemusst
 genug
 gerade
 gern
 gesagt
 geschweige
 gewesen
 gewollt
 geworden
 gibt
 ging
 gleich
 gott
 gross
 grosse
 grossen
 grosser
 grosses
 groß
 große
 großen
 großer
 großes
 gut
 gute
 guter
 gutes
 h
 hab
 habe
 haben
 habt
 hast
 hat
 hatte
 hatten
 hattest
 hattet
 heisst
 her
 heute
 hier
 hin
 hinter
 hoch
 hätte
 hätten
 i
 ich
 ihm
 ihn
 ihnen
 ihr
 ihre
 ihrem
 ihren
 ihrer
 ihres
 im
 immer
 in
 indem
 infolgedessen
 ins
 irgend
 ist
 j
 ja
 jahr
 jahre
 jahren
 je
 jede
 jedem
 jeden
 jeder
 jedermann
 jedermanns
 jedes
 jedoch
 jemand
 jemandem
 jemanden
 jene
 jenem
 jenen
 jener
 jenes
 jetzt
 k
 kam
 kann
 kannst
 kaum
 kein
 keine
 keinem
 keinen
 keiner
 keines
 kleine
 kleinen
 kleiner
 kleines
 kommen
 kommt
 konnte
 konnten
 kurz
 können
 könnt
 könnte
 l
 lang
 lange
 leicht
 leide
 lieber
 los
 m
 machen
 macht
 machte
 mag
 magst
 mahn
 mal
 man
 manche
 manchem
 manchen
 mancher
 manches
 mann
 mehr
 mein
 meine
 meinem
 meinen
 meiner
 meines
 mensch
 menschen
 mich
 mir
 mit
 mittel
 mochte
 mochten
 morgen
 muss
 musst
 musste
 mussten
 muß
 mußt
 möchte
 mögen
 möglich
 mögt
 müssen
 müsst
 müßt
 n
 na
 nach
 nachdem
 nahm
 natürlich
 neben
 nein
 neue
 neuen
 neun
 neunte
 neunten
 neunter
 neuntes
 nicht
 nichts
 nie
 niemand
 niemandem
 niemanden
 noch
 nun
 nur
 o
 ob
 oben
 oder
 offen
 oft
 ohne
 ordnung
 p
 q
 r
 recht
 rechte
 rechten
 rechter
 rechtes
 richtig
 rund
 s
 sa
 sache
 sagt
 sagte
 sah
 satt
 schlecht
 schluss
 schon
 sechs
 sechste
 sechsten
 sechster
 sechstes
 sehr
 sei
 seid
 seien
 sein
 seine
 seinem
 seinen
 seiner
 seines
 seit
 seitdem
 selbst
 sich
 sie
 sieben
 siebente
 siebenten
 siebenter
 siebentes
 sind
 so
 solang
 solche
 solchem
 solchen
 solcher
 solches
 soll
 sollen
 sollst
 sollt
 sollte
 sollten
 sondern
 sonst
 soweit
 sowie
 später
 startseite
 statt
 steht
 suche
 t
 tag
 tage
 tagen
 tat
 teil
 tel
 tritt
 trotzdem
 tun
 u
 uhr
 um
 und
 und?
 uns
 unse
 unsem
 unsen
 unser
 unsere
 unserer
 unses
 unter
 v
 vergangenen
 viel
 viele
 vielem
 vielen
 vielleicht
 vier
 vierte
 vierten
 vierter
 viertes
 vom
 von
 vor
 w
 wahr?
 wann
 war
 waren
 warst
 wart
 warum
 was
 weg
 wegen
 weil
 weit
 weiter
 weitere
 weiteren
 weiteres
 welche
 welchem
 welchen
 welcher
 welches
 wem
 wen
 wenig
 wenige
 weniger
 weniges
 wenigstens
 wenn
 wer
 werde
 werden
 werdet
 weshalb
 wessen
 wie
 wieder
 wieso
 will
 willst
 wir
 wird
 wirklich
 wirst
 wissen
 wo
 woher
 wohin
 wohl
 wollen
 wollt
 wollte
 wollten
 worden
 wurde
 wurden
 während
 währenddem
 währenddessen
 wäre
 würde
 würden
 x
 y
 z
 z.b
 zehn
 zehnte
 zehnten
 zehnter
 zehntes
 zeit
 zu
 zuerst
 zugleich
 zum
 zunächst
 zur
 zurück
 zusammen
 zwanzig
 zwar
 zwei
 zweite
 zweiten
 zweiter
 zweites
 zwischen
 zwölf
 über
 überhaupt
 übrigens
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/stopwords_en.txt
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/stopwords_en.txt
@ -0,0 +1,138 @@
 a
 about
 above
 after
 again
 against
 all
 an
 and
 any
 are
 aren
 as
 at
 be
 because
 been
 before
 being
 below
 between
 both
 but
 by
 can
 cannot
 could
 couldn
 did
 didn
 do
 does
 doesn
 doing
 don
 down
 during
 each
 few
 for
 from
 further
 had
 hadn
 has
 hasn
 have
 havent
 having
 he
 hed
 her
 here
 hers
 herself
 him
 himself
 his
 how
 if
 in
 into
 is
 isn
 it
 its
 itself
 let
 more
 most
 mustn
 myself
 no
 nor
 not
 of
 off
 on
 once
 only
 other
 ought
 our
 ours
 ourselves
 out
 over
 own
 s
 same
 shan
 she
 should
 shouldn
 so
 some
 such
 than
 that
 the
 their
 theirs
 themselves
 then
 there
 these
 they
 this
 those
 through
 to
 too
 under
 until
 up
 very
 was
 wasn
 we
 were
 weren
 what
 when
 where
 which
 while
 who
 whom
 why
 with
 won
 would
 wouldn
 you
 your
 yours
 yourself
 yourselves
--- a/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/stopwords_es.txt
+++ b/dhp-pace-core/src/main/resources/eu/dnetlib/pace/config/stopwords_es.txt
@ -0,0 +1,720 @@
 a
 actualmente
 acuerdo
 adelante
 ademas
 además
 adrede
 afirmó
 agregó
 ahi
 ahora
 ahí
 al
 algo
 alguna
 algunas
 alguno
 algunos
 algún
 alli
 allí
 alrededor
 ambos
 ampleamos
 antano
 antaño
 ante
 anterior
 antes
 apenas
 aproximadamente
 aquel
 aquella
 aquellas
 aquello
 aquellos
 aqui
 aquél
 aquélla
 aquéllas
 aquéllos
 aquí
 arriba
 arribaabajo
 aseguró
 asi
 así
 atras
 aun
 aunque
 ayer
 añadió
 aún
 b
 bajo
 bastante
 bien
 breve
 buen
 buena
 buenas
 bueno
 buenos
 c
 cada
 casi
 cerca
 cierta
 ciertas
 cierto
 ciertos
 cinco
 claro
 comentó
 como
 con
 conmigo
 conocer
 conseguimos
 conseguir
 considera
 consideró
 consigo
 consigue
 consiguen
 consigues
 contigo
 contra
 cosas
 creo
 cual
 cuales
 cualquier
 cuando
 cuanta
 cuantas
 cuanto
 cuantos
 cuatro
 cuenta
 cuál
 cuáles
 cuándo
 cuánta
 cuántas
 cuánto
 cuántos
 cómo
 d
 da
 dado
 dan
 dar
 de
 debajo
 debe
 deben
 debido
 decir
 dejó
 del
 delante
 demasiado
 demás
 dentro
 deprisa
 desde
 despacio
 despues
 después
 detras
 detrás
 dia
 dias
 dice
 dicen
 dicho
 dieron
 diferente
 diferentes
 dijeron
 dijo
 dio
 donde
 dos
 durante
 día
 días
 dónde
 e
 ejemplo
 el
 ella
 ellas
 ello
 ellos
 embargo
 empleais
 emplean
 emplear
 empleas
 empleo
 en
 encima
 encuentra
 enfrente
 enseguida
 entonces
 entre
 era
 erais
 eramos
 eran
 eras
 eres
 es
 esa
 esas
 ese
 eso
 esos
 esta
 estaba
 estabais
 estaban
 estabas
 estad
 estada
 estadas
 estado
 estados
 estais
 estamos
 estan
 estando
 estar
 estaremos
 estará
 estarán
 estarás
 estaré
 estaréis
 estaría
 estaríais
 estaríamos
 estarían
 estarías
 estas
 este
 estemos
 esto
 estos
 estoy
 estuve
 estuviera
 estuvierais
 estuvieran
 estuvieras
 estuvieron
 estuviese
 estuvieseis
 estuviesen
 estuvieses
 estuvimos
 estuviste
 estuvisteis
 estuviéramos
 estuviésemos
 estuvo
 está
 estábamos
 estáis
 están
 estás
 esté
 estéis
 estén
 estés
 ex
 excepto
 existe
 existen
 explicó
 expresó
 f
 fin
 final
 fue
 fuera
 fuerais
 fueran
 fueras
 fueron
 fuese
 fueseis
 fuesen
 fueses
 fui
 fuimos
 fuiste
 fuisteis
 fuéramos
 fuésemos
 g
 general
 gran
 grandes
 gueno
 h
 ha
 haber
 habia
 habida
 habidas
 habido
 habidos
 habiendo
 habla
 hablan
 habremos
 habrá
 habrán
 habrás
 habré
 habréis
 habría
 habríais
 habríamos
 habrían
 habrías
 habéis
 había
 habíais
 habíamos
 habían
 habías
 hace
 haceis
 hacemos
 hacen
 hacer
 hacerlo
 haces
 hacia
 haciendo
 hago
 han
 has
 hasta
 hay
 haya
 hayamos
 hayan
 hayas
 hayáis
 he
 hecho
 hemos
 hicieron
 hizo
 horas
 hoy
 hube
 hubiera
 hubierais
 hubieran
 hubieras
 hubieron
 hubiese
 hubieseis
 hubiesen
 hubieses
 hubimos
 hubiste
 hubisteis
 hubiéramos
 hubiésemos
 hubo
 i
 igual
 incluso
 indicó
 informo
 informó
 intenta
 intentais
 intentamos
 intentan
 intentar
 intentas
 intento
 ir
 j
 junto
 k
 l
 la
 lado
 largo
 las
 le
 lejos
 les
 llegó
 lleva
 llevar
 lo
 los
 luego
 lugar
 m
 mal
 manera
 manifestó
 mas
 mayor
 me
 mediante
 medio
 mejor
 mencionó
 menos
 menudo
 mi
 mia
 mias
 mientras
 mio
 mios
 mis
 misma
 mismas
 mismo
 mismos
 modo
 momento
 mucha
 muchas
 mucho
 muchos
 muy
 más
 mí
 mía
 mías
 mío
 míos
 n
 nada
 nadie
 ni
 ninguna
 ningunas
 ninguno
 ningunos
 ningún
 no
 nos
 nosotras
 nosotros
 nuestra
 nuestras
 nuestro
 nuestros
 nueva
 nuevas
 nuevo
 nuevos
 nunca
 o
 ocho
 os
 otra
 otras
 otro
 otros
 p
 pais
 para
 parece
 parte
 partir
 pasada
 pasado
 paìs
 peor
 pero
 pesar
 poca
 pocas
 poco
 pocos
 podeis
 podemos
 poder
 podria
 podriais
 podriamos
 podrian
 podrias
 podrá
 podrán
 podría
 podrían
 poner
 por
 por qué
 porque
 posible
 primer
 primera
 primero
 primeros
 principalmente
 pronto
 propia
 propias
 propio
 propios
 proximo
 próximo
 próximos
 pudo
 pueda
 puede
 pueden
 puedo
 pues
 q
 qeu
 que
 quedó
 queremos
 quien
 quienes
 quiere
 quiza
 quizas
 quizá
 quizás
 quién
 quiénes
 qué
 r
 raras
 realizado
 realizar
 realizó
 repente
 respecto
 s
 sabe
 sabeis
 sabemos
 saben
 saber
 sabes
 sal
 salvo
 se
 sea
 seamos
 sean
 seas
 segun
 segunda
 segundo
 según
 seis
 ser
 sera
 seremos
 será
 serán
 serás
 seré
 seréis
 sería
 seríais
 seríamos
 serían
 serías
 seáis
 señaló
 si
 sido
 siempre
 siendo
 siete
 sigue
 siguiente
 sin
 sino
 sobre
 sois
 sola
 solamente
 solas
 solo
 solos
 somos
 son
 soy
 soyos
 su
 supuesto
 sus
 suya
 suyas
 suyo
 suyos
 sé
 sí
 sólo
 t
 tal
 tambien
 también
 tampoco
 tan
 tanto
 tarde
 te
 temprano
 tendremos
 tendrá
 tendrán
 tendrás
 tendré
 tendréis
 tendría
 tendríais
 tendríamos
 tendrían
 tendrías
 tened
 teneis
 tenemos
 tener
 tenga
 tengamos
 tengan
 tengas
 tengo
 tengáis
 tenida
 tenidas
 tenido
 tenidos
 teniendo
 tenéis
 tenía
 teníais
 teníamos
 tenían
 tenías
 tercera
 ti
 tiempo
 tiene
 tienen
 tienes
 toda
 todas
 todavia
 todavía
 todo
 todos
 trabaja
 trabajais
 trabajamos
 trabajan
 trabajar
 trabajas
 trabajo
 tras
 trata
 través
 tres
 tu
 tus
 tuve
 tuviera
 tuvierais
 tuvieran
 tuvieras
 tuvieron
 tuviese
 tuvieseis
 tuviesen
 tuvieses
 tuvimos
 tuviste
 tuvisteis
 tuviéramos
 tuviésemos
 tuvo
 tuya
 tuyas
 tuyo
 tuyos
 tú
 u
 ultimo
 un
 una
 unas
 uno
 unos
 usa
 usais
 usamos
 usan
 usar
 usas
 uso
 usted
 ustedes
 v
 va
 vais
 valor
 vamos
 van
 varias
 varios
 vaya
 veces
 ver
 verdad
 verdadera
 verdadero
 vez
 vosotras
 vosotros
 voy
 vuestra
 vuestras
 vuestro
 vuestros
 w
 x
 y
 ya
 yo
 z
 él
 éramos
 ésa
 ésas
 ése
 ésos
 ésta
 éstas
 éste
 éstos
 última
 últimas
 último
 últimos
--- a/Show More
+++ b/Show More
Author	SHA1	Message	Date
Sandro La Bruzzo	edf5a780b8	minor fix	2023-08-02 12:12:20 +02:00
Sandro La Bruzzo	74fcea66e6	erge branch 'dedup-with-dataframe-spark34' of code-repo.d4science.org:D-Net/dnet-hadoop into dedup-with-dataframe-spark34	2023-07-19 16:55:19 +02:00
Sandro La Bruzzo	e4feedd67e	improved scholix generation using bean	2023-07-19 16:53:28 +02:00
Giambattista Bloisi	617ef05e15	Update commons.lang.version to 3.12.0 to match spark 3.4 version and fix an incompatibility when running with Java 11	2023-07-17 17:01:07 +02:00
Giambattista Bloisi	b6a8be813b	oozie.launcher.mapreduce.user.classpath.first property is required to avoid launch problems	2023-07-14 16:05:14 +02:00
Sandro La Bruzzo	f1ae28fe42	implemented new version of pubmed parser	2023-07-12 10:32:25 +02:00
Sandro La Bruzzo	acf947442a	made the project compilable	2023-07-11 11:37:32 +02:00
Giambattista Bloisi	d80f12da06	Build with spark 3.4 (dedup and dependencies only tested)	2023-07-10 15:54:48 +02:00
Giambattista Bloisi	861c368e65	Code for testing other grouping strategies	2023-07-10 15:52:35 +02:00
Giambattista Bloisi	745e70e0d7	When generating similarities put as 'from' component the one with smaller lexicographic id	2023-07-10 15:45:49 +02:00
Giambattista Bloisi	dcc08cc512	Use UDAF and Aggregation class for testing	2023-07-07 12:35:30 +02:00
Giambattista Bloisi	df19548c56	small changes	2023-07-04 18:36:58 +02:00
Sandro La Bruzzo	890b49fb5d	optimized some dedup functions	2023-06-29 14:08:58 +02:00
Giambattista Bloisi	3129c1c48b	Allow processing of immutable sorted blocks in dedup	2023-06-28 14:01:04 +02:00
Giambattista Bloisi	cb7ad9889c	Fix maven dependencies warning while building	2023-06-28 14:01:04 +02:00
Claudio Atzori	75ff902f9d	WIP: various refactors	2023-06-28 14:00:54 +02:00
Claudio Atzori	326367eccc	WIP: various refactors	2023-06-28 14:00:22 +02:00
Claudio Atzori	521dd7f167	WIP: various refactors	2023-06-28 14:00:18 +02:00
Claudio Atzori	649679de8d	WIP: various refactors	2023-06-28 13:59:11 +02:00
Sandro La Bruzzo	4c2dfcbdf7	Added first implementation using UDF function	2023-06-28 13:58:01 +02:00