Merge remote-tracking branch 'origin/beta' into beta

2023-02-15 10:29:28 +01:00 · 2023-02-15 10:29:28 +01:00 · 118c1fc3b3
parent a8ac79fa25 9a03f71db1
commit 118c1fc3b3
11 changed files with 88 additions and 51 deletions
--- a/dhp-common/src/main/java/eu/dnetlib/dhp/schema/oaf/utils/GraphCleaningFunctions.java
+++ b/dhp-common/src/main/java/eu/dnetlib/dhp/schema/oaf/utils/GraphCleaningFunctions.java
@ -13,6 +13,8 @@ import java.util.stream.Collectors;
 import java.util.stream.Stream;

 import org.apache.commons.lang3.StringUtils;
+import org.apache.spark.api.java.function.MapFunction;
+import org.apache.spark.sql.Encoders;

 import com.github.sisyphsu.dateparser.DateParserUtils;
 import com.google.common.collect.Lists;
@ -23,8 +25,6 @@ import eu.dnetlib.dhp.schema.common.ModelConstants;
 import eu.dnetlib.dhp.schema.common.ModelSupport;
 import eu.dnetlib.dhp.schema.oaf.*;
 import me.xuender.unidecode.Unidecode;
-import org.apache.spark.api.java.function.MapFunction;
-import org.apache.spark.sql.Encoders;

 public class GraphCleaningFunctions extends CleaningFunctions {

--- a/dhp-workflows/dhp-aggregation/src/main/scala/eu/dnetlib/dhp/sx/bio/ebi/SparkCreateBaselineDataFrame.scala
+++ b/dhp-workflows/dhp-aggregation/src/main/scala/eu/dnetlib/dhp/sx/bio/ebi/SparkCreateBaselineDataFrame.scala
@ -27,7 +27,8 @@ object SparkCreateBaselineDataFrame {
  def requestBaseLineUpdatePage(maxFile: String): List[(String, String)] = {
    val data = requestPage("https://ftp.ncbi.nlm.nih.gov/pubmed/updatefiles/")

-    val result = data.linesWithSeparators.map(l =>l.stripLineEnd)
+    val result = data.linesWithSeparators
+      .map(l => l.stripLineEnd)
      .filter(l => l.startsWith("<a href="))
      .map { l =>
        val end = l.lastIndexOf("\">")
--- a/dhp-workflows/dhp-aggregation/src/test/scala/eu/dnetlib/dhp/sx/bio/BioScholixTest.scala
+++ b/dhp-workflows/dhp-aggregation/src/test/scala/eu/dnetlib/dhp/sx/bio/BioScholixTest.scala
@ -63,7 +63,9 @@ class BioScholixTest extends AbstractVocabularyTest {
    val records: String = Source
      .fromInputStream(getClass.getResourceAsStream("/eu/dnetlib/dhp/sx/graph/bio/pubmed_dump"))
      .mkString
-    val r: List[Oaf] = records.linesWithSeparators.map(l =>l.stripLineEnd).toList
+    val r: List[Oaf] = records.linesWithSeparators
+      .map(l => l.stripLineEnd)
+      .toList
      .map(s => mapper.readValue(s, classOf[PMArticle]))
      .map(a => PubMedToOaf.convert(a, vocabularies))
    assertEquals(10, r.size)
@ -175,7 +177,8 @@ class BioScholixTest extends AbstractVocabularyTest {
      .mkString
    records.linesWithSeparators.map(l => l.stripLineEnd).foreach(s => assertTrue(s.nonEmpty))

-    val result: List[Oaf] = records.linesWithSeparators.map(l =>l.stripLineEnd).toList.flatMap(o => BioDBToOAF.pdbTOOaf(o))
+    val result: List[Oaf] =
+      records.linesWithSeparators.map(l => l.stripLineEnd).toList.flatMap(o => BioDBToOAF.pdbTOOaf(o))

    assertTrue(result.nonEmpty)
    result.foreach(r => assertNotNull(r))
@ -196,7 +199,8 @@ class BioScholixTest extends AbstractVocabularyTest {
      .mkString
    records.linesWithSeparators.map(l => l.stripLineEnd).foreach(s => assertTrue(s.nonEmpty))

-    val result: List[Oaf] = records.linesWithSeparators.map(l =>l.stripLineEnd).toList.flatMap(o => BioDBToOAF.uniprotToOAF(o))
+    val result: List[Oaf] =
+      records.linesWithSeparators.map(l => l.stripLineEnd).toList.flatMap(o => BioDBToOAF.uniprotToOAF(o))

    assertTrue(result.nonEmpty)
    result.foreach(r => assertNotNull(r))
@ -241,7 +245,8 @@ class BioScholixTest extends AbstractVocabularyTest {
      .mkString
    records.linesWithSeparators.map(l => l.stripLineEnd).foreach(s => assertTrue(s.nonEmpty))

-    val result: List[Oaf] = records.linesWithSeparators.map(l =>l.stripLineEnd).map(s => BioDBToOAF.crossrefLinksToOaf(s)).toList
+    val result: List[Oaf] =
+      records.linesWithSeparators.map(l => l.stripLineEnd).map(s => BioDBToOAF.crossrefLinksToOaf(s)).toList

    assertNotNull(result)
    assertTrue(result.nonEmpty)
@ -280,10 +285,13 @@ class BioScholixTest extends AbstractVocabularyTest {

    implicit lazy val formats: DefaultFormats.type = org.json4s.DefaultFormats

-    val l: List[ScholixResolved] = records.linesWithSeparators.map(l =>l.stripLineEnd).map { input =>
+    val l: List[ScholixResolved] = records.linesWithSeparators
+      .map(l => l.stripLineEnd)
+      .map { input =>
        lazy val json = parse(input)
        json.extract[ScholixResolved]
-    }.toList
+      }
+      .toList

    val result: List[Oaf] = l.map(s => BioDBToOAF.scholixResolvedToOAF(s))

--- a/dhp-workflows/dhp-broker-events/src/main/java/eu/dnetlib/dhp/broker/oa/util/SubscriptionUtils.java
+++ b/dhp-workflows/dhp-broker-events/src/main/java/eu/dnetlib/dhp/broker/oa/util/SubscriptionUtils.java
@ -37,12 +37,24 @@ public class SubscriptionUtils {
 	}

 	public static boolean verifyDateRange(final long date, final String min, final String max) {
+
+		long from = 0;
+		long to = Long.MAX_VALUE;
+
 		try {
-			return date >= DateUtils.parseDate(min, "yyyy-MM-dd").getTime()
-				&& date < DateUtils.parseDate(max, "yyyy-MM-dd").getTime() + ONE_DAY;
+			from = min != null ? DateUtils.parseDate(min, "yyyy-MM-dd").getTime() : 0;
 		} catch (final ParseException e) {
-			return false;
+			from = 0;
 		}
+
+		try {
+			to = max != null ? DateUtils.parseDate(max, "yyyy-MM-dd").getTime() + ONE_DAY : Long.MAX_VALUE;
+		} catch (final ParseException e) {
+			to = Long.MAX_VALUE;
+		}
+
+		return date >= from && date < to;
+
 	}

 	public static boolean verifyExact(final String s1, final String s2) {
--- a/dhp-workflows/dhp-broker-events/src/test/java/eu/dnetlib/dhp/broker/oa/util/SubscriptionUtilsTest.java
+++ b/dhp-workflows/dhp-broker-events/src/test/java/eu/dnetlib/dhp/broker/oa/util/SubscriptionUtilsTest.java
@ -41,6 +41,18 @@ public class SubscriptionUtilsTest {

 		assertTrue(SubscriptionUtils.verifyDateRange(date, "2010-01-01", "2011-01-01"));
 		assertFalse(SubscriptionUtils.verifyDateRange(date, "2020-01-01", "2021-01-01"));
+
+		assertTrue(SubscriptionUtils.verifyDateRange(date, "2010-01-01", "NULL"));
+		assertTrue(SubscriptionUtils.verifyDateRange(date, "2010-01-01", null));
+		assertTrue(SubscriptionUtils.verifyDateRange(date, "NULL", "2011-01-01"));
+		assertTrue(SubscriptionUtils.verifyDateRange(date, null, "2011-01-01"));
+		assertTrue(SubscriptionUtils.verifyDateRange(date, "NULL", "NULL"));
+		assertTrue(SubscriptionUtils.verifyDateRange(date, null, null));
+
+		assertFalse(SubscriptionUtils.verifyDateRange(date, "2020-01-01", null));
+		assertFalse(SubscriptionUtils.verifyDateRange(date, "2020-01-01", "NULL"));
+		assertFalse(SubscriptionUtils.verifyDateRange(date, null, "2005-01-01"));
+		assertFalse(SubscriptionUtils.verifyDateRange(date, "NULL", "2005-01-01"));
 	}

 	@Test
--- a/dhp-workflows/dhp-doiboost/src/test/scala/eu/dnetlib/dhp/doiboost/orcid/MappingORCIDToOAFTest.scala
+++ b/dhp-workflows/dhp-doiboost/src/test/scala/eu/dnetlib/dhp/doiboost/orcid/MappingORCIDToOAFTest.scala
@ -25,7 +25,9 @@ class MappingORCIDToOAFTest {
      .mkString
    assertNotNull(json)
    assertFalse(json.isEmpty)
-    json.linesWithSeparators.map(l =>l.stripLineEnd).foreach(s => {
+    json.linesWithSeparators
+      .map(l => l.stripLineEnd)
+      .foreach(s => {
        assertNotNull(ORCIDToOAF.extractValueFromInputString(s))
      })
  }
--- a/dhp-workflows/dhp-graph-mapper/src/test/java/eu/dnetlib/dhp/oa/graph/clean/CleanCountryTest.java
+++ b/dhp-workflows/dhp-graph-mapper/src/test/java/eu/dnetlib/dhp/oa/graph/clean/CleanCountryTest.java
@ -5,7 +5,6 @@ import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;

-import eu.dnetlib.dhp.schema.oaf.Dataset;
 import org.apache.commons.io.FileUtils;
 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.JavaRDD;
@ -27,6 +26,7 @@ import org.slf4j.LoggerFactory;
 import com.fasterxml.jackson.databind.ObjectMapper;

 import eu.dnetlib.dhp.oa.graph.clean.country.CleanCountrySparkJob;
+import eu.dnetlib.dhp.schema.oaf.Dataset;
 import eu.dnetlib.dhp.schema.oaf.Publication;

 public class CleanCountryTest {
@ -185,7 +185,6 @@ public class CleanCountryTest {

 		Assertions.assertEquals(0, tmp.first().getCountry().size());

-
 	}

 }
--- a/dhp-workflows/dhp-graph-mapper/src/test/scala/eu/dnetlib/dhp/oa/graph/resolution/ResolveEntitiesTest.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/test/scala/eu/dnetlib/dhp/oa/graph/resolution/ResolveEntitiesTest.scala
@ -53,7 +53,8 @@ class ResolveEntitiesTest extends Serializable {
  def generateUpdates(spark: SparkSession): Unit = {
    val template = Source.fromInputStream(this.getClass.getResourceAsStream("updates")).mkString

-    val pids: List[String] = template.linesWithSeparators.map(l =>l.stripLineEnd)
+    val pids: List[String] = template.linesWithSeparators
+      .map(l => l.stripLineEnd)
      .map { id =>
        val r = new Result
        r.setId(id.toLowerCase.trim)
@ -264,7 +265,8 @@ class ResolveEntitiesTest extends Serializable {
      Source
        .fromInputStream(this.getClass.getResourceAsStream(s"publication"))
        .mkString
-        .linesWithSeparators.map(l =>l.stripLineEnd)
+        .linesWithSeparators
+        .map(l => l.stripLineEnd)
        .next(),
      classOf[Publication]
    )
--- a/dhp-workflows/dhp-graph-mapper/src/test/scala/eu/dnetlib/dhp/sx/graph/scholix/ScholixGraphTest.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/test/scala/eu/dnetlib/dhp/sx/graph/scholix/ScholixGraphTest.scala
@ -69,7 +69,8 @@ class ScholixGraphTest extends AbstractVocabularyTest {
        getClass.getResourceAsStream("/eu/dnetlib/dhp/sx/graph/merge_result_scholix")
      )
      .mkString
-    val result: List[(Relation, ScholixSummary)] = inputRelations.linesWithSeparators.map(l =>l.stripLineEnd)
+    val result: List[(Relation, ScholixSummary)] = inputRelations.linesWithSeparators
+      .map(l => l.stripLineEnd)
      .sliding(2)
      .map(s => (s.head, s(1)))
      .map(p => (mapper.readValue(p._1, classOf[Relation]), mapper.readValue(p._2, classOf[ScholixSummary])))