updated pom version

2020-05-11 14:35:14 +02:00 · 2020-05-11 14:35:14 +02:00 · 0c6774e4da
parent b90609848b
commit 0c6774e4da
3 changed files with 150 additions and 145 deletions
--- a/dhp-workflows/dhp-doiboost/pom.xml
+++ b/dhp-workflows/dhp-doiboost/pom.xml
@ -4,7 +4,7 @@
    <parent>
        <artifactId>dhp-workflows</artifactId>
        <groupId>eu.dnetlib.dhp</groupId>
-        <version>1.1.7-SNAPSHOT</version>
+        <version>1.2.1-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/OrcidDownloader.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/OrcidDownloader.java
@ -1,6 +1,6 @@
+
 package eu.dnetlib.doiboost.orcid;

-import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 import java.io.BufferedReader;
 import java.io.IOException;
 import java.io.InputStreamReader;
@ -9,6 +9,7 @@ import java.text.SimpleDateFormat;
 import java.util.Arrays;
 import java.util.Date;
 import java.util.List;
+
 import org.apache.commons.io.IOUtils;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FSDataInputStream;
@ -22,6 +23,8 @@ import org.apache.http.impl.client.CloseableHttpClient;
 import org.apache.http.impl.client.HttpClients;
 import org.mortbay.log.Log;

+import eu.dnetlib.dhp.application.ArgumentApplicationParser;
+
 public class OrcidDownloader extends OrcidDSManager {

 	static final int REQ_LIMIT = 24;
@ -46,7 +49,8 @@ public class OrcidDownloader extends OrcidDSManager {
 			httpGet.addHeader("Authorization", String.format("Bearer %s", token));
 			CloseableHttpResponse response = client.execute(httpGet);
 			if (response.getStatusLine().getStatusCode() != 200) {
-        Log.warn(
+				Log
+					.warn(
 						"Downloading " + orcidId + " status code: " + response.getStatusLine().getStatusCode());
 				return new String("");
 			}
@ -68,15 +72,14 @@ public class OrcidDownloader extends OrcidDSManager {
 		String lambdaFileUri = hdfsServerUri.concat(hdfsOrcidDefaultPath).concat(lambdaFileName);
 		Path hdfsreadpath = new Path(lambdaFileUri);
 		FSDataInputStream lambdaFileStream = fs.open(hdfsreadpath);
-    Path hdfsoutputPath =
-        new Path(
+		Path hdfsoutputPath = new Path(
 			hdfsServerUri
 				.concat(hdfsOrcidDefaultPath)
 				.concat(outputPath)
 				.concat("orcid_records.seq"));

-    try (SequenceFile.Writer writer =
-        SequenceFile.createWriter(
+		try (SequenceFile.Writer writer = SequenceFile
+			.createWriter(
 				conf,
 				SequenceFile.Writer.file(hdfsoutputPath),
 				SequenceFile.Writer.keyClass(Text.class),
@ -118,7 +121,8 @@ public class OrcidDownloader extends OrcidDSManager {
 					if (nReqTmp == REQ_LIMIT) {
 						long reqSessionDuration = endReq - startReqTmp;
 						if (reqSessionDuration <= 1000) {
-              Log.warn(
+							Log
+								.warn(
 									"\nreqSessionDuration: "
 										+ reqSessionDuration
 										+ " nReqTmp: "
@ -153,10 +157,11 @@ public class OrcidDownloader extends OrcidDSManager {
 	}

 	private void loadArgs(String[] args) throws IOException, Exception {
-    final ArgumentApplicationParser parser =
-        new ArgumentApplicationParser(
-            IOUtils.toString(
-                OrcidDownloader.class.getResourceAsStream(
+		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					OrcidDownloader.class
+						.getResourceAsStream(
 							"/eu/dnetlib/dhp/doiboost/download_orcid_data.json")));
 		parser.parseArgument(args);

--- a/dhp-workflows/dhp-doiboost/src/test/java/eu/dnetlib/doiboost/mag/MAGMappingTest.scala
+++ b/dhp-workflows/dhp-doiboost/src/test/java/eu/dnetlib/doiboost/mag/MAGMappingTest.scala
@ -16,7 +16,7 @@ class MAGMappingTest {
  val mapper = new ObjectMapper()


-  @Test
+  //@Test
  def testMAGCSV(): Unit = {

    val conf: SparkConf = new SparkConf()
@ -31,7 +31,7 @@ class MAGMappingTest {
    import spark.implicits._
    val d: Dataset[Papers] = spark.read.load("/data/doiboost/mag/datasets/Papers").as[Papers]
    logger.info(s"Total number of element: ${d.where(col("Doi").isNotNull).count()}")
-    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Papers]
+    //implicit val mapEncoder = org.apache.spark.sql.Encoders.bean[Papers]
    val result: RDD[Papers] = d.where(col("Doi").isNotNull).rdd.map { p: Papers => Tuple2(p.Doi, p) }.reduceByKey {case (p1:Papers, p2:Papers)  =>
      var r = if (p1==null) p2 else p1
      if (p1!=null && p2!=null ) if (p1.CreatedDate.before(p2.CreatedDate))