Merge branch 'stable_ids' of https://code-repo.d4science.org/D-Net/dnet-hadoop into stable_ids

2021-05-04 18:06:30 +02:00 · 2021-05-04 18:06:30 +02:00 · fb930b84d3
parent 923d19ea8e 714b71bd21
commit fb930b84d3
12 changed files with 5431 additions and 9 deletions
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/SparkCreateBaselineDataFrame.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/SparkCreateBaselineDataFrame.scala
@ -33,7 +33,6 @@ object SparkCreateBaselineDataFrame {
    implicit  val PMJEncoder: Encoder[PMJournal] = Encoders.kryo(classOf[PMJournal])
    implicit  val PMAEncoder: Encoder[PMAuthor] = Encoders.kryo(classOf[PMAuthor])
    val k: RDD[(String, String)] = sc.wholeTextFiles(s"$workingPath/baseline",2000)
-
    val ds:Dataset[PMArticle] = spark.createDataset(k.filter(i => i._1.endsWith(".gz")).flatMap(i =>{
      val xml = new XMLEventReader(Source.fromBytes(i._2.getBytes()))
      new PMParser(xml)
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMArticle.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMArticle.java
@ -8,10 +8,33 @@ import java.util.List;
 public class PMArticle implements Serializable {

 	private String pmid;
+	private String doi;
 	private String date;
 	private PMJournal journal;
 	private String title;
 	private String description;
+	private String language;
+	private final List<PMSubject> subjects = new ArrayList<>();
+	private final List<PMSubject> publicationTypes = new ArrayList<>();
+
+	public List<PMSubject> getPublicationTypes() {
+		return publicationTypes;
+	}
+
+	private final List<PMGrant> grants = new ArrayList<>();
+
+	public List<PMGrant> getGrants() {
+		return grants;
+	}
+
+	public String getDoi() {
+		return doi;
+	}
+
+	public void setDoi(String doi) {
+		this.doi = doi;
+	}
+
 	private List<PMAuthor> authors = new ArrayList<>();

 	public String getPmid() {
@ -61,4 +84,16 @@ public class PMArticle implements Serializable {
 	public void setAuthors(List<PMAuthor> authors) {
 		this.authors = authors;
 	}
+
+	public List<PMSubject> getSubjects() {
+		return subjects;
+	}
+
+	public String getLanguage() {
+		return language;
+	}
+
+	public void setLanguage(String language) {
+		this.language = language;
+	}
 }
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMGrant.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMGrant.java
@ -0,0 +1,42 @@
+
+package eu.dnetlib.dhp.sx.ebi.model;
+
+public class PMGrant {
+
+	private String grantID;
+	private String agency;
+	private String country;
+
+	public PMGrant() {
+	}
+
+	public PMGrant(String grantID, String agency, String country) {
+		this.grantID = grantID;
+		this.agency = agency;
+		this.country = country;
+	}
+
+	public String getGrantID() {
+		return grantID;
+	}
+
+	public void setGrantID(String grantID) {
+		this.grantID = grantID;
+	}
+
+	public String getAgency() {
+		return agency;
+	}
+
+	public void setAgency(String agency) {
+		this.agency = agency;
+	}
+
+	public String getCountry() {
+		return country;
+	}
+
+	public void setCountry(String country) {
+		this.country = country;
+	}
+}
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMParser.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMParser.scala
@ -1,4 +1,6 @@
 package eu.dnetlib.dhp.sx.ebi.model
+
+import scala.xml.MetaData
 import scala.xml.pull.{EvElemEnd, EvElemStart, EvText, XMLEventReader}
 class PMParser(xml:XMLEventReader) extends Iterator[PMArticle] {

@ -12,24 +14,61 @@ class PMParser(xml:XMLEventReader) extends Iterator[PMArticle] {
    tmp
  }

+  def extractAttributes(attrs:MetaData, key:String):String = {
+
+    val res = attrs.get(key)
+    if (res.isDefined) {
+      val s =res.get
+      if (s != null && s.nonEmpty)
+        s.head.text
+      else
+        null
+    }
+    else null
+  }
+
+
+  def validate_Date(year:String, month:String, day:String):String = {
+    try {
+      f"${year.toInt}-${month.toInt}%02d-${day.toInt}%02d"
+
+    } catch {
+      case _: Throwable =>null
+    }
+  }

  def generateNextArticle():PMArticle = {

+
+    var currentSubject:PMSubject = null
    var currentAuthor: PMAuthor = null
    var currentJournal: PMJournal = null
+    var currentGrant: PMGrant = null
    var currNode: String = null
    var currentYear = "0"
    var currentMonth = "01"
    var currentDay = "01"
+    var currentArticleType:String = null
+
+
+
+
+

    while (xml.hasNext) {
      xml.next match {
-        case EvElemStart(_, label, _, _) =>
+        case EvElemStart(_, label, attrs, _) =>
          currNode = label
+
          label match {
            case "PubmedArticle" => currentArticle = new PMArticle
            case "Author" => currentAuthor = new PMAuthor
            case "Journal" => currentJournal = new PMJournal
+            case "Grant" => currentGrant = new PMGrant
+            case "PublicationType" | "DescriptorName" =>
+              currentSubject = new PMSubject
+              currentSubject.setMeshId(extractAttributes(attrs, "UI"))
+            case "ArticleId" => currentArticleType = extractAttributes(attrs,"IdType")
            case _ =>
          }
        case EvElemEnd(_, label) =>
@ -37,8 +76,12 @@ class PMParser(xml:XMLEventReader) extends Iterator[PMArticle] {
            case "PubmedArticle" => return currentArticle
            case "Author" => currentArticle.getAuthors.add(currentAuthor)
            case "Journal" => currentArticle.setJournal(currentJournal)
-            case "DateCompleted" => currentArticle.setDate(s"$currentYear-$currentMonth-$currentDay")
+            case "Grant" => currentArticle.getGrants.add(currentGrant)
+            case "PubMedPubDate" => if (currentArticle.getDate== null)
+              currentArticle.setDate(validate_Date(currentYear,currentMonth,currentDay))
            case "PubDate" => currentJournal.setDate(s"$currentYear-$currentMonth-$currentDay")
+            case "DescriptorName" => currentArticle.getSubjects.add(currentSubject)
+            case "PublicationType" =>currentArticle.getPublicationTypes.add(currentSubject)
            case _ =>
          }
        case EvText(text) =>
@ -57,12 +100,18 @@ class PMParser(xml:XMLEventReader) extends Iterator[PMArticle] {
                  currentArticle.setDescription(currentArticle.getDescription + text.trim)
              }
              case "PMID" => currentArticle.setPmid(text.trim)
+              case "ArticleId" => if ("doi".equalsIgnoreCase(currentArticleType)) currentArticle.setDoi(text.trim)
+              case "Language" => currentArticle.setLanguage(text.trim)
              case "ISSN" => currentJournal.setIssn(text.trim)
+              case "GrantID" => currentGrant.setGrantID(text.trim)
+              case "Agency" => currentGrant.setAgency(text.trim)
+              case "Country" => if (currentGrant != null) currentGrant.setCountry(text.trim)
              case "Year" => currentYear = text.trim
              case "Month" => currentMonth = text.trim
              case "Day" => currentDay = text.trim
              case "Volume" => currentJournal.setVolume( text.trim)
              case "Issue" => currentJournal.setIssue (text.trim)
+              case "PublicationType" | "DescriptorName" => currentSubject.setValue(text.trim)
              case "LastName" => {
                if (currentAuthor != null)
                  currentAuthor.setLastName(text.trim)
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMSubject.java
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/dhp/sx/ebi/model/PMSubject.java
@ -0,0 +1,41 @@
+
+package eu.dnetlib.dhp.sx.ebi.model;
+
+public class PMSubject {
+	private String value;
+	private String meshId;
+	private String registryNumber;
+
+	public PMSubject() {
+	}
+
+	public PMSubject(String value, String meshId, String registryNumber) {
+		this.value = value;
+		this.meshId = meshId;
+		this.registryNumber = registryNumber;
+	}
+
+	public String getValue() {
+		return value;
+	}
+
+	public void setValue(String value) {
+		this.value = value;
+	}
+
+	public String getMeshId() {
+		return meshId;
+	}
+
+	public void setMeshId(String meshId) {
+		this.meshId = meshId;
+	}
+
+	public String getRegistryNumber() {
+		return registryNumber;
+	}
+
+	public void setRegistryNumber(String registryNumber) {
+		this.registryNumber = registryNumber;
+	}
+}
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/sx/pangaea/PangaeaUtils.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/sx/pangaea/PangaeaUtils.scala
@ -5,9 +5,6 @@ import org.apache.spark.sql.{Encoder, Encoders}
 import org.json4s
 import org.json4s.DefaultFormats
 import org.json4s.jackson.JsonMethods.parse
-
-import java.text.SimpleDateFormat
-import java.util.Date
 import java.util.regex.Pattern
 import scala.language.postfixOps
 import scala.xml.{Elem, Node, XML}
--- a/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/sx/pangaea/SparkGeneratePanagaeaDataset.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/main/java/eu/dnetlib/sx/pangaea/SparkGeneratePanagaeaDataset.scala
@ -24,7 +24,7 @@ object SparkGeneratePanagaeaDataset {
      SparkSession
        .builder()
        .config(conf)
-        .appName(SparkCreateEBIDataFrame.getClass.getSimpleName)
+        .appName(SparkGeneratePanagaeaDataset.getClass.getSimpleName)
        .master(parser.get("master")).getOrCreate()

    parser.getObjectMap.asScala.foreach(s => logger.info(s"${s._1} -> ${s._2}"))
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/sx/pubmed/oozie_app/config-default.xml
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/sx/pubmed/oozie_app/config-default.xml
@ -0,0 +1,19 @@
+<configuration>
+    <property>
+        <name>jobTracker</name>
+        <value>yarnRM</value>
+    </property>
+    <property>
+        <name>nameNode</name>
+        <value>hdfs://nameservice1</value>
+    </property>
+    <property>
+        <name>oozie.use.system.libpath</name>
+        <value>true</value>
+    </property>
+    <property>
+        <name>oozie.action.sharelib.for.spark</name>
+        <value>spark2</value>
+    </property>
+
+</configuration>
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/sx/pubmed/oozie_app/workflow.xml
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/sx/pubmed/oozie_app/workflow.xml
@ -0,0 +1,40 @@
+    <workflow-app name="Transform_Pubmed_Workflow" xmlns="uri:oozie:workflow:0.5">
+    <parameters>
+        <property>
+            <name>baselineWorkingPath</name>
+            <description>the Baseline Working Path</description>
+        </property>
+    </parameters>
+
+    <start to="ConvertDataset"/>
+
+    <kill name="Kill">
+        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
+    </kill>
+
+    <action name="ConvertDataset">
+        <spark xmlns="uri:oozie:spark-action:0.2">
+            <master>yarn</master>
+            <mode>cluster</mode>
+            <name>Convert Baseline to Dataset</name>
+            <class>eu.dnetlib.dhp.sx.ebi.SparkCreateBaselineDataFrame</class>
+            <jar>dhp-graph-mapper-${projectVersion}.jar</jar>
+            <spark-opts>
+                --executor-memory=${sparkExecutorMemory}
+                --executor-cores=${sparkExecutorCores}
+                --driver-memory=${sparkDriverMemory}
+                --conf spark.extraListeners=${spark2ExtraListeners}
+                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
+                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
+                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
+            </spark-opts>
+            <arg>--workingPath</arg><arg>${baselineWorkingPath}</arg>
+            <arg>--master</arg><arg>yarn</arg>
+        </spark>
+        <ok to="End"/>
+        <error to="Kill"/>
+    </action>
+
+    <end name="End"/>
+
+</workflow-app>
--- a/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/sx/pubmed/pangaea_to_dataset.json
+++ b/dhp-workflows/dhp-graph-mapper/src/main/resources/eu/dnetlib/dhp/sx/pubmed/pangaea_to_dataset.json
@ -0,0 +1,4 @@
+[
+  {"paramName":"mt",  "paramLongName":"master",             "paramDescription": "should be local or yarn",                                  "paramRequired": true},
+  {"paramName":"w",   "paramLongName":"workingPath",         "paramDescription": "the path of the sequencial file to read",                  "paramRequired": true}
+]
--- a/dhp-workflows/dhp-graph-mapper/src/test/java/eu/dnetlib/dhp/sx/ebi/TestEBI.scala
+++ b/dhp-workflows/dhp-graph-mapper/src/test/java/eu/dnetlib/dhp/sx/ebi/TestEBI.scala
@ -1,16 +1,24 @@
 package eu.dnetlib.dhp.sx.ebi

+import com.fasterxml.jackson.databind.ObjectMapper
+import eu.dnetlib.dhp.sx.ebi.model.PMParser
 import org.junit.jupiter.api.Test

+import scala.io.Source
+import scala.xml.pull.XMLEventReader
+
 class TestEBI {



-//  @Test
+  @Test
  def testEBIData() = {
-    SparkAddLinkUpdates.main("-mt local[*] -w /home/sandro/Downloads".split(" "))
+    val inputXML = Source.fromInputStream(getClass.getResourceAsStream("pubmed.xml")).mkString
+    val xml = new XMLEventReader(Source.fromBytes(inputXML.getBytes()))

+    val mapper = new ObjectMapper()

+    new PMParser(xml).foreach(s =>println(mapper.writeValueAsString(s)))



--- a/dhp-workflows/dhp-graph-mapper/src/test/resources/eu/dnetlib/dhp/sx/ebi/pubmed.xml
+++ b/dhp-workflows/dhp-graph-mapper/src/test/resources/eu/dnetlib/dhp/sx/ebi/pubmed.xml