implementation of the new software configuration
This commit is contained in:
parent
42cff050e7
commit
00466512ea
File diff suppressed because one or more lines are too long
|
@ -0,0 +1,150 @@
|
||||||
|
{
|
||||||
|
"wf" : {
|
||||||
|
"threshold" : "0.99",
|
||||||
|
"dedupRun" : "001",
|
||||||
|
"entityType" : "result",
|
||||||
|
"subEntityType" : "resulttype",
|
||||||
|
"subEntityValue" : "software",
|
||||||
|
"orderField" : "title",
|
||||||
|
"queueMaxSize" : "200",
|
||||||
|
"groupMaxSize" : "100",
|
||||||
|
"maxChildren" : "100",
|
||||||
|
"slidingWindowSize" : "50",
|
||||||
|
"rootBuilder" : [ "result", "resultProject_outcome_isProducedBy", "resultResult_publicationDataset_isRelatedTo", "resultResult_similarity_isAmongTopNSimilarDocuments", "resultResult_similarity_hasAmongTopNSimilarDocuments", "resultOrganization_affiliation_hasAuthorInstitution", "resultResult_part_hasPart", "resultResult_part_isPartOf", "resultResult_supplement_isSupplementTo", "resultResult_supplement_isSupplementedBy", "resultResult_version_isVersionOf" ],
|
||||||
|
"includeChildren" : "true"
|
||||||
|
},
|
||||||
|
"pace" : {
|
||||||
|
"clustering" : [
|
||||||
|
{ "name" : "wordsStatsSuffixPrefixChain", "fields" : [ "title" ], "params" : { "mod" : "10" } },
|
||||||
|
{ "name" : "lowercase", "fields" : [ "doi", "altdoi" ], "params" : { "collapseOn:pid":"0"} },
|
||||||
|
{ "name" : "ngrams", "fields" : [ "title" ], "params" : {"ngramLen": 3, "max": 4, "maxPerToken":1, "minNgramLen":3}},
|
||||||
|
{ "name" : "urlclustering", "fields": [ "url" ], "params" : {}}
|
||||||
|
],
|
||||||
|
"decisionTree": {
|
||||||
|
"start": {
|
||||||
|
"fields": [
|
||||||
|
{
|
||||||
|
"field": "doi",
|
||||||
|
"comparator": "exactMatch",
|
||||||
|
"weight": 1,
|
||||||
|
"countIfUndefined": "false",
|
||||||
|
"params": {}
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"threshold": 1,
|
||||||
|
"aggregation": "MAX",
|
||||||
|
"positive": "MATCH",
|
||||||
|
"negative": "titleCheck",
|
||||||
|
"undefined": "titleCheck",
|
||||||
|
"ignoreUndefined": "false"
|
||||||
|
},
|
||||||
|
"titleCheck": {
|
||||||
|
"fields": [
|
||||||
|
{
|
||||||
|
"field": "title",
|
||||||
|
"comparator": "levensteinTitleIgnoreVersion",
|
||||||
|
"weight": 1,
|
||||||
|
"countIfUndefined": "false",
|
||||||
|
"params": {}
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"threshold": 0.95,
|
||||||
|
"aggregation": "AVG",
|
||||||
|
"positive": "pidCheck",
|
||||||
|
"negative": "NO_MATCH",
|
||||||
|
"undefined": "NO_MATCH",
|
||||||
|
"ignoreUndefined": "false"
|
||||||
|
},
|
||||||
|
"pidCheck": {
|
||||||
|
"fields": [
|
||||||
|
{
|
||||||
|
"field": "altdoi",
|
||||||
|
"comparator": "exactMatch",
|
||||||
|
"weight": 1,
|
||||||
|
"countIfUndefined": "false",
|
||||||
|
"params": {}
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"field": "doi",
|
||||||
|
"comparator": "exactMatch",
|
||||||
|
"weight": 1,
|
||||||
|
"countIfUndefined": "false",
|
||||||
|
"params": {"crossCompare": "altdoi"}
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"field": "url",
|
||||||
|
"comparator": "exactMatch",
|
||||||
|
"weight": 1,
|
||||||
|
"countIfUndefined": "false",
|
||||||
|
"params": {}
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"threshold": 1,
|
||||||
|
"aggregation": "OR",
|
||||||
|
"positive": "MATCH",
|
||||||
|
"negative": "authorsCheck",
|
||||||
|
"undefined": "authorsCheck",
|
||||||
|
"ignoreUndefined": "false"
|
||||||
|
},
|
||||||
|
"authorsCheck": {
|
||||||
|
"fields": [
|
||||||
|
{
|
||||||
|
"field": "authors",
|
||||||
|
"comparator": "authorsMatch",
|
||||||
|
"weight": 1.0,
|
||||||
|
"countIfUndefined": "false",
|
||||||
|
"params": {
|
||||||
|
"surname_th": 0.70,
|
||||||
|
"fullname_th": 0.70,
|
||||||
|
"size_th": 20,
|
||||||
|
"mode": "surname"
|
||||||
|
}
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"threshold": 1,
|
||||||
|
"aggregation": "AVG",
|
||||||
|
"positive": "MATCH",
|
||||||
|
"negative": "NO_MATCH",
|
||||||
|
"undefined": "MATCH",
|
||||||
|
"ignoreUndefined": "false"
|
||||||
|
}
|
||||||
|
},
|
||||||
|
"model" : [
|
||||||
|
{
|
||||||
|
"name" : "doi",
|
||||||
|
"type" : "String",
|
||||||
|
"path" : "$.instance.pid[?(@.qualifier.classid == 'doi')].value"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"name" : "altdoi",
|
||||||
|
"type" : "String",
|
||||||
|
"path" : "$.instance.alternateIdentifier[?(@.qualifier.classid == 'doi')].value"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"name" : "title",
|
||||||
|
"type" : "String",
|
||||||
|
"path" : "$.title[?(@.qualifier.classid == 'main title')].value",
|
||||||
|
"length" : 250,
|
||||||
|
"size" : 5
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"name" : "url",
|
||||||
|
"type" : "String",
|
||||||
|
"path" : "$.instance.url"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"name" : "resulttype",
|
||||||
|
"type" : "String",
|
||||||
|
"path" : "$.resulttype.classid"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"name": "authors",
|
||||||
|
"type": "List",
|
||||||
|
"path": "$.author[*].fullname",
|
||||||
|
"size": 200
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"blacklists" : {},
|
||||||
|
"synonyms": {}
|
||||||
|
}
|
||||||
|
}
|
File diff suppressed because one or more lines are too long
File diff suppressed because one or more lines are too long
File diff suppressed because one or more lines are too long
|
@ -153,6 +153,10 @@ public class ClusteringFunctionTest extends AbstractPaceTest {
|
||||||
System.out.println(s);
|
System.out.println(s);
|
||||||
System.out.println(sp.apply(conf, Lists.newArrayList(title(s))));
|
System.out.println(sp.apply(conf, Lists.newArrayList(title(s))));
|
||||||
|
|
||||||
|
s = "niivue/niivue: 0.21.1";
|
||||||
|
System.out.println(s);
|
||||||
|
System.out.println(sp.apply(conf, Lists.newArrayList(title(s))));
|
||||||
|
|
||||||
}
|
}
|
||||||
|
|
||||||
@Test
|
@Test
|
||||||
|
|
Loading…
Reference in New Issue