dnet-hadoop/dhp-pace-core/src/main/java/eu/dnetlib/pace/clustering/Acronyms.java


package eu.dnetlib.pace.clustering;

import java.util.Collection;
import java.util.Map;
import java.util.Set;
import java.util.StringTokenizer;

import com.google.common.collect.Sets;

import eu.dnetlib.pace.config.Config;

@ClusteringClass("acronyms")
public class Acronyms extends AbstractClusteringFunction {

	public Acronyms(Map<String, Integer> params) {
		super(params);
	}

	@Override
	protected Collection<String> doApply(Config conf, String s) {
		return extractAcronyms(s, param("max"), param("minLen"), param("maxLen"));
	}

	private Set<String> extractAcronyms(final String s, int maxAcronyms, int minLen, int maxLen) {

		final Set<String> acronyms = Sets.newLinkedHashSet();

		for (int i = 0; i < maxAcronyms; i++) {

			final StringTokenizer st = new StringTokenizer(s);
			final StringBuilder sb = new StringBuilder();

			while (st.hasMoreTokens()) {
				final String token = st.nextToken();
				if (sb.length() > maxLen) {
					break;
				}
				if (token.length() > 1 && i < token.length()) {
					sb.append(token.charAt(i));
				}
			}
			String acronym = sb.toString();
			if (acronym.length() > minLen) {
				acronyms.add(acronym);
			}
		}
		return acronyms;
	}

}
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`package eu.dnetlib.pace.clustering;`

			`import java.util.Collection;`
			`import java.util.Map;`
			`import java.util.Set;`
			`import java.util.StringTokenizer;`

			`import com.google.common.collect.Sets;`
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
translation map moved in json configuration, support for synonyms added in the configuration, now the configuration is argument of conditions, distancealgos and clusteringfunctions 2019-10-08 14:53:52 +02:00			`import eu.dnetlib.pace.config.Config;`
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00
update in the discovery of clustering, conditions and distance functions (annotated with custom annotations) 2018-10-24 12:09:41 +02:00			`@ClusteringClass("acronyms")`
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`public class Acronyms extends AbstractClusteringFunction {`

			`public Acronyms(Map<String, Integer> params) {`
			`super(params);`
			`}`

			`@Override`
translation map moved in json configuration, support for synonyms added in the configuration, now the configuration is argument of conditions, distancealgos and clusteringfunctions 2019-10-08 14:53:52 +02:00			`protected Collection<String> doApply(Config conf, String s) {`
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`return extractAcronyms(s, param("max"), param("minLen"), param("maxLen"));`
			`}`
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`private Set<String> extractAcronyms(final String s, int maxAcronyms, int minLen, int maxLen) {`
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`final Set<String> acronyms = Sets.newLinkedHashSet();`
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`for (int i = 0; i < maxAcronyms; i++) {`
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`final StringTokenizer st = new StringTokenizer(s);`
			`final StringBuilder sb = new StringBuilder();`
New sources formatted by maven plugin 2023-07-06 10:28:53 +02:00
added d-net pace core module and ignored target folder 2018-10-02 10:37:54 +02:00			`while (st.hasMoreTokens()) {`
			`final String token = st.nextToken();`
			`if (sb.length() > maxLen) {`
			`break;`
			`}`
			`if (token.length() > 1 && i < token.length()) {`
			`sb.append(token.charAt(i));`
			`}`
			`}`
			`String acronym = sb.toString();`
			`if (acronym.length() > minLen) {`
			`acronyms.add(acronym);`
			`}`
			`}`
			`return acronyms;`
			`}`

			`}`