Refactor string unescaping
[yangtools.git] / yang / yang-parser-rfc7950 / src / main / java / org / opendaylight / yangtools / yang / parser / rfc7950 / repo / ArgumentContextUtils.java
1 /*
2  * Copyright (c) 2015 Cisco Systems, Inc. and others.  All rights reserved.
3  *
4  * This program and the accompanying materials are made available under the
5  * terms of the Eclipse Public License v1.0 which accompanies this distribution,
6  * and is available at http://www.eclipse.org/legal/epl-v10.html
7  */
8 package org.opendaylight.yangtools.yang.parser.rfc7950.repo;
9
10 import static com.google.common.base.Verify.verify;
11
12 import com.google.common.annotations.VisibleForTesting;
13 import com.google.common.base.CharMatcher;
14 import com.google.common.base.VerifyException;
15 import org.antlr.v4.runtime.tree.ParseTree;
16 import org.antlr.v4.runtime.tree.TerminalNode;
17 import org.eclipse.jdt.annotation.NonNull;
18 import org.opendaylight.yangtools.yang.common.YangVersion;
19 import org.opendaylight.yangtools.yang.parser.antlr.YangStatementParser;
20 import org.opendaylight.yangtools.yang.parser.antlr.YangStatementParser.ArgumentContext;
21 import org.opendaylight.yangtools.yang.parser.spi.source.SourceException;
22 import org.opendaylight.yangtools.yang.parser.spi.source.StatementSourceReference;
23
24 /**
25  * Utilities for dealing with YANG statement argument strings, encapsulated in ANTLR grammar's ArgumentContext.
26  */
27 abstract class ArgumentContextUtils {
28     /**
29      * YANG 1.0 version of strings, which were not completely clarified in
30      * <a href="https://tools.ietf.org/html/rfc6020#section-6.1.3">RFC6020</a>.
31      */
32     private static final class RFC6020 extends ArgumentContextUtils {
33         private static final @NonNull RFC6020 INSTANCE = new RFC6020();
34
35         @Override
36         void checkDoubleQuoted(final String str, final StatementSourceReference ref, final int backslash) {
37             // No-op
38         }
39
40         @Override
41         void checkUnquoted(final String str, final StatementSourceReference ref) {
42             // No-op
43         }
44     }
45
46     /**
47      * YANG 1.1 version of strings, which were clarified in
48      * <a href="https://tools.ietf.org/html/rfc7950#section-6.1.3">RFC7950</a>.
49      */
50     // NOTE: the differences clarified lead to a proper ability to delegate this to ANTLR lexer, but that does not
51     //       understand versions and needs to work with both.
52     private static final class RFC7950 extends ArgumentContextUtils {
53         private static final CharMatcher ANYQUOTE_MATCHER = CharMatcher.anyOf("'\"");
54         private static final @NonNull RFC7950 INSTANCE = new RFC7950();
55
56         @Override
57         void checkDoubleQuoted(final String str, final StatementSourceReference ref, final int backslash) {
58             if (backslash < str.length() - 1) {
59                 int index = backslash;
60                 while (index != -1) {
61                     switch (str.charAt(index + 1)) {
62                         case 'n':
63                         case 't':
64                         case '\\':
65                         case '\"':
66                             index = str.indexOf('\\', index + 2);
67                             break;
68                         default:
69                             throw new SourceException(ref, "YANG 1.1: illegal double quoted string (%s). In double "
70                                 + "quoted string the backslash must be followed by one of the following character "
71                                 + "[n,t,\",\\], but was '%s'.", str, str.charAt(index + 1));
72                     }
73                 }
74             }
75         }
76
77         @Override
78         void checkUnquoted(final String str, final StatementSourceReference ref) {
79             SourceException.throwIf(ANYQUOTE_MATCHER.matchesAnyOf(str), ref,
80                 "YANG 1.1: unquoted string (%s) contains illegal characters", str);
81         }
82     }
83
84     private static final CharMatcher WHITESPACE_MATCHER = CharMatcher.whitespace();
85
86     private ArgumentContextUtils() {
87         // Hidden on purpose
88     }
89
90     static @NonNull ArgumentContextUtils forVersion(final YangVersion version) {
91         switch (version) {
92             case VERSION_1:
93                 return RFC6020.INSTANCE;
94             case VERSION_1_1:
95                 return RFC7950.INSTANCE;
96             default:
97                 throw new IllegalStateException("Unhandled version " + version);
98         }
99     }
100
101     // TODO: teach the only caller about versions, or provide common-enough idioms for its use case
102     static @NonNull ArgumentContextUtils rfc6020() {
103         return RFC6020.INSTANCE;
104     }
105
106     /*
107      * NOTE: this method we do not use convenience methods provided by generated parser code, but instead are making
108      *       based on the grammar assumptions. While this is more verbose, it cuts out a number of unnecessary code,
109      *       such as intermediate List allocation et al.
110      */
111     final @NonNull String stringFromStringContext(final ArgumentContext context, final StatementSourceReference ref) {
112         // Get first child, which we fully expect to exist and be a lexer token
113         final ParseTree firstChild = context.getChild(0);
114         verify(firstChild instanceof TerminalNode, "Unexpected shape of %s", context);
115         final TerminalNode firstNode = (TerminalNode) firstChild;
116         final int firstType = firstNode.getSymbol().getType();
117         switch (firstType) {
118             case YangStatementParser.IDENTIFIER:
119                 // Simple case, there is a simple string, which cannot contain anything that we would need to process.
120                 return firstNode.getText();
121             case YangStatementParser.STRING:
122                 // Complex case, defer to a separate method
123                 return concatStrings(context, ref);
124             default:
125                 throw new VerifyException("Unexpected first symbol in " + context);
126         }
127     }
128
129     private String concatStrings(final ArgumentContext context, final StatementSourceReference ref) {
130         /*
131          * We have multiple fragments. Just search the tree. This code is equivalent to
132          *
133          *    context.STRING().forEach(stringNode -> appendString(sb, stringNode, ref))
134          *
135          * except we minimize allocations which that would do.
136          */
137         final StringBuilder sb = new StringBuilder();
138         for (ParseTree child : context.children) {
139             verify(child instanceof TerminalNode, "Unexpected fragment component %s", child);
140             final TerminalNode childNode = (TerminalNode) child;
141             switch (childNode.getSymbol().getType()) {
142                 case YangStatementParser.SEP:
143                     // Ignore whitespace
144                     break;
145                 case YangStatementParser.PLUS:
146                     // Operator, which we are handling by concat
147                     break;
148                 case YangStatementParser.STRING:
149                     // a lexer string, could be pretty much anything
150                     // TODO: appendString() is a dispatch based on quotes, which we should be able to defer to lexer for
151                     //       a dedicated type. That would expand the switch table here, but since we have it anyway, it
152                     //       would be nice to have the quoting distinction already taken care of. The performance
153                     //       difference will need to be benchmarked, though.
154                     appendString(sb, childNode, ref);
155                     break;
156                 default:
157                     throw new VerifyException("Unexpected symbol in " + childNode);
158             }
159         }
160         return sb.toString();
161     }
162
163     private void appendString(final StringBuilder sb, final TerminalNode stringNode,
164             final StatementSourceReference ref) {
165         final String str = stringNode.getText();
166         final char firstChar = str.charAt(0);
167         final char lastChar = str.charAt(str.length() - 1);
168         if (firstChar == '"' && lastChar == '"') {
169             sb.append(normalizeDoubleQuoted(str.substring(1, str.length() - 1),
170                 stringNode.getSymbol().getCharPositionInLine(), ref));
171         } else if (firstChar == '\'' && lastChar == '\'') {
172             /*
173              * According to RFC6020 a single quote character cannot occur in a single-quoted string, even when preceded
174              * by a backslash.
175              */
176             sb.append(str, 1, str.length() - 1);
177         } else {
178             checkUnquoted(str, ref);
179             sb.append(str);
180         }
181     }
182
183     private String normalizeDoubleQuoted(final String str, final int dquot, final StatementSourceReference ref) {
184         // Whitespace normalization happens irrespective of further handling and has no effect on the result
185         final String stripped = trimWhitespace(str, dquot);
186
187         // Now we need to perform some amount of unescaping. This serves as a pre-check before we dispatch
188         // validation and processing (which will reuse the work we have done)
189         final int backslash = stripped.indexOf('\\');
190         return backslash == -1 ? stripped : unescape(ref, stripped, backslash);
191     }
192
193     /*
194      * NOTE: Enforcement and transformation logic done by these methods should logically reside in the lexer and ANTLR
195      *       account the for it with lexer modes. We do not want to force a re-lexing phase in the parser just because
196      *       we decided to let ANTLR do the work.
197      */
198     abstract void checkDoubleQuoted(String str, StatementSourceReference ref, int backslash);
199
200     abstract void checkUnquoted(String str, StatementSourceReference ref);
201
202     /*
203      * Unescape escaped double quotes, tabs, new line and backslash in the inner string and trim the result.
204      */
205     private String unescape(final StatementSourceReference ref, final String str, final int backslash) {
206         checkDoubleQuoted(str, ref, backslash);
207         StringBuilder sb = new StringBuilder(str.length());
208         unescapeBackslash(sb, str, backslash);
209         return sb.toString();
210     }
211
212     @VisibleForTesting
213     static void unescapeBackslash(final StringBuilder sb, final String str, final int backslash) {
214         String substring = str;
215         int backslashIndex = backslash;
216         while (true) {
217             int nextIndex = backslashIndex + 1;
218             if (backslashIndex != -1 && nextIndex < substring.length()) {
219                 replaceBackslash(sb, substring, nextIndex);
220                 substring = substring.substring(nextIndex + 1);
221                 if (substring.length() > 0) {
222                     backslashIndex = substring.indexOf('\\');
223                 } else {
224                     break;
225                 }
226             } else {
227                 sb.append(substring);
228                 break;
229             }
230         }
231     }
232
233     private static void replaceBackslash(final StringBuilder sb, final String str, final int nextAfterBackslash) {
234         int backslash = nextAfterBackslash - 1;
235         sb.append(str, 0, backslash);
236         final char c = str.charAt(nextAfterBackslash);
237         switch (c) {
238             case '\\':
239             case '"':
240                 sb.append(c);
241                 break;
242             case 't':
243                 sb.append('\t');
244                 break;
245             case 'n':
246                 sb.append('\n');
247                 break;
248             default:
249                 sb.append(str, backslash, nextAfterBackslash + 1);
250         }
251     }
252
253     @VisibleForTesting
254     static String trimWhitespace(final String str, final int dquot) {
255         final int firstBrk = str.indexOf('\n');
256         if (firstBrk == -1) {
257             return str;
258         }
259
260         // Okay, we may need to do some trimming, set up a builder and append the first segment
261         final int length = str.length();
262         final StringBuilder sb = new StringBuilder(length);
263
264         // Append first segment, which needs only tail-trimming
265         sb.append(str, 0, trimTrailing(str, 0, firstBrk)).append('\n');
266
267         // With that out of the way, setup our iteration state. The string segment we are looking at is
268         // str.substring(start, end), which is guaranteed not to include any line breaks, i.e. end <= brk unless we are
269         // at the last segment.
270         int start = firstBrk + 1;
271         int brk = str.indexOf('\n', start);
272
273         // Loop over inner strings
274         while (brk != -1) {
275             trimLeadingAndAppend(sb, dquot, str, start, trimTrailing(str, start, brk)).append('\n');
276             start = brk + 1;
277             brk = str.indexOf('\n', start);
278         }
279
280         return trimLeadingAndAppend(sb, dquot, str, start, length).toString();
281     }
282
283     private static StringBuilder trimLeadingAndAppend(final StringBuilder sb, final int dquot, final String str,
284             final int start, final int end) {
285         int offset = start;
286         int pos = 0;
287
288         while (pos <= dquot) {
289             if (offset == end) {
290                 // We ran out of data, nothing to append
291                 return sb;
292             }
293
294             final char ch = str.charAt(offset);
295             if (ch == '\t') {
296                 // tabs are to be treated as 8 spaces
297                 pos += 8;
298             } else if (WHITESPACE_MATCHER.matches(ch)) {
299                 pos++;
300             } else {
301                 break;
302             }
303
304             offset++;
305         }
306
307         // We have expanded beyond double quotes, push equivalent spaces
308         while (pos - 1 > dquot) {
309             sb.append(' ');
310             pos--;
311         }
312
313         return sb.append(str, offset, end);
314     }
315
316     private static int trimTrailing(final String str, final int start, final int end) {
317         int ret = end;
318         while (ret > start) {
319             final int prev = ret - 1;
320             if (!WHITESPACE_MATCHER.matches(str.charAt(prev))) {
321                 break;
322             }
323             ret = prev;
324         }
325         return ret;
326     }
327 }