|           Line data    Source code 
       1             : // Copyright 2016 the V8 project authors. All rights reserved.
       2             : // Use of this source code is governed by a BSD-style license that can be
       3             : // found in the LICENSE file.
       4             : 
       5             : #include "src/uri.h"
       6             : 
       7             : #include "src/char-predicates-inl.h"
       8             : #include "src/handles.h"
       9             : #include "src/isolate-inl.h"
      10             : #include "src/list.h"
      11             : #include "src/string-search.h"
      12             : 
      13             : namespace v8 {
      14             : namespace internal {
      15             : 
      16             : namespace {  // anonymous namespace for DecodeURI helper functions
      17             : bool IsReservedPredicate(uc16 c) {
      18             :   switch (c) {
      19             :     case '#':
      20             :     case '$':
      21             :     case '&':
      22             :     case '+':
      23             :     case ',':
      24             :     case '/':
      25             :     case ':':
      26             :     case ';':
      27             :     case '=':
      28             :     case '?':
      29             :     case '@':
      30             :       return true;
      31             :     default:
      32             :       return false;
      33             :   }
      34             : }
      35             : 
      36             : bool IsReplacementCharacter(const uint8_t* octets, int length) {
      37             :   // The replacement character is at codepoint U+FFFD in the Unicode Specials
      38             :   // table. Its UTF-8 encoding is 0xEF 0xBF 0xBD.
      39         431 :   if (length != 3 || octets[0] != 0xef || octets[1] != 0xbf ||
      40          28 :       octets[2] != 0xbd) {
      41             :     return false;
      42             :   }
      43             :   return true;
      44             : }
      45             : 
      46        8711 : bool DecodeOctets(const uint8_t* octets, int length, List<uc16>* buffer) {
      47        8711 :   size_t cursor = 0;
      48        8711 :   uc32 value = unibrow::Utf8::ValueOf(octets, length, &cursor);
      49        9114 :   if (value == unibrow::Utf8::kBadChar &&
      50             :       !IsReplacementCharacter(octets, length)) {
      51             :     return false;
      52             :   }
      53             : 
      54        8336 :   if (value <= static_cast<uc32>(unibrow::Utf16::kMaxNonSurrogateCharCode)) {
      55        7809 :     buffer->Add(value);
      56             :   } else {
      57         527 :     buffer->Add(unibrow::Utf16::LeadSurrogate(value));
      58         527 :     buffer->Add(unibrow::Utf16::TrailSurrogate(value));
      59             :   }
      60             :   return true;
      61             : }
      62             : 
      63    12208489 : int TwoDigitHex(uc16 character1, uc16 character2) {
      64    12208489 :   if (character1 > 'f') return -1;
      65    12207859 :   int high = HexValue(character1);
      66    12207859 :   if (high == -1) return -1;
      67    12207559 :   if (character2 > 'f') return -1;
      68    12207469 :   int low = HexValue(character2);
      69    12207469 :   if (low == -1) return -1;
      70    12207199 :   return (high << 4) + low;
      71             : }
      72             : 
      73             : template <typename T>
      74     4915436 : void AddToBuffer(uc16 decoded, String::FlatContent* uri_content, int index,
      75             :                  bool is_uri, List<T>* buffer) {
      76     4915436 :   if (is_uri && IsReservedPredicate(decoded)) {
      77           0 :     buffer->Add('%');
      78           0 :     uc16 first = uri_content->Get(index + 1);
      79           0 :     uc16 second = uri_content->Get(index + 2);
      80             :     DCHECK_GT(std::numeric_limits<T>::max(), first);
      81             :     DCHECK_GT(std::numeric_limits<T>::max(), second);
      82             : 
      83           0 :     buffer->Add(first);
      84           0 :     buffer->Add(second);
      85             :   } else {
      86     4915436 :     buffer->Add(decoded);
      87             :   }
      88     4915436 : }
      89             : 
      90        8636 : bool IntoTwoByte(int index, bool is_uri, int uri_length,
      91        8861 :                  String::FlatContent* uri_content, List<uc16>* buffer) {
      92       16987 :   for (int k = index; k < uri_length; k++) {
      93             :     uc16 code = uri_content->Get(k);
      94        8861 :     if (code == '%') {
      95             :       int two_digits;
      96       17722 :       if (k + 2 >= uri_length ||
      97        8861 :           (two_digits = TwoDigitHex(uri_content->Get(k + 1),
      98       17722 :                                     uri_content->Get(k + 2))) < 0) {
      99             :         return false;
     100             :       }
     101             :       k += 2;
     102        8861 :       uc16 decoded = static_cast<uc16>(two_digits);
     103        8861 :       if (decoded > unibrow::Utf8::kMaxOneByteChar) {
     104             :         uint8_t octets[unibrow::Utf8::kMaxEncodedSize];
     105        8846 :         octets[0] = decoded;
     106             : 
     107             :         int number_of_continuation_bytes = 0;
     108       35147 :         while ((decoded << ++number_of_continuation_bytes) & 0x80) {
     109       17590 :           if (number_of_continuation_bytes > 3 || k + 3 >= uri_length) {
     110         510 :             return false;
     111             :           }
     112       52395 :           if (uri_content->Get(++k) != '%' ||
     113       17455 :               (two_digits = TwoDigitHex(uri_content->Get(k + 1),
     114       34910 :                                         uri_content->Get(k + 2))) < 0) {
     115             :             return false;
     116             :           }
     117             :           k += 2;
     118             :           uc16 continuation_byte = static_cast<uc16>(two_digits);
     119       17455 :           octets[number_of_continuation_bytes] = continuation_byte;
     120             :         }
     121             : 
     122        8711 :         if (!DecodeOctets(octets, number_of_continuation_bytes, buffer)) {
     123             :           return false;
     124             :         }
     125             :       } else {
     126          15 :         AddToBuffer(decoded, uri_content, k - 2, is_uri, buffer);
     127             :       }
     128             :     } else {
     129           0 :       buffer->Add(code);
     130             :     }
     131             :   }
     132             :   return true;
     133             : }
     134             : 
     135        8990 : bool IntoOneAndTwoByte(Handle<String> uri, bool is_uri,
     136             :                        List<uint8_t>* one_byte_buffer,
     137             :                        List<uc16>* two_byte_buffer) {
     138             :   DisallowHeapAllocation no_gc;
     139        8990 :   String::FlatContent uri_content = uri->GetFlatContent();
     140             : 
     141             :   int uri_length = uri->length();
     142    33433840 :   for (int k = 0; k < uri_length; k++) {
     143    33433516 :     uc16 code = uri_content.Get(k);
     144    33433516 :     if (code == '%') {
     145             :       int two_digits;
     146     9848144 :       if (k + 2 >= uri_length ||
     147     4924057 :           (two_digits = TwoDigitHex(uri_content.Get(k + 1),
     148     9848114 :                                     uri_content.Get(k + 2))) < 0) {
     149             :         return false;
     150             :       }
     151             : 
     152     4924057 :       uc16 decoded = static_cast<uc16>(two_digits);
     153     4924057 :       if (decoded > unibrow::Utf8::kMaxOneByteChar) {
     154             :         return IntoTwoByte(k, is_uri, uri_length, &uri_content,
     155        8636 :                            two_byte_buffer);
     156             :       }
     157             : 
     158     4915421 :       AddToBuffer(decoded, &uri_content, k, is_uri, one_byte_buffer);
     159             :       k += 2;
     160             :     } else {
     161    28509429 :       if (code > unibrow::Utf8::kMaxOneByteChar) {
     162             :         return IntoTwoByte(k, is_uri, uri_length, &uri_content,
     163           0 :                            two_byte_buffer);
     164             :       }
     165    28509429 :       one_byte_buffer->Add(code);
     166             :     }
     167             :   }
     168             :   return true;
     169             : }
     170             : 
     171             : }  // anonymous namespace
     172             : 
     173        8990 : MaybeHandle<String> Uri::Decode(Isolate* isolate, Handle<String> uri,
     174             :                                 bool is_uri) {
     175        8990 :   uri = String::Flatten(uri);
     176             :   List<uint8_t> one_byte_buffer;
     177             :   List<uc16> two_byte_buffer;
     178             : 
     179        8990 :   if (!IntoOneAndTwoByte(uri, is_uri, &one_byte_buffer, &two_byte_buffer)) {
     180         540 :     THROW_NEW_ERROR(isolate, NewURIError(), String);
     181             :   }
     182             : 
     183        8450 :   if (two_byte_buffer.is_empty()) {
     184             :     return isolate->factory()->NewStringFromOneByte(
     185         324 :         one_byte_buffer.ToConstVector());
     186             :   }
     187             : 
     188             :   Handle<SeqTwoByteString> result;
     189       16252 :   ASSIGN_RETURN_ON_EXCEPTION(
     190             :       isolate, result, isolate->factory()->NewRawTwoByteString(
     191             :                            one_byte_buffer.length() + two_byte_buffer.length()),
     192             :       String);
     193             : 
     194        8126 :   CopyChars(result->GetChars(), one_byte_buffer.ToConstVector().start(),
     195       16252 :             one_byte_buffer.length());
     196             :   CopyChars(result->GetChars() + one_byte_buffer.length(),
     197        8126 :             two_byte_buffer.ToConstVector().start(), two_byte_buffer.length());
     198             : 
     199             :   return result;
     200             : }
     201             : 
     202             : namespace {  // anonymous namespace for EncodeURI helper functions
     203    33883487 : bool IsUnescapePredicateInUriComponent(uc16 c) {
     204    67766974 :   if (IsAlphaNumeric(c)) {
     205             :     return true;
     206             :   }
     207             : 
     208     7880313 :   switch (c) {
     209             :     case '!':
     210             :     case '\'':
     211             :     case '(':
     212             :     case ')':
     213             :     case '*':
     214             :     case '-':
     215             :     case '.':
     216             :     case '_':
     217             :     case '~':
     218             :       return true;
     219             :     default:
     220     4924932 :       return false;
     221             :   }
     222             : }
     223             : 
     224             : bool IsUriSeparator(uc16 c) {
     225             :   switch (c) {
     226             :     case '#':
     227             :     case ':':
     228             :     case ';':
     229             :     case '/':
     230             :     case '?':
     231             :     case '$':
     232             :     case '&':
     233             :     case '+':
     234             :     case ',':
     235             :     case '@':
     236             :     case '=':
     237             :       return true;
     238             :     default:
     239             :       return false;
     240             :   }
     241             : }
     242             : 
     243     4942974 : void AddEncodedOctetToBuffer(uint8_t octet, List<uint8_t>* buffer) {
     244     4942974 :   buffer->Add('%');
     245     9885948 :   buffer->Add(HexCharOfValue(octet >> 4));
     246     9885948 :   buffer->Add(HexCharOfValue(octet & 0x0F));
     247     4942974 : }
     248             : 
     249     4924767 : void EncodeSingle(uc16 c, List<uint8_t>* buffer) {
     250     4924767 :   char s[4] = {};
     251             :   int number_of_bytes;
     252             :   number_of_bytes =
     253     4924767 :       unibrow::Utf8::Encode(s, c, unibrow::Utf16::kNoPreviousCharacter, false);
     254     9865813 :   for (int k = 0; k < number_of_bytes; k++) {
     255     4941046 :     AddEncodedOctetToBuffer(s[k], buffer);
     256             :   }
     257     4924767 : }
     258             : 
     259         482 : void EncodePair(uc16 cc1, uc16 cc2, List<uint8_t>* buffer) {
     260         482 :   char s[4] = {};
     261             :   int number_of_bytes =
     262             :       unibrow::Utf8::Encode(s, unibrow::Utf16::CombineSurrogatePair(cc1, cc2),
     263         482 :                             unibrow::Utf16::kNoPreviousCharacter, false);
     264        2410 :   for (int k = 0; k < number_of_bytes; k++) {
     265        1928 :     AddEncodedOctetToBuffer(s[k], buffer);
     266             :   }
     267         482 : }
     268             : 
     269             : }  // anonymous namespace
     270             : 
     271      107022 : MaybeHandle<String> Uri::Encode(Isolate* isolate, Handle<String> uri,
     272             :                                 bool is_uri) {
     273      107022 :   uri = String::Flatten(uri);
     274             :   int uri_length = uri->length();
     275             :   List<uint8_t> buffer(uri_length);
     276             : 
     277             :   {
     278             :     DisallowHeapAllocation no_gc;
     279      107022 :     String::FlatContent uri_content = uri->GetFlatContent();
     280             : 
     281    33990991 :     for (int k = 0; k < uri_length; k++) {
     282    33891641 :       uc16 cc1 = uri_content.Get(k);
     283    67783282 :       if (unibrow::Utf16::IsLeadSurrogate(cc1)) {
     284        7958 :         k++;
     285        7958 :         if (k < uri_length) {
     286             :           uc16 cc2 = uri->Get(k);
     287       15916 :           if (unibrow::Utf16::IsTrailSurrogate(cc2)) {
     288         482 :             EncodePair(cc1, cc2, &buffer);
     289         482 :             continue;
     290             :           }
     291             :         }
     292    33883683 :       } else if (!unibrow::Utf16::IsTrailSurrogate(cc1)) {
     293    67766974 :         if (IsUnescapePredicateInUriComponent(cc1) ||
     294     4919530 :             (is_uri && IsUriSeparator(cc1))) {
     295    28958720 :           buffer.Add(cc1);
     296             :         } else {
     297     4924767 :           EncodeSingle(cc1, &buffer);
     298             :         }
     299             :         continue;
     300             :       }
     301             : 
     302             :       AllowHeapAllocation allocate_error_and_return;
     303        7672 :       THROW_NEW_ERROR(isolate, NewURIError(), String);
     304             :     }
     305             :   }
     306             : 
     307       99350 :   return isolate->factory()->NewStringFromOneByte(buffer.ToConstVector());
     308             : }
     309             : 
     310             : namespace {  // Anonymous namespace for Escape and Unescape
     311             : 
     312             : template <typename Char>
     313    21462332 : int UnescapeChar(Vector<const Char> vector, int i, int length, int* step) {
     314    21462332 :   uint16_t character = vector[i];
     315             :   int32_t hi = 0;
     316             :   int32_t lo = 0;
     317    29281270 :   if (character == '%' && i <= length - 6 && vector[i + 1] == 'u' &&
     318     2228124 :       (hi = TwoDigitHex(vector[i + 2], vector[i + 3])) > -1 &&
     319     2227404 :       (lo = TwoDigitHex(vector[i + 4], vector[i + 5])) > -1) {
     320      742228 :     *step = 6;
     321      742228 :     return (hi << 8) + lo;
     322    26493044 :   } else if (character == '%' && i <= length - 3 &&
     323    17318820 :              (lo = TwoDigitHex(vector[i + 1], vector[i + 2])) > -1) {
     324     5772130 :     *step = 3;
     325             :     return lo;
     326             :   } else {
     327    14947974 :     *step = 1;
     328    14947974 :     return character;
     329             :   }
     330             : }
     331             : 
     332             : template <typename Char>
     333       92303 : MaybeHandle<String> UnescapeSlow(Isolate* isolate, Handle<String> string,
     334             :                                  int start_index) {
     335             :   bool one_byte = true;
     336             :   int length = string->length();
     337             : 
     338             :   int unescaped_length = 0;
     339             :   {
     340             :     DisallowHeapAllocation no_allocation;
     341             :     Vector<const Char> vector = string->GetCharVector<Char>();
     342    10823469 :     for (int i = start_index; i < length; unescaped_length++) {
     343             :       int step;
     344    10731166 :       if (UnescapeChar(vector, i, length, &step) >
     345             :           String::kMaxOneByteCharCode) {
     346             :         one_byte = false;
     347             :       }
     348    10731166 :       i += step;
     349             :     }
     350             :   }
     351             : 
     352             :   DCHECK(start_index < length);
     353             :   Handle<String> first_part =
     354       92303 :       isolate->factory()->NewProperSubString(string, 0, start_index);
     355             : 
     356             :   int dest_position = 0;
     357             :   Handle<String> second_part;
     358             :   DCHECK(unescaped_length <= String::kMaxLength);
     359       92303 :   if (one_byte) {
     360             :     Handle<SeqOneByteString> dest = isolate->factory()
     361             :                                         ->NewRawOneByteString(unescaped_length)
     362        2358 :                                         .ToHandleChecked();
     363             :     DisallowHeapAllocation no_allocation;
     364             :     Vector<const Char> vector = string->GetCharVector<Char>();
     365       12852 :     for (int i = start_index; i < length; dest_position++) {
     366             :       int step;
     367       11673 :       dest->SeqOneByteStringSet(dest_position,
     368       11673 :                                 UnescapeChar(vector, i, length, &step));
     369       11673 :       i += step;
     370             :     }
     371        1179 :     second_part = dest;
     372             :   } else {
     373             :     Handle<SeqTwoByteString> dest = isolate->factory()
     374             :                                         ->NewRawTwoByteString(unescaped_length)
     375      182248 :                                         .ToHandleChecked();
     376             :     DisallowHeapAllocation no_allocation;
     377             :     Vector<const Char> vector = string->GetCharVector<Char>();
     378    10810617 :     for (int i = start_index; i < length; dest_position++) {
     379             :       int step;
     380    10719493 :       dest->SeqTwoByteStringSet(dest_position,
     381    10719493 :                                 UnescapeChar(vector, i, length, &step));
     382    10719493 :       i += step;
     383             :     }
     384       91124 :     second_part = dest;
     385             :   }
     386       92303 :   return isolate->factory()->NewConsString(first_part, second_part);
     387             : }
     388             : 
     389    10643688 : bool IsNotEscaped(uint16_t c) {
     390    21287376 :   if (IsAlphaNumeric(c)) {
     391             :     return true;
     392             :   }
     393             :   //  @*_+-./
     394             :   switch (c) {
     395             :     case '@':
     396             :     case '*':
     397             :     case '_':
     398             :     case '+':
     399             :     case '-':
     400             :     case '.':
     401             :     case '/':
     402             :       return true;
     403             :     default:
     404     2895742 :       return false;
     405             :   }
     406             : }
     407             : 
     408             : template <typename Char>
     409      183042 : static MaybeHandle<String> UnescapePrivate(Isolate* isolate,
     410             :                                            Handle<String> source) {
     411             :   int index;
     412             :   {
     413             :     DisallowHeapAllocation no_allocation;
     414             :     StringSearch<uint8_t, Char> search(isolate, STATIC_CHAR_VECTOR("%"));
     415             :     index = search.Search(source->GetCharVector<Char>(), 0);
     416      273781 :     if (index < 0) return source;
     417             :   }
     418       92303 :   return UnescapeSlow<Char>(isolate, source, index);
     419             : }
     420             : 
     421             : template <typename Char>
     422       62227 : static MaybeHandle<String> EscapePrivate(Isolate* isolate,
     423             :                                          Handle<String> string) {
     424             :   DCHECK(string->IsFlat());
     425             :   int escaped_length = 0;
     426             :   int length = string->length();
     427             : 
     428             :   {
     429             :     DisallowHeapAllocation no_allocation;
     430             :     Vector<const Char> vector = string->GetCharVector<Char>();
     431     5587910 :     for (int i = 0; i < length; i++) {
     432     5525683 :       uint16_t c = vector[i];
     433     5514459 :       if (c >= 256) {
     434      202453 :         escaped_length += 6;
     435     5323230 :       } else if (IsNotEscaped(c)) {
     436     3875359 :         escaped_length++;
     437             :       } else {
     438     1447871 :         escaped_length += 3;
     439             :       }
     440             : 
     441             :       // We don't allow strings that are longer than a maximal length.
     442             :       DCHECK(String::kMaxLength < 0x7fffffff - 6);     // Cannot overflow.
     443     5525683 :       if (escaped_length > String::kMaxLength) break;  // Provoke exception.
     444             :     }
     445             :   }
     446             : 
     447             :   // No length change implies no change.  Return original string if no change.
     448       62227 :   if (escaped_length == length) return string;
     449             : 
     450             :   Handle<SeqOneByteString> dest;
     451      122118 :   ASSIGN_RETURN_ON_EXCEPTION(
     452             :       isolate, dest, isolate->factory()->NewRawOneByteString(escaped_length),
     453             :       String);
     454             :   int dest_position = 0;
     455             : 
     456             :   {
     457             :     DisallowHeapAllocation no_allocation;
     458             :     Vector<const Char> vector = string->GetCharVector<Char>();
     459     5583970 :     for (int i = 0; i < length; i++) {
     460     5522911 :       uint16_t c = vector[i];
     461     5514459 :       if (c >= 256) {
     462             :         dest->SeqOneByteStringSet(dest_position, '%');
     463      202453 :         dest->SeqOneByteStringSet(dest_position + 1, 'u');
     464      404906 :         dest->SeqOneByteStringSet(dest_position + 2, HexCharOfValue(c >> 12));
     465             :         dest->SeqOneByteStringSet(dest_position + 3,
     466      404906 :                                   HexCharOfValue((c >> 8) & 0xf));
     467             :         dest->SeqOneByteStringSet(dest_position + 4,
     468      404906 :                                   HexCharOfValue((c >> 4) & 0xf));
     469      404906 :         dest->SeqOneByteStringSet(dest_position + 5, HexCharOfValue(c & 0xf));
     470      202453 :         dest_position += 6;
     471     5320458 :       } else if (IsNotEscaped(c)) {
     472             :         dest->SeqOneByteStringSet(dest_position, c);
     473     3872587 :         dest_position++;
     474             :       } else {
     475             :         dest->SeqOneByteStringSet(dest_position, '%');
     476     2895742 :         dest->SeqOneByteStringSet(dest_position + 1, HexCharOfValue(c >> 4));
     477     2895742 :         dest->SeqOneByteStringSet(dest_position + 2, HexCharOfValue(c & 0xf));
     478     1447871 :         dest_position += 3;
     479             :       }
     480             :     }
     481             :   }
     482             : 
     483             :   return dest;
     484             : }
     485             : 
     486             : }  // Anonymous namespace
     487             : 
     488       62227 : MaybeHandle<String> Uri::Escape(Isolate* isolate, Handle<String> string) {
     489             :   Handle<String> result;
     490       62227 :   string = String::Flatten(string);
     491       62227 :   return string->IsOneByteRepresentationUnderneath()
     492             :              ? EscapePrivate<uint8_t>(isolate, string)
     493       62227 :              : EscapePrivate<uc16>(isolate, string);
     494             : }
     495             : 
     496      183042 : MaybeHandle<String> Uri::Unescape(Isolate* isolate, Handle<String> string) {
     497             :   Handle<String> result;
     498      183042 :   string = String::Flatten(string);
     499      183042 :   return string->IsOneByteRepresentationUnderneath()
     500             :              ? UnescapePrivate<uint8_t>(isolate, string)
     501      183042 :              : UnescapePrivate<uc16>(isolate, string);
     502             : }
     503             : 
     504             : }  // namespace internal
     505             : }  // namespace v8
 |