Updated Python tokeniser to match new tests

philiptaylor · philiptaylor · commit 18e5d32ea34e · 2008-03-02T13:52:42.000Z
--HG--
extra : convert_revision : svn%3Aacbfec75-9323-0410-a652-858a13e371e0/trunk%401104
diff --git a/src/html5lib/constants.py b/src/html5lib/constants.py
@@ -667,7 +667,7 @@
     "kappa;": u"\u03BA",
     "lArr;": u"\u21D0",
     "lambda;": u"\u03BB",
-    "lang;": u"\u3008",
+    "lang;": u"\u27E8",
     "laquo;": u"\u00AB",
     "laquo": u"\u00AB",
     "larr;": u"\u2190",
@@ -747,7 +747,7 @@
     "quot": u"\u0022",
     "rArr;": u"\u21D2",
     "radic;": u"\u221A",
-    "rang;": u"\u3009",
+    "rang;": u"\u27E9",
     "raquo;": u"\u00BB",
     "raquo": u"\u00BB",
     "rarr;": u"\u2192",
diff --git a/src/html5lib/tokenizer.py b/src/html5lib/tokenizer.py
@@ -51,6 +51,7 @@ def __init__(self, stream, encoding=None, parseMeta=True, useChardet=True,
             "attributeValueDoubleQuoted":self.attributeValueDoubleQuotedState,
             "attributeValueSingleQuoted":self.attributeValueSingleQuotedState,
             "attributeValueUnQuoted":self.attributeValueUnQuotedState,
+            "afterAttributeValue":self.afterAttributeValueState,
             "bogusComment":self.bogusCommentState,
             "markupDeclarationOpen":self.markupDeclarationOpenState,
             "commentStart":self.commentStartState,
@@ -185,10 +186,11 @@ def consumeNumberEntity(self, isHex):
 
         return char
 
-    def consumeEntity(self, fromAttribute=False):
+    def consumeEntity(self, allowedChar=None, fromAttribute=False):
         char = None
         charStack = [self.stream.char()]
-        if charStack[0] in spaceCharacters or charStack[0] in (EOF, "<", "&"):
+        if charStack[0] in spaceCharacters or charStack[0] in (EOF, "<", "&")\
+         or (allowedChar is not None and allowedChar == charStack[0]):
             self.stream.unget(charStack)
         elif charStack[0] == u"#":
             # We might have a number entity here.
@@ -260,10 +262,10 @@ def entitiesStartingWith(name):
                 self.stream.unget(charStack)
         return char
 
-    def processEntityInAttribute(self):
+    def processEntityInAttribute(self, allowedChar):
         """This method replaces the need for "entityInAttributeValueState".
         """
-        entity = self.consumeEntity(True)
+        entity = self.consumeEntity(allowedChar=allowedChar, fromAttribute=True)
         if entity:
             self.currentToken["data"][-1][1] += entity
         else:
@@ -479,6 +481,11 @@ def beforeAttributeNameState(self):
             self.emitCurrentToken()
         elif data == u"/":
             self.processSolidusInTag()
+        elif data == u"'" or data == u'"' or data == u"=":
+            self.tokenQueue.append({"type": "ParseError", "data":
+              "invalid-character-in-attribute-name"})
+            self.currentToken["data"].append([data, ""])
+            self.state = self.states["attributeName"]
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               "expected-attribute-name-but-got-eof"})
@@ -508,6 +515,11 @@ def attributeNameState(self):
         elif data == u"/":
             self.processSolidusInTag()
             self.state = self.states["beforeAttributeName"]
+        elif data == u"'" or data == u'"':
+            self.tokenQueue.append({"type": "ParseError", "data":
+              "invalid-character-in-attribute-name"})
+            self.currentToken["data"][-1][0] += data
+            leavingThisState = False
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               "eof-in-attribute-name"})
@@ -570,6 +582,11 @@ def beforeAttributeValueState(self):
             self.state = self.states["attributeValueSingleQuoted"]
         elif data == u">":
             self.emitCurrentToken()
+        elif data == u"=":
+            self.tokenQueue.append({"type": "ParseError", "data":
+              "equals-in-unquoted-attribute-value"})
+            self.currentToken["data"][-1][1] += data
+            self.state = self.states["attributeValueUnQuoted"]
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               "expected-attribute-value-but-got-eof"})
@@ -582,9 +599,9 @@ def beforeAttributeValueState(self):
     def attributeValueDoubleQuotedState(self):
         data = self.stream.char()
         if data == "\"":
-            self.state = self.states["beforeAttributeName"]
+            self.state = self.states["afterAttributeValue"]
         elif data == u"&":
-            self.processEntityInAttribute()
+            self.processEntityInAttribute(u'"')
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               "eof-in-attribute-value-double-quote"})
@@ -597,9 +614,9 @@ def attributeValueDoubleQuotedState(self):
     def attributeValueSingleQuotedState(self):
         data = self.stream.char()
         if data == "'":
-            self.state = self.states["beforeAttributeName"]
+            self.state = self.states["afterAttributeValue"]
         elif data == u"&":
-            self.processEntityInAttribute()
+            self.processEntityInAttribute(u"'")
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               "eof-in-attribute-value-single-quote"})
@@ -614,16 +631,37 @@ def attributeValueUnQuotedState(self):
         if data in spaceCharacters:
             self.state = self.states["beforeAttributeName"]
         elif data == u"&":
-            self.processEntityInAttribute()
+            self.processEntityInAttribute(None)
         elif data == u">":
             self.emitCurrentToken()
+        elif data == u'"' or data == u"'" or data == u"=":
+            self.tokenQueue.append({"type": "ParseError", "data":
+              "unexpected-character-in-unquoted-attribute-value"})
+            self.currentToken["data"][-1][1] += data
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               "eof-in-attribute-value-no-quotes"})
             self.emitCurrentToken()
         else:
             self.currentToken["data"][-1][1] += data + self.stream.charsUntil( \
-              frozenset(("&", ">","<")) | spaceCharacters)
+              frozenset(("&", ">", "<", "=", "'", '"')) | spaceCharacters)
+        return True
+
+    def afterAttributeValueState(self):
+        data = self.stream.char()
+        if data in spaceCharacters:
+            self.state = self.states["beforeAttributeName"]
+        elif data == u">":
+            self.emitCurrentToken()
+            self.state = self.states["data"]
+        elif data == u"/":
+            self.processSolidusInTag()
+            self.state = self.states["beforeAttributeName"]
+        else:
+            self.tokenQueue.append({"type": "ParseError", "data":
+              "unexpected-character-after-attribute-value"})
+            self.stream.unget(data)
+            self.state = self.states["beforeAttributeName"]
         return True
 
     def bogusCommentState(self):