MegacoderKim
diff --git a/‎html5lib/constants.py
Lines changed: 2 additions & 1 deletion b/‎html5lib/constants.py
Lines changed: 2 additions & 1 deletion
diff --git a/‎html5lib/html5parser.py
Lines changed: 126 additions & 101 deletions b/‎html5lib/html5parser.py
Lines changed: 126 additions & 101 deletions
diff --git a/‎html5lib/sanitizer.py
Lines changed: 2 additions & 2 deletions b/‎html5lib/sanitizer.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎html5lib/tests/test_parser.py
Lines changed: 62 additions & 85 deletions b/‎html5lib/tests/test_parser.py
Lines changed: 62 additions & 85 deletions
diff --git a/‎html5lib/tests/test_sanitizer.py
Lines changed: 61 additions & 83 deletions b/‎html5lib/tests/test_sanitizer.py
Lines changed: 61 additions & 83 deletions
diff --git a/‎html5lib/tokenizer.py
Lines changed: 3 additions & 4 deletions b/‎html5lib/tokenizer.py
Lines changed: 3 additions & 4 deletions
@@ -483,7 +483,8 @@
     "area",
     "col",
     "input",
-    "source"
+    "source",
+    "track"
 ))
 
 cdataElements = frozenset(('title', 'textarea'))
 
@@ -245,11 +245,11 @@ def sanitize_css(self, style):
 
 class HTMLSanitizer(HTMLTokenizer, HTMLSanitizerMixin):
     def __init__(self, stream, encoding=None, parseMeta=True, useChardet=True,
-                 lowercaseElementName=False, lowercaseAttrName=False):
+                 lowercaseElementName=False, lowercaseAttrName=False, parser=None):
         #Change case matching defaults as we only output lowercase html anyway
         #This solution doesn't seem ideal...
         HTMLTokenizer.__init__(self, stream, encoding, parseMeta, useChardet,
-                               lowercaseElementName, lowercaseAttrName)
+                               lowercaseElementName, lowercaseAttrName, parser=parser)
 
     def __iter__(self):
         for token in HTMLTokenizer.__iter__(self):
 
@@ -2,13 +2,13 @@
 import sys
 import traceback
 import StringIO
-import unittest
 import warnings
 import re
 
 warnings.simplefilter("error")
 
-from support import html5lib_test_files, TestData, convert, convertExpected
+from support import html5lib_test_files as data_files
+from support import TestData, convert, convertExpected
 import html5lib
 from html5lib import html5parser, treebuilders, constants
 
@@ -70,94 +70,71 @@ def convertTreeDump(data):
 
 namespaceExpected = re.compile(r"^(\s*)<(\S+)>", re.M).sub
 
-class TestCase(unittest.TestCase):
-    def runParserTest(self, innerHTML, input, expected, errors, treeClass,
-        namespaceHTMLElements):
-        #XXX - move this out into the setup function
-        #concatenate all consecutive character tokens into a single token
-        try:
-            p = html5parser.HTMLParser(tree = treeClass,
-                                       namespaceHTMLElements=namespaceHTMLElements)
-        except constants.DataLossWarning:
-            return
-
-        try:
-            if innerHTML:
-                document = p.parseFragment(input, innerHTML)
-            else:
-                try:
-                    document = p.parse(input)
-                except constants.DataLossWarning:
-                    return 
-        except:
-            errorMsg = u"\n".join([u"\n\nInput:", input, u"\nExpected:", expected,
-                                   u"\nTraceback:", traceback.format_exc()])
-            self.assertTrue(False, errorMsg.encode("utf8"))
-        
-        output = convertTreeDump(p.tree.testSerializer(document))
-        
-        expected = convertExpected(expected)
-        if namespaceHTMLElements:
-            expected = namespaceExpected(r"\1<html \2>", expected)
-        
-        errorMsg = u"\n".join([u"\n\nInput:", input, u"\nExpected:", expected,
-                               u"\nReceived:", output])
-        self.assertEquals(expected, output, errorMsg.encode("utf8"))
-        errStr = [u"Line: %i Col: %i %s"%(line, col, 
-                                          constants.E[errorcode] % datavars if isinstance(datavars, dict) else (datavars,)) for
-                  ((line,col), errorcode, datavars) in p.errors]
-        
-        errorMsg2 = u"\n".join([u"\n\nInput:", input,
-                                u"\nExpected errors (" + str(len(errors)) + u"):\n" + u"\n".join(errors),
-                                u"\nActual errors (" + str(len(p.errors)) + u"):\n" + u"\n".join(errStr)])
-        if checkParseErrors:
-            self.assertEquals(len(p.errors), len(errors), errorMsg2.encode("utf-8"))
 
-def buildTestSuite():
-    sys.stdout.write('Testing tree builders '+ " ".join(treeTypes.keys()) + "\n")
-
-    for treeName, treeCls in treeTypes.iteritems():
-        files = html5lib_test_files('tree-construction')
-        for filename in files:
-            testName = os.path.basename(filename).replace(".dat","")
+def runParserTest(innerHTML, input, expected, errors, treeClass,
+                  namespaceHTMLElements):
+    #XXX - move this out into the setup function
+    #concatenate all consecutive character tokens into a single token
+    try:
+        p = html5parser.HTMLParser(tree = treeClass,
+                                   namespaceHTMLElements=namespaceHTMLElements)
+    except constants.DataLossWarning:
+        return
 
-            tests = TestData(filename, "data")
+    try:
+        if innerHTML:
+            document = p.parseFragment(input, innerHTML)
+        else:
+            try:
+                document = p.parse(input)
+            except constants.DataLossWarning:
+                return 
+    except:
+        errorMsg = u"\n".join([u"\n\nInput:", input, u"\nExpected:", expected,
+                               u"\nTraceback:", traceback.format_exc()])
+        assert False, errorMsg.encode("utf8")
+
+    output = convertTreeDump(p.tree.testSerializer(document))
+
+    expected = convertExpected(expected)
+    if namespaceHTMLElements:
+        expected = namespaceExpected(r"\1<html \2>", expected)
+
+    errorMsg = u"\n".join([u"\n\nInput:", input, u"\nExpected:", expected,
+                           u"\nReceived:", output])
+    assert expected == output, errorMsg.encode("utf8")
+    errStr = [u"Line: %i Col: %i %s"%(line, col, 
+                                      constants.E[errorcode] % datavars if isinstance(datavars, dict) else (datavars,)) for
+              ((line,col), errorcode, datavars) in p.errors]
+
+    errorMsg2 = u"\n".join([u"\n\nInput:", input,
+                            u"\nExpected errors (" + str(len(errors)) + u"):\n" + u"\n".join(errors),
+                            u"\nActual errors (" + str(len(p.errors)) + u"):\n" + u"\n".join(errStr)])
+    if checkParseErrors:
+            assert len(p.errors) == len(errors), errorMsg2.encode("utf-8")
+
+def test_parser():
+    sys.stderr.write('Testing tree builders '+ " ".join(treeTypes.keys()) + "\n")
+    files = data_files('tree-construction')
+    
+    for filename in files:
+        testName = os.path.basename(filename).replace(".dat","")
 
-            for index, test in enumerate(tests):
-                input, errors, innerHTML, expected = [test[key] for key in
+        tests = TestData(filename, "data")
+        
+        for index, test in enumerate(tests):
+            input, errors, innerHTML, expected = [test[key] for key in
                                                       'data', 'errors',
                                                       'document-fragment',
                                                       'document']
-                if errors:
-                    errors = errors.split("\n")
-                
+            if errors:
+                errors = errors.split("\n")
+
+            for treeName, treeCls in treeTypes.iteritems():
                 for namespaceHTMLElements in (True, False):
-                    def testFunc(self, innerHTML=innerHTML, input=input,
-                        expected=expected, errors=errors, treeCls=treeCls,
-                        namespaceHTMLElements=namespaceHTMLElements): 
-                        return self.runParserTest(innerHTML, input, expected,
-                                                  errors, treeCls,
-                                                  namespaceHTMLElements)
-                    testFunc.__name__ = "test_%s_%d_%s_%s" % (testName,index+1,treeName, namespaceHTMLElements and "namespaced" or "no_html_namespace")
-                    setattr(TestCase, testFunc.__name__,
-                         testFunc)
+                    print input
+                    yield (runParserTest, innerHTML, input, expected, errors, treeCls,
+                           namespaceHTMLElements)
                     break
-
-    return unittest.TestLoader().loadTestsFromTestCase(TestCase)
-
-def main():
-    # the following is temporary while the unit tests for parse errors are
-    # still in flux
-    if '-p' in sys.argv: # suppress check for parse errors
-        sys.argv.remove('-p')
-        global checkParseErrors
-        checkParseErrors = False
-    buildTestSuite()
-    try:
-        unittest.main()
-    except SystemExit:
-	    pass
-
-if __name__ == "__main__":
-    print sys.argv
-    main()
+                
+                
@@ -7,92 +7,70 @@
 except ImportError:
     import simplejson as json
 
-from support import html5lib_test_files
 from html5lib import html5parser, sanitizer, constants
 
-class SanitizeTest(unittest.TestCase):
-  def addTest(cls, name, expected, input):
-    def test(self, expected=expected, input=input):
-        expected = ''.join([token.toxml() for token in html5parser.HTMLParser().
-          parseFragment(expected).childNodes])
-        expected = json.loads(json.dumps(expected))
-        self.assertEqual(expected, self.sanitize_html(input))
-    setattr(cls, name, test)
-  addTest = classmethod(addTest)
+def runSanitizerTest(name, expected, input):
+    expected = ''.join([token.toxml() for token in html5parser.HTMLParser().
+                         parseFragment(expected).childNodes])
+    expected = json.loads(json.dumps(expected))
+    assert expected == sanitize_html(input)
 
-  def sanitize_html(self,stream):
+def sanitize_html(stream):
     return ''.join([token.toxml() for token in
-       html5parser.HTMLParser(tokenizer=sanitizer.HTMLSanitizer).
-           parseFragment(stream).childNodes])
-
-  def test_should_handle_astral_plane_characters(self):
-    self.assertEqual(u"<p>\U0001d4b5 \U0001d538</p>",
-      self.sanitize_html("<p>&#x1d4b5; &#x1d538;</p>"))
-
-for tag_name in sanitizer.HTMLSanitizer.allowed_elements:
-    if tag_name in ['caption', 'col', 'colgroup', 'optgroup', 'option', 'table', 'tbody', 'td', 'tfoot', 'th', 'thead', 'tr']: continue ### TODO
-    if tag_name != tag_name.lower(): continue ### TODO
-    if tag_name == 'image':
-        SanitizeTest.addTest("test_should_allow_%s_tag" % tag_name,
-          "<img title=\"1\"/>foo &lt;bad&gt;bar&lt;/bad&gt; baz",
-          "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
-    elif tag_name == 'br':
-        SanitizeTest.addTest("test_should_allow_%s_tag" % tag_name,
-          "<br title=\"1\"/>foo &lt;bad&gt;bar&lt;/bad&gt; baz<br/>",
+                    html5parser.HTMLParser(tokenizer=sanitizer.HTMLSanitizer).
+                     parseFragment(stream).childNodes])
+
+def test_should_handle_astral_plane_characters():
+    assert u"<p>\U0001d4b5 \U0001d538</p>" == sanitize_html("<p>&#x1d4b5; &#x1d538;</p>")
+
+def test_sanitizer():
+    for tag_name in sanitizer.HTMLSanitizer.allowed_elements:
+        if tag_name in ['caption', 'col', 'colgroup', 'optgroup', 'option', 'table', 'tbody', 'td', 'tfoot', 'th', 'thead', 'tr']:
+            continue ### TODO
+        if tag_name != tag_name.lower():
+            continue ### TODO
+        if tag_name == 'image':
+            yield (runSanitizerTest, "test_should_allow_%s_tag" % tag_name,
+              "<img title=\"1\"/>foo &lt;bad&gt;bar&lt;/bad&gt; baz",
+              "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
+        elif tag_name == 'br':
+            yield (runSanitizerTest, "test_should_allow_%s_tag" % tag_name,
+              "<br title=\"1\"/>foo &lt;bad&gt;bar&lt;/bad&gt; baz<br/>",
+              "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
+        elif tag_name in constants.voidElements:
+            yield (runSanitizerTest, "test_should_allow_%s_tag" % tag_name,
+              "<%s title=\"1\"/>foo &lt;bad&gt;bar&lt;/bad&gt; baz" % tag_name,
+              "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
+        else:
+            yield (runSanitizerTest, "test_should_allow_%s_tag" % tag_name,
+              "<%s title=\"1\">foo &lt;bad&gt;bar&lt;/bad&gt; baz</%s>" % (tag_name,tag_name),
+              "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
+
+    for tag_name in sanitizer.HTMLSanitizer.allowed_elements:
+        tag_name = tag_name.upper()
+        yield (runSanitizerTest, "test_should_forbid_%s_tag" % tag_name,
+          "&lt;%s title=\"1\"&gt;foo &lt;bad&gt;bar&lt;/bad&gt; baz&lt;/%s&gt;" % (tag_name,tag_name),
           "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
-    elif tag_name in constants.voidElements:
-        SanitizeTest.addTest("test_should_allow_%s_tag" % tag_name,
-          "<%s title=\"1\"/>foo &lt;bad&gt;bar&lt;/bad&gt; baz" % tag_name,
-          "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
-    else:
-        SanitizeTest.addTest("test_should_allow_%s_tag" % tag_name,
-          "<%s title=\"1\">foo &lt;bad&gt;bar&lt;/bad&gt; baz</%s>" % (tag_name,tag_name),
-          "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
-
-for tag_name in sanitizer.HTMLSanitizer.allowed_elements:
-    tag_name = tag_name.upper()
-    SanitizeTest.addTest("test_should_forbid_%s_tag" % tag_name,
-      "&lt;%s title=\"1\"&gt;foo &lt;bad&gt;bar&lt;/bad&gt; baz&lt;/%s&gt;" % (tag_name,tag_name),
-      "<%s title='1'>foo <bad>bar</bad> baz</%s>" % (tag_name,tag_name))
-
-for attribute_name in sanitizer.HTMLSanitizer.allowed_attributes:
-    if attribute_name != attribute_name.lower(): continue ### TODO
-    if attribute_name == 'style': continue
-    SanitizeTest.addTest("test_should_allow_%s_attribute" % attribute_name,
-      "<p %s=\"foo\">foo &lt;bad&gt;bar&lt;/bad&gt; baz</p>" % attribute_name,
-      "<p %s='foo'>foo <bad>bar</bad> baz</p>" % attribute_name)
-
-for attribute_name in sanitizer.HTMLSanitizer.allowed_attributes:
-    attribute_name = attribute_name.upper()
-    SanitizeTest.addTest("test_should_forbid_%s_attribute" % attribute_name,
-      "<p>foo &lt;bad&gt;bar&lt;/bad&gt; baz</p>",
-      "<p %s='display: none;'>foo <bad>bar</bad> baz</p>" % attribute_name)
-
-for protocol in sanitizer.HTMLSanitizer.allowed_protocols:
-    SanitizeTest.addTest("test_should_allow_%s_uris" % protocol,
-      "<a href=\"%s\">foo</a>" % protocol,
-      """<a href="%s">foo</a>""" % protocol)
-
-for protocol in sanitizer.HTMLSanitizer.allowed_protocols:
-    SanitizeTest.addTest("test_should_allow_uppercase_%s_uris" % protocol,
-      "<a href=\"%s\">foo</a>" % protocol,
-      """<a href="%s">foo</a>""" % protocol)
-
-def buildTestSuite():
-    for filename in html5lib_test_files("sanitizer"):
-        for test in json.load(file(filename)):
-          SanitizeTest.addTest('test_' + test['name'], test['output'], test['input'])
-
-    return unittest.TestLoader().loadTestsFromTestCase(SanitizeTest)
-
-def sanitize_html(stream):
-  return ''.join([token.toxml() for token in
-      html5parser.HTMLParser(tokenizer=sanitizer.HTMLSanitizer).
-          parseFragment(stream).childNodes])
-
-def main():
-    buildTestSuite()
-    unittest.main()
 
-if __name__ == "__main__":
-    main()
+    for attribute_name in sanitizer.HTMLSanitizer.allowed_attributes:
+        if attribute_name != attribute_name.lower(): continue ### TODO
+        if attribute_name == 'style': continue
+        yield (runSanitizerTest, "test_should_allow_%s_attribute" % attribute_name,
+          "<p %s=\"foo\">foo &lt;bad&gt;bar&lt;/bad&gt; baz</p>" % attribute_name,
+          "<p %s='foo'>foo <bad>bar</bad> baz</p>" % attribute_name)
+
+    for attribute_name in sanitizer.HTMLSanitizer.allowed_attributes:
+        attribute_name = attribute_name.upper()
+        yield (runSanitizerTest, "test_should_forbid_%s_attribute" % attribute_name,
+          "<p>foo &lt;bad&gt;bar&lt;/bad&gt; baz</p>",
+          "<p %s='display: none;'>foo <bad>bar</bad> baz</p>" % attribute_name)
+
+    for protocol in sanitizer.HTMLSanitizer.allowed_protocols:
+        yield (runSanitizerTest, "test_should_allow_%s_uris" % protocol,
+          "<a href=\"%s\">foo</a>" % protocol,
+          """<a href="%s">foo</a>""" % protocol)
+
+    for protocol in sanitizer.HTMLSanitizer.allowed_protocols:
+        yield (runSanitizerTest, "test_should_allow_uppercase_%s_uris" % protocol,
+          "<a href=\"%s\">foo</a>" % protocol,
+        """<a href="%s">foo</a>""" % protocol)
@@ -23,7 +23,7 @@
 for e in entities:
     entitiesByFirstChar.setdefault(e[0], []).append(e)
 
-class HTMLTokenizer:
+class HTMLTokenizer(object):
     """ This class takes care of tokenizing HTML.
 
     * self.currentToken
@@ -36,8 +36,6 @@ class HTMLTokenizer:
       Points to HTMLInputStream object.
     """
 
-    # XXX need to fix documentation
-
     def __init__(self, stream, encoding=None, parseMeta=True, useChardet=True,
                  lowercaseElementName=True, lowercaseAttrName=True, parser=None):
 
@@ -56,6 +54,7 @@ def __init__(self, stream, encoding=None, parseMeta=True, useChardet=True,
 
         # The current token being created
         self.currentToken = None
+        super(HTMLTokenizer, self).__init__()
 
     def __iter__(self):
         """ This is where the magic happens.
@@ -1151,7 +1150,7 @@ def markupDeclarationOpenState(self):
                 return True
         elif (charStack[-1] == "[" and 
               self.parser is not None and
-              self.parser.phase == self.parser.phases["inForeignContent"] and
+              self.parser.tree.openElements and
               self.parser.tree.openElements[-1].namespace != self.parser.tree.defaultNamespace):
             matched = True
             for expected in ["C", "D", "A", "T", "A", "["]: