Improve check for validity of encoding

jgraham · jgraham · commit 165ea70b11e6 · 2007-03-01T19:32:32.000Z
--HG--
extra : convert_revision : svn%3Aacbfec75-9323-0410-a652-858a13e371e0/trunk%40512
diff --git a/src/inputstream.py b/src/inputstream.py
@@ -1,5 +1,6 @@
 import codecs
 import re
+import types
 
 from constants import EOF, spaceCharacters, asciiLetters, asciiUppercase
 from constants import encodings
@@ -39,8 +40,9 @@ def __init__(self, source, encoding=None):
         self.numBytesMeta = 512
         #Encoding to use if no other information can be found
         self.defaultEncoding = "windows-1252"
+        
         #Detect encoding iff no explicit "transport level" encoding is supplied
-        if encoding is None:
+        if encoding is None or not isValidEncoding(encoding):
             encoding = self.detectEncoding()
         self.charEncoding = encoding
 
@@ -79,20 +81,17 @@ def detectEncoding(self):
         #First look for a BOM
         #This will also read past the BOM if present
         encoding = self.detectBOM()
-
         #If there is no BOM need to look for meta elements with encoding 
         #information
         if encoding is None:
             encoding = self.detectEncodingMeta()
-
         #Guess with chardet, if avaliable
         if encoding is None:
             try:
                 import chardet
                 encoding = chardet.detect(self.rawStream)['encoding']
             except ImportError:
                 pass
-
         # If all else fails use the default encoding
         if encoding is None:
             encoding = self.defaultEncoding
@@ -102,7 +101,7 @@ def detectEncoding(self):
 
         if encoding.lower() in encodingSub:
             encoding = encodingSub[encoding.lower()]
-        
+
         return encoding
 
     def detectBOM(self):
@@ -301,13 +300,13 @@ def handleMeta(self):
             else:
                 if attr[0] == "charset":
                     tentativeEncoding = attr[1]
-                    if self.isValidEncoding(tentativeEncoding):
+                    if isValidEncoding(tentativeEncoding):
                         self.encoding = tentativeEncoding    
                         return False
                 elif attr[0] == "content":
                     contentParser = ContentAttrParser(attr[1])
                     tentativeEncoding = contentParser.parse()
-                    if self.isValidEncoding(tentativeEncoding):
+                    if isValidEncoding(tentativeEncoding):
                         self.encoding = tentativeEncoding    
                         return False
 
@@ -358,10 +357,6 @@ def getAttribute(self):
         #print attr, attrParser.position, self.data[self.position]
         return attr
 
-    def isValidEncoding(self, encoding):
-        """Determine if a string is a supported encoding"""
-        return encoding is not None and encoding.lower().strip() in encodings
-
 class FragmentParser(object):
     """Helper object for parsing document fragments e.g. attributes and content
     attribte values"""
@@ -517,3 +512,8 @@ def parse(self):
                 attrValue.extend(self.fragment[self.position].lower())
             else:
                 attrValue.extend(self.fragment[self.position])
+
+def isValidEncoding(encoding):
+    """Determine if a string is a supported encoding"""
+    return (encoding is not None and type(encoding) == types.StringType and
+            encoding.lower().strip() in encodings)