coder-pig
diff --git a/‎Chapter 16/16_2.py
Lines changed: 113 additions & 110 deletions b/‎Chapter 16/16_2.py
Lines changed: 113 additions & 110 deletions
diff --git a/‎Chapter 16/16_3.py
Lines changed: 10 additions & 0 deletions b/‎Chapter 16/16_3.py
Lines changed: 10 additions & 0 deletions
diff --git a/‎Chapter 16/16_4.py
Lines changed: 86 additions & 0 deletions b/‎Chapter 16/16_4.py
Lines changed: 86 additions & 0 deletions
@@ -1,110 +1,113 @@
-"""
-Ajax动态加载数据应对策略例子：爬取花瓣网某个画板的所有风景图
-"""
-import time
-import random
-import requests as r
-import os
-import re
-import json
-
-# 图片拼接url后，分别是前缀后缀
-img_start_url = 'http://img.hb.aicdn.com/'
-img_end = '_fw658'
-
-# 获取pins的正则
-boards_pattern = re.compile(r'pins":(.*)};')
-
-# 修改pin_id的正则
-max_pattern = re.compile(r'(?<=max=)\d*(?=&limit)')
-
-# 图片id输出文件
-pin_ids_file = 'pin_ids.txt'
-
-# 图片输出路径
-pic_download_dir = os.path.join(os.getcwd(), 'HuaBan/')
-
-ajax_headers = {
-    'Host': 'huaban.com',
-    'Accept': 'application/json',
-    'X-Request': 'JSON',
-    'X-Requested-With': 'XMLHttpRequest'
-}
-
-# 往文件写入内容(追加)
-def write_str_data(content, file_path, type="a+"):
-    try:
-        with open(file_path, type, encoding='utf-8') as f:
-            f.write(content + "\n", )
-    except OSError as reason:
-        print(str(reason))
-
-# 按行读取文件里的内容添加到列表中返回
-def load_data(file_path):
-    if os.path.exists(file_path):
-        data_list = []
-        with open(file_path, "r+", encoding='utf-8') as f:
-            for ip in f:
-                data_list.append(ip.replace("\n", ""))
-        return data_list
-
-# 获得borads页数据，提取key列表写入到文件里，并返回最后一个pid用于后续查询
-def get_boards_index_data(url):
-    print("请求：" + url)
-    resp = r.get(url).text
-    result = boards_pattern.search(resp)
-    json_dict = json.loads(result.group(1))
-    for item in json_dict:
-        write_str_data(item['file']['key'], pin_ids_file)
-    # 返回最后一个pin_id
-    pin_id = json_dict[-1]['pin_id']
-    return pin_id
-
-
-# 模拟Ajax请求更多数据
-def get_json_list(url):
-    print("请求：" + url)
-    resp = r.get(url, headers=ajax_headers)
-    if resp is None:
-        return None
-    else:
-        json_dict = json.loads(resp.text)
-        pins = json_dict['board']['pins']
-        if len(pins) == 0:
-            return None
-        else:
-            for item in pins:
-                write_str_data(item['file']['key'], pin_ids_file)
-            return pins[-1]['pin_id']
-
-
-# 下载图片的方法
-def download_pic(key):
-    url = img_start_url + key + img_end
-    resp = r.get(url).content
-    try:
-        print("下载图片：" + url)
-        pic_name = key + ".jpg"
-        with open(pic_download_dir + pic_name, "wb+") as f:
-            f.write(resp)
-    except (OSError, r.HTTPError, r.ConnectionError, Exception) as reason:
-        print(str(reason))
-
-
-if __name__ == '__main__':
-    if not os.path.exists(pic_download_dir):
-        os.makedirs(pic_download_dir)
-    if os.path.exists(pin_ids_file):
-        os.remove(pin_ids_file)
-    # 一个画板链接，可自行替换
-    boards_url = 'http://huaban.com/boards/279523/'
-    board_last_pin_id = get_boards_index_data(boards_url)
-    board_json_url = boards_url + '?jl58nz3i&max=43131274&limit=20&wfl=1'
-    while True:
-        board_last_pin_id = get_json_list(max_pattern.sub(str(board_last_pin_id), board_json_url))
-        if board_last_pin_id is None:
-            break
-    pic_url_list = load_data(pin_ids_file)
-    for key in pic_url_list:
-        download_pic(key)
-    print("下载完成～")
+"""
+Ajax动态加载数据应对策略例子：爬取花瓣网某个画板的所有风景图
+"""
+import requests as r
+import os
+import re
+import json
+
+# 图片URL拼接的前缀和后缀
+img_start_url = 'http://img.hb.aicdn.com/'
+img_end = '_fw658'
+
+# 图片key的保存文件
+pic_key_file = 'pin_ids.txt'
+
+# 获取pins的正则
+boards_pattern = re.compile(r'pins":(.*)};')
+
+# 修改pin_id的正则
+max_pattern = re.compile(r'(?<=max=)\d*(?=&limit)')
+
+# 图片保存路径
+pic_download_dir = os.path.join(os.getcwd(), 'HuaBan/')
+
+# Ajax模拟的请求头
+ajax_headers = {
+    'Host': 'huaban.com',
+    'Accept': 'application/json',
+    'X-Request': 'JSON',
+    'X-Requested-With': 'XMLHttpRequest'
+}
+
+
+# 以追加的形式往文件中写入内容
+def write_str_data(content, file_path):
+    try:
+        with open(file_path, 'a+', encoding='utf-8') as f:
+            f.write(content + "\n", )
+    except OSError as reason:
+        print(str(reason))
+
+
+# 按行读取文件里的内容添加到列表中返回
+def load_data(file_path):
+    if os.path.exists(file_path):
+        data_list = []
+        with open(file_path, "r+", encoding='utf-8') as f:
+            for ip in f:
+                data_list.append(ip.replace("\n", ""))
+        return data_list
+
+
+# 获得borads页数据，提取key列表写入到文件里，并返回最后一个pid用于后续查询
+def get_boards_index_data(url):
+    print("请求：" + url)
+    resp = r.get(url).text
+    result = boards_pattern.search(resp)
+    json_dict = json.loads(result.group(1))
+    for item in json_dict:
+        write_str_data(item['file']['key'], pic_key_file)
+    # 返回最后一个pin_id
+    pin_id = json_dict[-1]['pin_id']
+    return pin_id
+
+
+# 模拟Ajax请求更多数据
+def get_json_list(url):
+    print("请求：" + url)
+    resp = r.get(url, headers=ajax_headers)
+    if resp is None:
+        return None
+    else:
+        json_dict = json.loads(resp.text)
+        pins = json_dict['board']['pins']
+        if len(pins) == 0:
+            return None
+        else:
+            for item in pins:
+                write_str_data(item['file']['key'], pic_key_file)
+            return pins[-1]['pin_id']
+
+
+# 下载图片的方法
+def download_pic(key):
+    url = img_start_url + key + img_end
+    resp = r.get(url).content
+    try:
+        print("下载图片：" + url)
+        pic_name = key + ".jpg"
+        with open(pic_download_dir + pic_name, "wb+") as f:
+            f.write(resp)
+    except (OSError, r.HTTPError, r.ConnectionError, Exception) as reason:
+        print(str(reason))
+
+
+if __name__ == '__main__':
+    if not os.path.exists(pic_download_dir):
+        os.makedirs(pic_download_dir)
+    # 判断图片key的保存文件是否存在，存在的话删除
+    if os.path.exists(pic_key_file):
+        os.remove(pic_key_file)
+    # 一个画板链接，可自行替换
+    boards_url = 'http://huaban.com/boards/279523/'
+    board_last_pin_id = get_boards_index_data(boards_url)
+    board_json_url = boards_url + '?jl58nz3i&max=43131274&limit=20&wfl=1'
+    while True:
+        board_last_pin_id = get_json_list(max_pattern.sub(str(board_last_pin_id), board_json_url))
+        if board_last_pin_id is None:
+            break
+    pic_url_list = load_data(pic_key_file)
+    for key in pic_url_list:
+        download_pic(key)
+    print("所有图片下载完成～")
@@ -0,0 +1,10 @@
+"""
+selenium使用示例
+"""
+from selenium import webdriver
+
+browser = webdriver.Chrome()  # 调用本地的Chrome浏览器
+browser.get('http://www.baidu.com')  # 请求页面，会打开一个浏览器窗口
+html_text = browser.page_source  # 获得页面代码
+# browser.quit()  # 关闭浏览器
+print(html_text)
@@ -0,0 +1,86 @@
+"""
+selenium爬取简单网无聊图示例
+"""
+import os
+from selenium import webdriver
+import redis
+import requests as r
+from bs4 import BeautifulSoup
+
+# 请求基地址
+base_url = 'http://jandan.net/pic'
+# 图片的保存路径
+pic_save_path = os.path.join(os.getcwd(), 'JianDan/')
+# 图片需要，作为Reids键用
+pic_count = 0
+
+# 下载图片用headers
+pic_headers = {
+    'Host': 'wx2.sinaimg.cn',
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
+                  'Chrome/61.0.3163.100 Safari/537.36 '
+}
+
+
+# 打开浏览器模拟请求
+def browser_get():
+    browser = webdriver.Chrome()
+    browser.get(base_url)
+    html_text = browser.page_source
+    page_count = get_page_count(html_text)
+    # 循环拼接URL访问
+    for page in range(page_count, 0, -1):
+        page_url = base_url + '/page-' + str(page)
+        print('解析：' + page_url)
+        browser.get(page_url)
+        html = browser.page_source
+        get_meizi_url(html)
+    # 没有更多了关闭浏览器
+    browser.quit()
+
+
+# 获取总页码
+def get_page_count(html):
+    bs = BeautifulSoup(html, 'lxml')
+    page_count = bs.find('span', attrs={'class': 'current-comment-page'})
+    return int(page_count.get_text()[1:-1]) - 1
+
+
+# 获取每页的图片
+def get_meizi_url(html):
+    soup = BeautifulSoup(html, 'html.parser')
+    ol = soup.find('ol', attrs={'class': 'commentlist'})
+    href = ol.findAll('a', attrs={'class': 'view_img_link'})
+    global pic_count
+    for a in href:
+        dan_redis.set(str(pic_count), a['href'])
+        pic_count += 1
+
+
+# 下载图片
+def download_pic(url):
+    correct_url = url
+    if url.startswith('//'):
+        correct_url = url[2:]
+    if not url.startswith('http'):
+        correct_url = 'http://' + correct_url
+    print("下载：", correct_url)
+    try:
+        resp = r.get(correct_url, headers=pic_headers).content
+        pic_name = correct_url.split("/")[-1]
+        with open(pic_save_path + pic_name, "wb+") as f:
+            f.write(resp)
+    except (OSError, r.ConnectionError, r.HTTPError, Exception) as reason:
+        print(str(reason))
+
+
+if __name__ == '__main__':
+    pool = redis.ConnectionPool(host='127.0.0.1', port=6379, password='Zpj12345', db=1)
+    dan_redis = redis.StrictRedis(connection_pool=pool)
+    if not os.path.exists(pic_save_path):
+        os.makedirs(pic_save_path)
+    browser_get()
+    results = dan_redis.mget(dan_redis.keys())
+    for result in results:
+        download_pic(result.decode('utf-8'))
+    print("图片下载完毕！")