wc012
diff --git a/‎xianhuan/disspider/spider-project/CHECK_DATA.md
Lines changed: 49 additions & 0 deletions b/‎xianhuan/disspider/spider-project/CHECK_DATA.md
Lines changed: 49 additions & 0 deletions
diff --git a/‎xianhuan/disspider/spider-project/README.md
Lines changed: 8 additions & 0 deletions b/‎xianhuan/disspider/spider-project/README.md
Lines changed: 8 additions & 0 deletions
diff --git a/‎xianhuan/disspider/spider-project/__init__.py
Lines changed: 5 additions & 0 deletions b/‎xianhuan/disspider/spider-project/__init__.py
Lines changed: 5 additions & 0 deletions
diff --git a/‎xianhuan/disspider/spider-project/__pycache__/main.cpython-39.pyc
1.4 KB b/‎xianhuan/disspider/spider-project/__pycache__/main.cpython-39.pyc
1.4 KB
diff --git a/‎xianhuan/disspider/spider-project/__pycache__/setting.cpython-39.pyc
336 Bytes b/‎xianhuan/disspider/spider-project/__pycache__/setting.cpython-39.pyc
336 Bytes
diff --git a/‎xianhuan/disspider/spider-project/items/__init__.py
Lines changed: 3 additions & 0 deletions b/‎xianhuan/disspider/spider-project/items/__init__.py
Lines changed: 3 additions & 0 deletions
diff --git a/‎xianhuan/disspider/spider-project/items/__pycache__/__init__.cpython-39.pyc
164 Bytes b/‎xianhuan/disspider/spider-project/items/__pycache__/__init__.cpython-39.pyc
164 Bytes
diff --git a/‎xianhuan/disspider/spider-project/items/__pycache__/report_item.cpython-39.pyc
1.43 KB b/‎xianhuan/disspider/spider-project/items/__pycache__/report_item.cpython-39.pyc
1.43 KB
diff --git a/‎xianhuan/disspider/spider-project/items/report_item.py
Lines changed: 45 additions & 0 deletions b/‎xianhuan/disspider/spider-project/items/report_item.py
Lines changed: 45 additions & 0 deletions
diff --git a/‎xianhuan/disspider/spider-project/main.py
Lines changed: 79 additions & 0 deletions b/‎xianhuan/disspider/spider-project/main.py
Lines changed: 79 additions & 0 deletions
@@ -0,0 +1,49 @@
+# 数据审核 
+## 表说明：
+
+> 表名 含义（更新策略）
+
+## 一、准确性
+
+**字段设计是否满足需求？ 表之间的关联字段是否满足要求？ （需要人工检查）**
+
+> 注意：是否设计了自增 id，id 的类型是否设置为 bigint？
+> 注意：unique index 是否需要设计？
+> 注意：各张表之间是否需要设计关联字段；
+
+* [ ] 是
+* [ ] 否
+
+**各字段采集内容及存储格式是否满足要求？是否与网页一致？是否有信息缺失？**
+
+> 备注：可尝试对每个字段进行升降序排列，然后抽样检查；
+     
+**是否考虑了网站同一类数据可能出现的数据格式不一致情况？**
+
+> 建议：代码对各个字段不做兼容性处理、数据不一致则抛出异常并记录 
+
+* [ ] 是
+* [ ] 否
+
+## 二、全量性
+
+**如果是增量采集，是否最早信息和最晚信息都采集了，同时条目总数是否正确；**
+**如果是批次采集，是否每个批次都有？**
+
+>备注：需要去网页端评估单个批次的总量；
+>参考sql语句：SELECT count(1), batch_date from [table_name] GROUP BY batch_date;
+
+**如果与另外一张表有关联关系，是否信息关联完整？**
+
+## 三、稳定性
+
+* [ ] 是否能够长期稳定采集？ 
+* [ ] 是否加IP代理？
+* [ ] 是否支持断点续跑?
+* [ ] 是否能确保按时启动，定期采集?
+* [ ] 是否已开启报警？ 
+
+## 四、采集频次、类型、存储方式
+
+* [ ] 采集频次是否满足要求？
+* [ ] 采集类型是否满足要求：增量采集 or 批次采集? 
@@ -0,0 +1,8 @@
+# xxx爬虫文档
+## 调研
+
+## 数据库设计
+
+## 爬虫逻辑
+
+## 项目架构
@@ -0,0 +1,5 @@
+__all__ = [
+    "main",
+    "setting",
+    "spider_test"
+]
@@ -0,0 +1,3 @@
+__all__ = [
+    "report_item"
+]
@@ -0,0 +1,45 @@
+# -*- coding: utf-8 -*-
+"""
+Created on 2021-09-19 17:32:59
+---------
+@summary:
+---------
+@author: cxhuan
+"""
+
+from feapder import Item
+
+
+class ReportItem(Item):
+    """
+    This class was generated by feapder.
+    command: feapder create -i report 1.
+    """
+
+    __table_name__ = "report"
+
+    def __init__(self, *args, **kwargs):
+        self.count = kwargs.get('count')
+        self.emRatingName = kwargs.get('emRatingName')  # 评级名称
+        self.emRatingValue = kwargs.get('emRatingValue')  # 评级代码
+        self.encodeUrl = kwargs.get('encodeUrl')  # 链接
+        # self.id = kwargs.get('id')
+        self.indvInduCode = kwargs.get('indvInduCode')  # 行业代码
+        self.indvInduName = kwargs.get('indvInduName')  # 行业名称
+        self.lastEmRatingName = kwargs.get('lastEmRatingName')  # 上次评级名称
+        self.lastEmRatingValue = kwargs.get('lastEmRatingValue')  # 上次评级代码
+        self.orgCode = kwargs.get('orgCode')  # 机构代码
+        self.orgName = kwargs.get('orgName')  # 机构名称
+        self.orgSName = kwargs.get('orgSName')  # 机构简称
+        self.predictNextTwoYearEps = kwargs.get('predictNextTwoYearEps')
+        self.predictNextTwoYearPe = kwargs.get('predictNextTwoYearPe')
+        self.predictNextYearEps = kwargs.get('predictNextYearEps')
+        self.predictNextYearPe = kwargs.get('predictNextYearPe')
+        self.predictThisYearEps = kwargs.get('predictThisYearEps')
+        self.predictThisYearPe = kwargs.get('predictThisYearPe')
+        self.publishDate = kwargs.get('publishDate')  # 发表时间
+        self.ratingChange = kwargs.get('ratingChange')  # 评级变动
+        self.researcher = kwargs.get('researcher')  # 研究员
+        self.stockCode = kwargs.get('stockCode')  # 股票代码
+        self.stockName = kwargs.get('stockName')  # 股票简称
+        self.title = kwargs.get('title')  # 报告名称
@@ -0,0 +1,79 @@
+# -*- coding: utf-8 -*-
+"""
+Created on 2021-09-18 18:56:20
+---------
+@summary: 爬虫入口
+---------
+@author: cxhuan
+"""
+
+from feapder import ArgumentParser
+
+from spiders import *
+
+def crawl_xxx():
+    """
+    AirSpider爬虫
+    """
+    spider = xxx.XXXSpider()
+    spider.start()
+
+def crawl_xxx():
+    """
+    Spider爬虫
+    """
+    spider = xxx.XXXSpider(redis_key="xxx:xxx")
+    spider.start()
+
+
+def crawl_xxx(args):
+    """
+    BatchSpider爬虫
+    """
+    spider = xxx_spider.XXXSpider(
+        task_table="",  # mysql中的任务表
+        batch_record_table="",  # mysql中的批次记录表
+        batch_name="xxx(周全)",  # 批次名字
+        batch_interval=7,  # 批次时间 天为单位 若为小时 可写 1 / 24
+        task_keys=["id", "xxx"],  # 需要获取任务表里的字段名，可添加多个
+        redis_key="xxx:xxxx",  # redis中存放request等信息的根key
+        task_state="state",  # mysql中任务状态字段
+    )
+
+    if args == 1:
+        spider.start_monitor_task()
+    elif args == 2:
+        spider.start()
+    elif args == 3:
+        spider.init_task()
+
+
+if __name__ == "__main__":
+    parser = ArgumentParser(description="xxx爬虫")
+
+    parser.add_argument(
+        "--crawl_xxx", action="store_true", help="xxx爬虫", function=crawl_xxx
+    )
+    parser.add_argument(
+        "--crawl_xxx", action="store_true", help="xxx爬虫", function=crawl_xxx
+    )
+    parser.add_argument(
+        "--crawl_xxx",
+        type=int,
+        nargs=1,
+        help="xxx爬虫",
+        choices=[1, 2, 3],
+        function=crawl_xxx,
+    )
+
+    parser.start()
+
+    # main.py作为爬虫启动的统一入口，提供命令行的方式启动多个爬虫，若只有一个爬虫，可不编写main.py
+    # 将上面的xxx修改为自己实际的爬虫名
+    # 查看运行命令 python main.py --help
+    # AirSpider与Spider爬虫运行方式 python main.py --crawl_xxx
+    # BatchSpider运行方式
+    # 1. 下发任务：python main.py --crawl_xxx 1
+    # 2. 采集：python main.py --crawl_xxx 2
+    # 3. 重置任务：python main.py --crawl_xxx 3
+
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+__all__ = [`
	`2`	`+ "report_item"`
	`3`	`+]`