185-189

jackzhenguo · jackzhenguo · commit d2c9a11bfc32 · 2020-12-28T23:42:21.000+08:00
diff --git a/README.md b/README.md
@@ -263,6 +263,13 @@
 | 182 | [完成数据下采样，调整步长由小时为天](./md/182.md) | pandas resample | v1.0 | ⭐️⭐⭐ |
 | 183 | [如何用 Pandas 快速生成时间序列数据](/md/183.md) | pandas util | v1.0 | ⭐️⭐⭐ |
 | 184 | [如何快速找出 DataFrame 所有列 null 值个数](/md/184.md) | pandas isnull sum | v1.0 | ⭐️⭐⭐ |
+| 185 | [重新排序 DataFrame 的列](/md/185.md) | pandas dataframe | v1.0 | ⭐️⭐⭐ |
+| 186 | [使用 count 统计词条 出现次数](/md/186.md) | pandas count | v1.0 | ⭐️⭐⭐ |
+| 187 | [split 求时分(HH:mm)的分钟差](/md/187.md) | pandas split | v1.0 | ⭐️⭐⭐ |
+| 188 | [melt透视数据小技巧](/md/188.md) | pandas melt | v1.0 | ⭐️⭐⭐ |
+| 189 | [pivot 透视小技巧](/md/189.md) | pandas melt | v1.0 | ⭐️⭐⭐ |
+
+
 
 ### Python 实战
 
diff --git a/md/185.md b/md/185.md
@@ -6,4 +6,30 @@
 @version 
 @date 2020/03/23
 ```
-		     
+
+### 第185个小例子：重新排序 DataFrame 的列
+
+下面给出 2 种简便的小技巧。先构造数据：
+
+```python
+df = pd.DataFrame(np.random.randint(0,20,size=(5,7)) \
+,columns=list('ABCDEFG'))
+df
+```
+
+方法1，直接了当：
+
+```python
+df2 = df[["A", "C", "D", "F", "E", "G", "B"]]
+df2
+```
+
+方法2，也了解下：
+
+```python
+cols = df.columns[[0, 2 , 3, 5, 4, 6, 1]]
+df3 = df[cols]
+df3
+```
+
+也能得到方法1的结果。
diff --git a/md/186.md b/md/186.md
@@ -6,4 +6,37 @@
 @version 
 @date 2020/03/24
 ```
-		     
+
+### 第186个小例子：使用 count 统计词条 出现次数
+
+读入 IMDB-Movie-Data 数据集，1000行数据：
+
+```python
+df = pd.read_csv("../input/imdb-data/IMDB-Movie-Data.csv")
+df['Title']
+```
+
+打印 `Title` 列：
+
+```python
+0      Guardians of the Galaxy
+1                   Prometheus
+2                        Split
+3                         Sing
+4                Suicide Squad
+                ...
+995       Secret in Their Eyes
+996            Hostel: Part II
+997     Step Up 2: The Streets
+998               Search Party
+999                 Nine Lives
+Name: Title, Length: 1000, dtype: object
+```
+
+标题是由几个单词组成，用空格分隔。
+
+```python
+df["words_count"] = df["Title"].str.count(" ") + 1
+df[["Title","words_count"]]
+```
+
diff --git a/md/187.md b/md/187.md
@@ -6,4 +6,26 @@
 @version 
 @date 2020/03/25
 ```
-		     
+
+### 第187个小例子：split 求时分(HH:mm)的分钟差
+
+split 是更加高效的实现，同样需要先转化为 str 类型：
+
+```python
+df['a'] = df['a'].astype(str)
+df['b'] = df['b'].astype(str)
+```
+
+其次 split：
+
+```python
+df['asplit'] = df['a'].str.split(':')
+df['bsplit'] = df['b'].str.split(':')
+```
+
+使用 apply 操作每个元素，转化为分钟数：
+
+```python
+df['amins'] = df['asplit'].apply(lambda x: int(x[0])*60 + int(x[1]))
+df['bmins'] = df['bsplit'].apply(lambda x: int(x[0])*60 + int(x[1]))
+```
diff --git a/md/188.md b/md/188.md
@@ -6,4 +6,64 @@
 @version 
 @date 2020/03/26
 ```
-		     
+
+### 第188个小例子：melt透视数据小技巧
+
+melt 方法固定某列为一个维度，组合其他列名为另一个维度，实现宽表融化为长表：
+
+```python
+   zip_code  factory  warehouse  retail
+0     12345      100        200       1
+1     56789      400        300       2
+2    101112      500        400       3
+3    131415      600        500       4
+```
+
+固定列`zip_code`，组合`factory`，`warehouse`，`retail` 三个列名为一个维度，按照这种方法凑齐两个维度后，数据一定变长。
+
+pandas 的 melt 方法演示如下：
+
+```python
+In [49]: df = df.melt(id_vars = "zip_code") 
+```
+
+若melt方法，参数`value_vars`不赋值，默认剩余所有列都是value_vars，所以结果如下：
+
+```python
+    zip_code   variable  value
+0      12345    factory    100
+1      56789    factory    400
+2     101112    factory    500
+3     131415    factory    600
+4      12345  warehouse    200
+5      56789  warehouse    300
+6     101112  warehouse    400
+7     131415  warehouse    500
+8      12345     retail      1
+9      56789     retail      2
+10    101112     retail      3
+11    131415     retail      4
+```
+
+若只想查看 factory 和 retail，则 `value_vars` 赋值为它们即可：
+
+```python
+In [62]: df_melt2 = df.melt(id_vars = "zip_code",value_vars=['factory','reta
+    ...: il'])  
+```
+
+结果：
+
+```python
+zip_code variable  value
+0     12345  factory    100
+1     56789  factory    400
+2    101112  factory    500
+3    131415  factory    600
+4     12345   retail      1
+5     56789   retail      2
+6    101112   retail      3
+7    131415   retail      4
+```
+
+melt 透视数据后，因为组合多个列为1列，所以数据一定变长。
diff --git a/md/189.md b/md/189.md
@@ -6,4 +6,44 @@
 @version 
 @date 2020/03/27
 ```
-		     
+
+### 第189个小例子： pivot 透视小技巧
+
+melt 是融化数据，而 `pivot` 结冰数据，它们是一对互逆操作。
+
+这是上面 melt 后的数据：
+
+```python
+zip_code variable  value
+0     12345  factory    100
+1     56789  factory    400
+2    101112  factory    500
+3    131415  factory    600
+4     12345   retail      1
+5     56789   retail      2
+6    101112   retail      3
+7    131415   retail      4
+```
+
+现在想要还原为：
+
+```python
+variable factory retail
+zip_code               
+12345        100      1
+56789        400      2
+101112       500      3
+131415       600      4
+```
+
+如何实现？
+
+使用 `pivot` 方法很容易做到：
+
+```python
+df_melt2.pivot(index='zip_code',columns='variable')
+```
+
+index 设定第一个轴，为 zip_code，columns 设定哪些列或哪个列的不同取值组合为一个轴，此处设定为 variable 列，它一共有 2 种不同的取值，分别为 factory, retail，pivot 透视后变为列名，也就是 axis = 1 的轴
+
+pivot 方法没有聚合功能，它的升级版为 `pivot_table` 方法，能对数据聚合。