zhaozhengcoder
diff --git a/‎常用的机器学习算法/xgboost/adaboost/adaboost.py
Lines changed: 7 additions & 0 deletions b/‎常用的机器学习算法/xgboost/adaboost/adaboost.py
Lines changed: 7 additions & 0 deletions
diff --git a/‎常用的机器学习算法/xgboost/adaboost/readme.md
Lines changed: 3 additions & 0 deletions b/‎常用的机器学习算法/xgboost/adaboost/readme.md
Lines changed: 3 additions & 0 deletions
diff --git a/‎序列预测/PCA去趋势化/Figure_12.png
89.2 KB b/‎序列预测/PCA去趋势化/Figure_12.png
89.2 KB
diff --git a/‎序列预测/PCA去趋势化/dev/1.xls
1.4 MB b/‎序列预测/PCA去趋势化/dev/1.xls
1.4 MB
diff --git a/‎序列预测/PCA去趋势化/dev/10.xls
1.4 MB b/‎序列预测/PCA去趋势化/dev/10.xls
1.4 MB
diff --git a/‎序列预测/PCA去趋势化/dev/11.xls
1.48 MB b/‎序列预测/PCA去趋势化/dev/11.xls
1.48 MB
diff --git a/‎序列预测/PCA去趋势化/dev/12.xls
333 KB b/‎序列预测/PCA去趋势化/dev/12.xls
333 KB
diff --git a/‎序列预测/PCA去趋势化/dev/13.xls
1.57 MB b/‎序列预测/PCA去趋势化/dev/13.xls
1.57 MB
diff --git a/‎序列预测/PCA去趋势化/dev/14.xls
1.15 MB b/‎序列预测/PCA去趋势化/dev/14.xls
1.15 MB
diff --git a/‎序列预测/PCA去趋势化/dev/15.xls
1.56 MB b/‎序列预测/PCA去趋势化/dev/15.xls
1.56 MB
diff --git a/‎序列预测/PCA去趋势化/dev/16.xls
1.56 MB b/‎序列预测/PCA去趋势化/dev/16.xls
1.56 MB
diff --git a/‎序列预测/PCA去趋势化/dev/17.xls
1.15 MB b/‎序列预测/PCA去趋势化/dev/17.xls
1.15 MB
diff --git a/‎序列预测/PCA去趋势化/dev/18.xls
1.57 MB b/‎序列预测/PCA去趋势化/dev/18.xls
1.57 MB
diff --git a/‎序列预测/PCA去趋势化/dev/19.xls
329 KB b/‎序列预测/PCA去趋势化/dev/19.xls
329 KB
diff --git a/‎序列预测/PCA去趋势化/dev/2.xls
1.41 MB b/‎序列预测/PCA去趋势化/dev/2.xls
1.41 MB
diff --git a/‎序列预测/PCA去趋势化/dev/20.xls
1.47 MB b/‎序列预测/PCA去趋势化/dev/20.xls
1.47 MB
diff --git a/‎序列预测/PCA去趋势化/dev/3.xls
1.5 MB b/‎序列预测/PCA去趋势化/dev/3.xls
1.5 MB
diff --git a/‎序列预测/PCA去趋势化/dev/4.xls
1.55 MB b/‎序列预测/PCA去趋势化/dev/4.xls
1.55 MB
diff --git a/‎序列预测/PCA去趋势化/dev/5.xls
1.37 MB b/‎序列预测/PCA去趋势化/dev/5.xls
1.37 MB
diff --git a/‎序列预测/PCA去趋势化/dev/6.xls
1.36 MB b/‎序列预测/PCA去趋势化/dev/6.xls
1.36 MB
diff --git a/‎序列预测/PCA去趋势化/dev/7.xls
1.55 MB b/‎序列预测/PCA去趋势化/dev/7.xls
1.55 MB
diff --git a/‎序列预测/PCA去趋势化/dev/8.xls
1.5 MB b/‎序列预测/PCA去趋势化/dev/8.xls
1.5 MB
diff --git a/‎序列预测/PCA去趋势化/dev/9.xls
1.4 MB b/‎序列预测/PCA去趋势化/dev/9.xls
1.4 MB
diff --git a/‎序列预测/PCA去趋势化/dev/dump-qq.txt
517 KB b/‎序列预测/PCA去趋势化/dev/dump-qq.txt
517 KB
diff --git a/‎序列预测/PCA去趋势化/dev/dump.txt
101 KB b/‎序列预测/PCA去趋势化/dev/dump.txt
101 KB
diff --git a/‎序列预测/PCA去趋势化/dev/main.py
Lines changed: 55 additions & 0 deletions b/‎序列预测/PCA去趋势化/dev/main.py
Lines changed: 55 additions & 0 deletions
diff --git a/‎序列预测/PCA去趋势化/dev/utils_xls.py
Lines changed: 174 additions & 0 deletions b/‎序列预测/PCA去趋势化/dev/utils_xls.py
Lines changed: 174 additions & 0 deletions
diff --git a/‎序列预测/PCA去趋势化/lstm_new.py
Lines changed: 10 additions & 4 deletions b/‎序列预测/PCA去趋势化/lstm_new.py
Lines changed: 10 additions & 4 deletions
@@ -0,0 +1,7 @@
+
+
+def creatdataset():
+    x=[0,1,2,3,4,5,6,7,8,9]
+    y=[1,1,1,-1,-1,-1,1,1,1,-1]
+    return x,y
+
@@ -0,0 +1,3 @@
+### adaboost 
+
+《统计学习方法》上面的例子
@@ -0,0 +1,55 @@
+import numpy as np 
+import pickle
+import tensorflow as tf
+
+abs_path='C:/Users/wwwa8/Documents/GitHub/Machine-Learning/序列预测/PCA去趋势化/dev/'
+
+
+#原始的data里面的数据格式是dataframe，arr改成了里面也是list
+def transfer(data):
+    vol_col_index = 1 # 找到流量对应的列
+    height = len(data)
+    width = data[0].shape[0]
+
+    arr = np.zeros((height, width))
+    for i in range(height):
+        for j in range(width):
+            arr[i,j]=data[i].iloc[j,vol_col_index]
+    return arr
+
+
+def createdataset(data):
+    dataset=[]
+    for road in data:     #对于某一条路的数据
+        dataset.append(transfer(road))
+    return dataset 
+
+def myload():
+    filename ='dump.txt'
+    f = open(abs_path+filename,'rb')
+    data =pickle.load(f)
+    f.close()
+    #print (data)   # 路段数 * 每个路段的信息（df的数据结构）
+    return data
+
+
+def split_dataset(arr):
+    trainX=[]
+    trainY=[]
+    trainX_len = 2 #使用3天预测一天
+    trainY_len = 1 #使用3天预测一天
+    day = 24*60
+    merge_step = 3 
+    daylen =day/merge_step
+
+    days = arr.shape[1]/daylen  #总天数
+    for i in range(0,days-(trainX_len+trainY_len-1)):
+        trainX.append(arr[ i*daylen            :(i+trainX_len)*daylen]           )
+        trainY.append(arr[(i+trainX_len)*daylen:(i+trainX_len+trainY_len)*daylen])
+    return trainX,trainY
+    
+
+if __name__=="__main__":
+    data = myload()
+    #transfer
+    dataset = createdataset(data)  #dataset 的格式是 （路段 * 每一天 * 一天内的数据）
@@ -0,0 +1,174 @@
+import pandas as pd 
+from datetime import datetime 
+import os 
+import numpy as np 
+import matplotlib.pyplot as plt 
+import pickle
+
+def read_excel(filepath):
+    df = pd.read_excel(filepath,skip_footer=1)
+    df.drop_duplicates('last-update-time','first',inplace=True)
+    # todo
+    df.index = df['last-update-time']
+    return df 
+
+def select_oneday(df,day):
+    #print ("123")
+    select_str = '2012-11-'+str(day)
+    ret_df = df[select_str]
+    return ret_df
+
+def save(dfs,days):
+    for df ,day in zip(dfs,days):
+        df.to_csv(str(day)+'.csv')
+
+def find_col_index(df,columns_name):
+    for i in range(len(df.columns)):
+        if df.columns[i]==columns_name:
+            return i 
+    sys.exit("sorry, find_col_index can't find correct colnums_name .")
+
+
+def fill_df(result_df):
+    speed_col_index = find_col_index(result_df[0],'speed')
+    vol_col_index = find_col_index(result_df[0],'vol')
+
+    for df_index in range(len(result_df)):
+        for i in range(result_df[df_index].shape[0]):
+            if np.isnan(result_df[df_index].iloc[i,speed_col_index]):
+                if df_index ==0:  #从后面找
+                    find_index=df_index+1
+                    while find_index < len(result_df):
+                        if np.isnan(result_df[find_index].iloc[i,speed_col_index])==False:
+                            result_df[df_index].iloc[i,speed_col_index] = result_df[find_index].iloc[i,speed_col_index]
+                            result_df[df_index].iloc[i,vol_col_index]   = result_df[find_index].iloc[i,vol_col_index]
+                            break
+                        find_index+=1
+                else:   #从前面找
+                    result_df[df_index].iloc[i,speed_col_index] = result_df[df_index-1].iloc[i,speed_col_index]
+                    result_df[df_index].iloc[i,vol_col_index]   = result_df[df_index-1].iloc[i,vol_col_index]
+
+def default_fill(result_df):
+    for i in range(len(result_df)):
+        result_df[i]=result_df[i].fillna(method='ffill')
+    for i in range(len(result_df)):
+        result_df[i]=result_df[i].fillna(method='bfill')
+    return result_df
+
+
+# 把数据换成一天时间的点
+def generate_data_byday(df,day,begin_hour=0,end_hour=24):
+    newdf = pd.DataFrame(columns=['road','vol','speed','last-update-time'])
+    name = df['road'][0]
+    date = '2012-11-'+str(day)
+    for hour in range(begin_hour,end_hour):
+        for minute in range(0,60):
+            vol_item = np.nan
+            speed_item = np.nan
+            select_str = date+" "+str(hour)+":"+str(minute)
+            if select_str in df.index:
+                vol_item = df[select_str]['vol'][0]
+                speed_item = df[select_str]['speed'][0]
+            newdf.loc[newdf.shape[0]]=[name,vol_item,speed_item,select_str]
+    return newdf
+
+
+def df_filter(dfs):
+    for df in dfs:
+        df['speed']=df['speed'].apply(lambda x : min(x,110))
+        df['speed']=df['speed'].apply(lambda x : max(x,10))
+
+
+# 数据是0的点的占比
+def miss_rate(data,colname='speed'):
+    df = pd.isnull(data[colname])
+    df_list = df.tolist()
+    miss_rate = sum(df_list)/float(len(df_list))
+    print ("col : ",colname,", miss rate is : ",miss_rate)
+    #return miss_rate
+
+
+# 将dfs聚合
+def merge_dfs(dfs,merge_step=3):
+    begin = 0
+    end = int(dfs[0].shape[0]/3)
+    ret_dfs=[]
+
+    for df in dfs:
+        ret_df = pd.DataFrame(columns=['road','vol','speed','last-update-time'])
+        for step in range(begin,end):
+            vol_item = df.iloc[step*merge_step:(step+1)*merge_step]['vol'].mean()
+            speed_item =  df.iloc[step*merge_step:(step+1)*merge_step]['speed'].mean()
+            name = df.iloc[step*merge_step]['road']
+            time = df.iloc[step*merge_step]['last-update-time']
+            ret_df.loc[ret_df.shape[0]]=[name,vol_item,speed_item,time]
+        ret_dfs.append(ret_df)
+    print ("ori dfs shape is : ",dfs[0].shape)
+    print ("ret dfs shape is : ",ret_dfs[0].shape)
+    return ret_dfs
+
+
+def heatmap2(data):
+    speed_col_index = 2
+
+    height = len(data)
+    width = data[0].shape[0]
+    arr = np.zeros((height, width))
+
+    for i in range(height):
+        for j in range(width):
+            arr[i,j]=data[i].iloc[j,speed_col_index]
+    plt.matshow(arr, cmap='hot')
+    plt.colorbar()
+    plt.show()
+
+def mypickle(filepath,data):
+    f=open(abs_path+filepath,'wb')
+    pickle.dump(data,f)
+    f.close()
+
+
+abs_path='C:/Users/wwwa8/Documents/GitHub/Machine-Learning/序列预测/PCA去趋势化/dev/'
+
+if __name__=="__main__":
+    road_dfs=[]
+    #每一个filename表示一条路的数据
+    for filename in range(1,3):
+        #filepath='1.xls'
+        filepath = abs_path+str(filename)+'.xls'
+        df = read_excel(filepath)
+        #起始日期
+        days=range(8,10)
+        #每一天每一分钟对应一个点的格式
+        dfs=[]
+        begin_hour = 0
+        end_hour = 24
+        for day in days:
+            dfs.append(generate_data_byday(df,day,begin_hour,end_hour))
+        for df in dfs:
+            miss_rate(df)
+        fill_df(dfs)
+        for df in dfs:
+            miss_rate(df)
+        
+        #填充nan
+        dfs = default_fill(dfs)
+        #过滤异常值，特别大的，特别小的
+        df_filter(dfs)
+        #merge 按几分钟来聚合数据
+        dfs = merge_dfs(dfs,merge_step=3)
+        print ("dfs shape : ",len(dfs))
+        road_dfs.append(dfs)
+
+    #data的第一维度表示路段，第二维度表示以merge_step聚合之后的数据
+    #data =[] 
+    #for road in road_dfs:
+    #    data.append(road[0])  #road是一个list，长度是1，相当于把pandas的数据结构封装在的road[0]里面，通过road[0]来获得数据
+
+    #绘制热力图
+    #heatmap2(data)
+
+    #序列化
+    mypickle('dump.txt',road_dfs)
+
+    
@@ -22,7 +22,14 @@ def myload(filename):
     f.close()
     return data
 
-rest_x = myload("dump_rest_x_9-13.txt")
+#rest_x = myload("dump_rest_x_9-13.txt")
+#arr = myload("dump_arr_9-13.txt")
+#main_x = myload("dump_main_x_9-13.txt")
+
+rest_x = myload("dump_rest_x.txt")
+arr = myload("dump_arr.txt")
+main_x = myload("dump_main_x.txt")
+
 
 rest_x = rest_x.reshape(-1,1)
 
@@ -71,7 +78,7 @@ def create_dataset(dataset, look_back=1):
 model.add(LSTM(3, input_shape=(1, look_back)) )
 model.add(Dense(1)) 
 model.compile(loss='mean_squared_error', optimizer='adam') 
-model.fit(trainX, trainY, epochs=30, batch_size=1, verbose=2)
+model.fit(trainX, trainY, epochs=20, batch_size=1, verbose=2)
 
 # make predictions
 trainPredict = model.predict(trainX)
@@ -118,8 +125,7 @@ def create_dataset(dataset, look_back=1):
 
 # Test Score: 11.96 RMSE
 
-arr = myload("dump_arr_9-13.txt")
-main_x = myload("dump_main_x_9-13.txt")
+
 
 arr = arr.reshape(-1,1)
 main_x = main_x.reshape(-1,1)
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+### adaboost`
	`2`	`+`
	`3`	`+《统计学习方法》上面的例子`