Handle-Missing-Value-II.Rmd

---
title: "<img src='www/binary-logo-resize.jpg' width='240'>"
subtitle: "[binary.com](https://github.com/englianhu/binary.com-interview-question) 面试试题 I - 多变量数据缺失值管理 II"
author: "[®γσ, Lian Hu（黄联富）](https://englianhu.github.io/) <img src='www/RYO.jpg' width='24'> <img src='www/RYU.jpg' width='24'> <img src='www/ENG.jpg' width='24'>®"
date: "`r lubridate::today('Asia/Tokyo')`"
output:
  html_document: 
    number_sections: yes
    toc: yes
    toc_depth: 4
    toc_float:
      collapsed: yes
      smooth_scroll: yes
    code_folding: hide
---

```{r setup}
suppressPackageStartupMessages(require('BBmisc'))

## 读取程序包
pkg <- c('devtools', 'tidyverse', 'timetk', 'lubridate', 'plyr', 'dplyr', 'magrittr', 'purrr', 'stringr', 'reshape', 'formattable', 'microbenchmark', 'knitr', 'kableExtra', 'VIM', 'mice', 'miceAdds', 'mi', 'mitools', 'Amelia', 'missForest', 'Hmisc', 'DMwR', 'imputeTS', 'tidyimpute', 'mtsdi', 'xts', 'forecast', 'marima', 'missMDA')

suppressAll(lib(pkg))
funs <- c('convertOHLC.R')
l_ply(funs, function(x) source(paste0('./function/', x)))

algo <- c('interpolation', 'locf', 'mean', 'random', 'kalman', 'ma')
rm(pkg, funs)
```

# 简介

## 介绍弥补数据

由于在科研[binary.com Interview Question I - Interday High Frequency Trading Models Comparison](https://rpubs.com/englianhu/binary-Q1Inter-HFT)测试高频率量化交易时，从[fxcm/MarketData](https://github.com/fxcm/MarketData)下载的数据并不完整^[欲知更多详情，请查阅[binary.com Interview Question I - Interday High Frequency Trading Models Comparison](https://rpubs.com/englianhu/binary-Q1Inter-HFT)。]，[binary.com 面试试题 I - 单变量数据缺失值管理](http://rpubs.com/englianhu/handle-missing-value)尝试弥补缺失值不果，单变量无法辨认开市价、最高价、最低价和闭市价之间的关系。

- [How to use auto.arima to impute missing values](https://stats.stackexchange.com/questions/104565/how-to-use-auto-arima-to-impute-missing-values)使用`auto.arima()`来弥补缺失值。
- [What should be the allowed percentage of Missing Values?](https://discuss.analyticsvidhya.com/t/what-should-be-the-allowed-percentage-of-missing-values/2456)讨论着一个数据最多可以允许20%~30%的缺失值，过多的缺失值的话，该数据基本上就无法使用了。一些统计学家有本事将50%缺失值的数据复原，不过是基于许多附属变量和数据才能弥补回数据。
- [Principled Missing Data Methods for Researchers](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3701793/)讲述许多弥补数据缺失值的方法与数学模式。
- [Imputation methods for time series data](https://stats.stackexchange.com/questions/261271/imputation-methods-for-time-series-data)
- [Imputing Missing Observation in Multivariate Time Series](https://stats.stackexchange.com/questions/103968/imputing-missing-observation-in-multivariate-time-series)
- [`imputeTS`: Time Series Missing Value Imputation in R](https://journal.r-project.org/archive/2017/RJ-2017-009/index.html)
- [How to Handle Missing Data](https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4)

## `impueTS`程序包

<span style='color:goldenrod'>*imputeTS - Time Series Missing Value Imputation in R*</span>讲述`mice`、`Amelia`、`missMDA`与`VIM`都是多变量弥补数据程序包，而`imputeTS`乃单变量弥补数据程序包，不过程序包中的`seadec()`函数乃弥补季节性数据。

| Simple     | Imputation Imputation | Plots & Statistics     | Datasets          |
|:----------:|:---------------------:|:----------------------:|:-----------------:|
| na.locf    | na.interpolation      | plotNA.distribution    | tsAirgap          |
| na.mean    | na.kalman             | plotNA.distributionBar | tsAirgapComplete  |
| na.random  | na.ma                 | plotNA.gapsize         | tsHeating         |
| na.replace | na.seadec             | plotNA.imputations     | tsHeatingComplete |
| na.remove  | na.seasplit           | statsNA                | tsNH4             |
|            |                       |                        | tsNH4Complete     |

*Table 1: General Overview imputeTS package*

| Function          | Option      | Description                                                     |
|:-----------------:|:-----------:|:---------------------------------------------------------------:|
| na.interpolation  | linear      | Imputation by Linear Interpolation                              |
|                   | spline      | Imputation by Spline Interpolation                              |
|                   | stine       | Imputation by Stineman Interpolation                            |
|                   |             |                                                                 |
| na.kalman         | StructTS    | Imputation by Structural Model & Kalman Smoothing               |
|                   | auto.arima  | Imputation by ARIMA State Space Representation & Kalman Sm.     |
|                   |             |                                                                 |
| na.locf           | locf        | Imputation by Last Observation Carried Forward                  |
|                   | nocb        | Imputation by Next Observation Carried Backward                 |
|                   |             |                                                                 |
| na.ma             | simple      | Missing Value Imputation by Simple Moving Average               |
|                   | linear      | Missing Value Imputation by Linear Weighted Moving Average      |
|                   | exponential | Missing Value Imputation by Exponential Weighted Moving Average |
|                   |             |                                                                 |
| na.mean           | mean        | MissingValue Imputation by Mean Value                           |
|                   | median      | Missing Value Imputation by Median Value                        |
|                   | mode        | Missing Value Imputation by Mode Value                          |
|                   |             |                                                                 |
| na.random         |             | Missing Value Imputation by Random Sample                       |
| na.replace        |             | Replace Missing Values by a Defined Value                       |
| na.seadec         |             | Seasonally Decomposed Missing Value Imputation                  |
| na.seasplit       |             | Seasonally Splitted Missing Value Imputation                    |
| na.remove         |             | Remove Missing Values                                           |

*Table 3: Overview Imputation Algorithms*

## `Amelia`程序包

[Amelia II: A Program for Missing Data](https://gking.harvard.edu/amelia)介绍`Amelia`程序包，而<span style='color:goldenrod'>*AMELIA II - A Program for Missing Data*</span>教导如何使用该程序包。[Error in as.POSIXct.numeric(value) : 'origin' must be supplied #18](https://github.com/IQSS/Amelia/issues/18)显示时间变量无法弥补，故此对于`Amelia`缺失值，僕得省略掉时间变量，仅设置价格变量为缺失值而已。

## 其它程序包

`mice`程序包可以使用`lm`函数将弥补数据线型化，`tidyr`程序包中有个`fill()`函数可以。而`dendextend::na_locf()`会比`zoo::na.locf()`高效率，不过弥补数据时会遇到一些参数问题。

# 数据

## 读取数据

### 1分钟数据

和之前的单变量一样，首先僕随机导入每分钟为1个时间单位的数据。

```
Error in optim(init[mask], getLike, method = "L-BFGS-B", lower = rep(0, : L-BFGS-B needs finite values of 'fn'
17. optim(init[mask], getLike, method = "L-BFGS-B", lower = rep(0, np + 1L), upper = rep(Inf, np + 1L), control = optim.control)
16. StructTS(data, ...)
15. na.kalman(data, ...)
14. apply.base.algorithm(data, algorithm = algorithm, ...)
13. .f(.x[[i]], ...)
12. map(., na.seadec, algorithm = x)
11. function_list[[i]](value)
10. freduce(value, `_function_list`)
9. `_fseq`(`_lhs`)
8. eval(quote(`_fseq`(`_lhs`)), env, env)
7. eval(quote(`_fseq`(`_lhs`)), env, env)
6. withVisible(eval(quote(`_fseq`(`_lhs`)), env, env))
5. data_m1_NA %>% dplyr::select(starts_with("Ask"), starts_with("Bid")) %>% map(na.seadec, algorithm = x) %>% as.tibble
4. FUN(X[[i]], ...)
3. lapply(pieces, .fun, ...)
2. structure(lapply(pieces, .fun, ...), dim = dim(pieces))
1. llply(algo, function(x) { data_m1_NA %>% dplyr::select(starts_with("Ask"), starts_with("Bid")) %>% map(na.seadec, algorithm = x) %>% as.tibble })
```

由于频频出现错误信息[#imputeTS/issues/26](https://github.com/SteffenMoritz/imputeTS/issues/26)，于此僕使用sort(sample(length(fls), 1))随机筛选1个文件。

```{r warning=FALSE, message=FALSE}
pth <- 'C:/Users/scibr/Documents/GitHub/scibrokes/real-time-fxcm/data/USDJPY/'
fls <- list.files(pth, pattern = '^Y[0-9]{4}W[1-9]{1,2}_m1.rds$')

## 1分钟数据
## 由于频频出现错误信息，于此僕使用sort(sample(length(fls), 1))随机筛选4个文件。
data_m1 <- llply(fls[sort(sample(length(fls), 1))], function(x) {
    y <- readRDS(paste0(pth, x)) %>% 
      dplyr::rename(index = DateTime) %>% 
      mutate(index = index %>% mdy_hms %>% 
               .POSIXct(tz = 'Europe/Athens') %>% 
               force_tz())
    
    yw <- x %>% str_extract_all('Y[0-9]{4}W[0-9]{1,2}') %>% 
      str_split_fixed('[A-Z]{1}', 3) %>% .[,-1]
    
    nch <- y$index[1] %>% substr(nchar(.)+2, nchar(.)+3)
    y %<>% mutate(
      year = as.numeric(yw[1]), week = as.numeric(yw[2]), 
      nch = nch, index = if_else(
        nch == '23', index + hours(1), index)) %>% 
      dplyr::select(-nch)
    }) %>% bind_rows %>% tbl_df %>% arrange(index)
dim(data_m1)

data_m1

## 检验原始数据是否存在偏差。
data_m1 %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1 %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1) %>% 
  kable(caption = 'Bias Imputation') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')

```

### Tick数据转为1分钟数据

接着，导入Tick数据^[欲知更多详情，请参阅[一、什么是Tick Data](https://www.fmz.com/bbs-topic/457)。]，并且转为每分钟为1时间单位。

```{r, warning=FALSE, message=FALSE}
pth <- 'C:/Users/scibr/Documents/GitHub/scibrokes/real-time-fxcm/data/USDJPY/'
fls <- list.files(pth, pattern = '^Y[0-9]{4}W[1-9]{1,2}.rds$')

## Tick数据转为1分钟数据
## 由于频频出现错误信息，于此僕使用sort(sample(length(fls), 1))随机筛选2个文件。
data_tm1 <- llply(fls[sort(sample(length(fls), 1))], function(x) {
    y <- readRDS(paste0(pth, x)) %>% 
      convertOHLC(combine = TRUE)
    
    yw <- x %>% str_extract_all('Y[0-9]{4}W[0-9]{1,2}') %>% 
      str_split_fixed('[A-Z]{1}', 3) %>% .[,-1]
    y %<>% mutate(
      year = as.numeric(yw[1]), week = as.numeric(yw[2]), .)
    }) %>% bind_rows %>% tbl_df %>% arrange(index)
dim(data_tm1)

data_tm1

## 检验原始数据是否存在偏差。
data_tm1 %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1 %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1) %>% 
  kable(caption = 'Bias Imputation') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')
```

## 设置缺失值

### 1分钟数据

现在尝试随机设置缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(index, BidOpen, BidHigh, BidLow, BidClose, AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.01)
data_m1_NA

data_m1_NA %>% md.pattern
data_m1_NA %>% md.pairs
```

### Tick数据转为1分钟数据

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(index, BidOpen, BidHigh, BidLow, BidClose, AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.01)
data_tm1_NA

data_tm1_NA %>% md.pattern
data_tm1_NA %>% md.pairs
```

# 统计模式

## 弥补缺失值

- [Imputing missing data with R; MICE package](https://www.r-bloggers.com/imputing-missing-data-with-r-mice-package/)
- [mice - Multivariate Imputation by Chained Equations in R](https://github.com/englianhu/binary.com-interview-question/blob/master/reference/mice%20Multivariate%20Imputation%20by%20Chained%20Equations%20in%20R.pdf)
- [mice : Multivariate Imputation by Chained Equations](https://github.com/stefvanbuuren/mice)
- [HOW DO I PERFORM MULTIPLE IMPUTATION USING PREDICTIVE MEAN MATCHING IN R? | R FAQ](https://stats.idre.ucla.edu/r/faq/how-do-i-perform-multiple-imputation-using-predictive-mean-matching-in-r/)
- [Imputing missing observation in multivariate time series](https://stats.stackexchange.com/questions/103968/imputing-missing-observation-in-multivariate-time-series)
- [arima method in mtsdi](https://stackoverflow.com/questions/29472532/arima-method-in-mtsdi)
- [Dealing with Missing Data using R](https://medium.com/coinmonks/dealing-with-missing-data-using-r-3ae428da2d17)
- [How to use auto.arima to impute missing values](https://stats.stackexchange.com/questions/104565/how-to-use-auto-arima-to-impute-missing-values)
- [How to Fill in Missing Data in Time Series?](https://stats.stackexchange.com/questions/245615/how-to-fill-in-missing-data-in-time-series)
- [Forecasting Multivariate Data with `auto.arima`](https://stackoverflow.com/questions/15495465/forecasting-multivariate-data-with-auto-arima)
- [Multivariate Time Series Model](https://stackoverflow.com/questions/44376808/multivariate-time-series-model)
- [`auto.arima` using `xreg` and Forecasting Several ts Together](https://stackoverflow.com/questions/25036986/auto-arima-using-xreg-and-forecasting-several-ts-together)
- [`auto.arima` Forecast with Multivariate `xreg` - unexpected Results](https://stackoverflow.com/questions/15054800/auto-arima-forecast-with-multivariate-xreg-unexpected-results)
- [`auto.arima` Warns `NaNs` Produced on Std Error](https://stats.stackexchange.com/questions/26999/auto-arima-warns-nans-produced-on-std-error)
- [Arima time series forecast (auto.arima) with multiple exogeneous variables in R](https://stats.stackexchange.com/questions/122803/arima-time-series-forecast-auto-arima-with-multiple-exogeneous-variables-in-r)
- [Multivariate ARIMA with regression](https://stats.stackexchange.com/questions/45993/multivariate-arima-with-regression)
- [I am trying to do a multivariate time series analysis on r. how to use auto.arima with Xreg?](https://www.researchgate.net/post/I_am_trying_to_do_a_multivariate_time_series_analysis_on_r_how_to_use_autoarima_with_Xreg)

```{r warning=FALSE}
tttt <- data_m1_NA[-1] %>% amelia

llply(tttt$imputations, function(x) {
    x %>% mutate(
  VA = if_else(AskOpen <= AskHigh & AskOpen >= AskLow & 
               AskClose <= AskHigh & AskClose >= AskLow & 
               AskHigh >= AskLow, 1, 0), 
  VB = if_else(BidOpen <= BidHigh & BidOpen >= BidLow & 
               BidClose <= BidHigh & BidClose >= BidLow & 
               BidHigh >= BidLow, 1, 0)) %>% 
  dplyr::filter(VA == 0|VB == 0)
})
```

经过测试以上数据，结果发现`amelia`也是单变量数据弥补。

**注释：单变量弥补的数据将会与之前单变量预测数据一样，就是出现偏差，例如：**

- 开市价高于最高价
- 开市价低于最低价
- 最高价低于开市价
- 最高价低于最低价
- 最高价低于闭市价
- 最低价高于开市价
- 最低价高于最高价
- 最低价高于闭市价
- 闭市价高于最高价
- 闭市价低于最低价

## 1% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补1%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.01) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_1_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_1_impTS) <- algo
data_m1_1_impTS %<>% ldply %>% tbl_df

data_m1_1_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_1_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_1_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_1_impTS %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补1%数据缺失值。

```{r warning=FALSE}
data_m1_1_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_1_amelia %>% anyNA

data_m1_1_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_1_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_1_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_1_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补1%数据缺失值。

```{r warning=FALSE}
data_m1_1_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_1_tidyr %>% anyNA

data_m1_1_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_1_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_1_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_1_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补1%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.01) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_1_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_1_impTS) <- algo
data_tm1_1_impTS %<>% ldply %>% tbl_df

data_tm1_1_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_1_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_1_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_1_impTS %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补1%数据缺失值。

```{r warning=FALSE}
data_tm1_1_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_1_amelia %>% anyNA

data_tm1_1_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_1_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_1_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_1_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补1%数据缺失值。

```{r warning=FALSE}
data_tm1_1_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_1_tidyr %>% anyNA

data_tm1_1_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_1_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_1_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_1_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 10% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补10%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.1) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_10_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_10_impTS) <- algo
data_m1_10_impTS %<>% ldply %>% tbl_df

data_m1_10_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_10_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_10_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_10_impTS %>% 
  kable(caption = 'MSE 10% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补10%数据缺失值。

```{r warning=FALSE}
data_m1_10_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_10_amelia %>% anyNA

data_m1_10_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_10_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_10_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_10_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补10%数据缺失值。

```{r warning=FALSE}
data_m1_10_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_10_tidyr %>% anyNA

data_m1_10_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_10_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_10_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_10_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补10%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.1) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_10_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_10_impTS) <- algo
data_tm1_10_impTS %<>% ldply %>% tbl_df

data_tm1_10_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_10_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_10_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_10_impTS %>% 
  kable(caption = 'MSE 10% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补10%数据缺失值。

```{r warning=FALSE}
data_tm1_10_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_10_amelia %>% anyNA

data_tm1_10_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_10_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_10_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_10_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补10%数据缺失值。

```{r warning=FALSE}
data_tm1_10_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_10_tidyr %>% anyNA

data_tm1_10_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_10_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_10_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_10_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 20% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补20%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.2) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_20_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_20_impTS) <- algo
data_m1_20_impTS %<>% ldply %>% tbl_df

data_m1_20_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_20_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_20_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_20_impTS %>% 
  kable(caption = 'MSE 20% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥20%数据缺失值。

```{r warning=FALSE}
data_m1_20_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_20_amelia %>% anyNA

data_m1_20_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_20_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_20_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_20_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补20%数据缺失值。

```{r warning=FALSE}
data_m1_20_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_20_tidyr %>% anyNA

data_m1_20_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_20_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_20_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_20_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补20%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.2) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_20_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_20_impTS) <- algo
data_tm1_20_impTS %<>% ldply %>% tbl_df

data_tm1_20_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_20_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_20_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_20_impTS %>% 
  kable(caption = 'MSE 20% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补20%数据缺失值。

```{r warning=FALSE}
data_tm1_20_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_20_amelia %>% anyNA

data_tm1_20_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_20_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_20_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_20_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补20%数据缺失值。

```{r warning=FALSE}
data_tm1_20_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_20_tidyr %>% anyNA

data_tm1_20_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_20_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_20_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_20_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 30% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补30%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.3) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_30_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_30_impTS) <- algo
data_m1_30_impTS %<>% ldply %>% tbl_df

data_m1_30_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_30_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_30_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_30_impTS %>% 
  kable(caption = 'MSE 30% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补30%数据缺失值。

```{r warning=FALSE}
data_m1_30_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_30_amelia %>% anyNA

data_m1_30_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_30_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_30_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_30_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补30%数据缺失值。

```{r warning=FALSE}
data_m1_30_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_30_tidyr %>% anyNA

data_m1_30_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_30_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_30_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_30_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补30%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.3) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_30_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_30_impTS) <- algo
data_tm1_30_impTS %<>% ldply %>% tbl_df

data_tm1_30_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_30_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_30_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_30_impTS %>% 
  kable(caption = 'MSE 30% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补30%数据缺失值。

```{r warning=FALSE}
data_tm1_30_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_30_amelia %>% anyNA

data_tm1_30_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_30_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_30_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_30_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补30%数据缺失值。

```{r warning=FALSE}
data_tm1_30_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_30_tidyr %>% anyNA

data_tm1_30_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_30_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_30_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_30_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 50% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补50%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.5) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_50_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_50_impTS) <- algo
data_m1_50_impTS %<>% ldply %>% tbl_df

data_m1_50_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_50_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_50_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_50_impTS %>% 
  kable(caption = 'MSE 50% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补50%数据缺失值。

```{r warning=FALSE}
data_m1_50_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_50_amelia %>% anyNA

data_m1_50_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_50_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_50_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_50_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补50%数据缺失值。

```{r warning=FALSE}
data_m1_50_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_50_tidyr %>% anyNA

data_m1_50_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_50_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_50_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_50_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补50%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.5) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_50_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_50_impTS) <- algo
data_tm1_50_impTS %<>% ldply %>% tbl_df

data_tm1_50_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_50_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_50_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_50_impTS %>% 
  kable(caption = 'MSE 50% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补50%数据缺失值。

```{r warning=FALSE}
data_tm1_50_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_50_amelia %>% anyNA

data_tm1_50_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_50_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_50_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_50_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补50%数据缺失值。

```{r warning=FALSE}
data_tm1_50_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_50_tidyr %>% anyNA

data_tm1_50_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_50_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_50_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_50_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 65% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补65%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.65) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_65_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_65_impTS) <- algo
data_m1_65_impTS %<>% ldply %>% tbl_df

data_m1_65_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_65_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_65_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_65_impTS %>% 
  kable(caption = 'MSE 65% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补65%数据缺失值。

```{r warning=FALSE}
data_m1_65_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_65_amelia %>% anyNA

data_m1_65_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_65_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_65_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_65_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补65%数据缺失值。

```{r warning=FALSE}
data_m1_65_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_65_tidyr %>% anyNA

data_m1_65_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_65_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_65_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_65_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补65%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.65) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_65_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_65_impTS) <- algo
data_tm1_65_impTS %<>% ldply %>% tbl_df

data_tm1_65_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_65_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_65_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_65_impTS %>% 
  kable(caption = 'MSE 65% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补65%数据缺失值。

```{r warning=FALSE}
data_tm1_65_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_65_amelia %>% anyNA

data_tm1_65_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_65_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_65_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_65_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补65%数据缺失值。

```{r warning=FALSE}
data_tm1_65_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_65_tidyr %>% anyNA

data_tm1_65_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_65_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_65_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_65_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 70% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补70%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.7) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_70_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_70_impTS) <- algo
data_m1_70_impTS %<>% ldply %>% tbl_df

data_m1_70_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_70_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_70_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_70_impTS %>% 
  kable(caption = 'MSE 70% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补70%数据缺失值。

```{r warning=FALSE}
data_m1_70_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_70_amelia %>% anyNA

data_m1_70_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_70_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_70_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_70_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补70%数据缺失值。

```{r warning=FALSE}
data_m1_70_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_70_tidyr %>% anyNA

data_m1_70_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_70_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_70_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_70_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补70%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.7) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_70_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_70_impTS) <- algo
data_tm1_70_impTS %<>% ldply %>% tbl_df

data_tm1_70_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_70_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_70_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_70_impTS %>% 
  kable(caption = 'MSE 70% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补70%数据缺失值。

```{r warning=FALSE}
data_tm1_70_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_70_amelia %>% anyNA

data_tm1_70_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_70_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_70_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_70_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补70%数据缺失值。

```{r warning=FALSE}
data_tm1_70_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_70_tidyr %>% anyNA

data_tm1_70_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_70_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_70_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_70_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 80% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补80%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.8) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_80_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_80_impTS) <- algo
data_m1_80_impTS %<>% ldply %>% tbl_df

data_m1_80_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_80_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_80_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_80_impTS %>% 
  kable(caption = 'MSE 80% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补80%数据缺失值。

```{r warning=FALSE}
data_m1_80_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_80_amelia %>% anyNA

data_m1_80_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_80_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_80_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_80_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补80%数据缺失值。

```{r warning=FALSE}
data_m1_80_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_80_tidyr %>% anyNA

data_m1_80_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_80_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_80_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_80_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补80%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.8) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_80_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_80_impTS) <- algo
data_tm1_80_impTS %<>% ldply %>% tbl_df

data_tm1_80_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_80_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_80_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_80_impTS %>% 
  kable(caption = 'MSE 80% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补80%数据缺失值。

```{r warning=FALSE}
data_tm1_80_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_80_amelia %>% anyNA

data_tm1_80_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_80_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_80_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_80_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补80%数据缺失值。

```{r warning=FALSE}
data_tm1_80_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_80_tidyr %>% anyNA

data_tm1_80_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_80_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_80_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_80_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 85% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补85%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.85) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_85_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_85_impTS) <- algo
data_m1_85_impTS %<>% ldply %>% tbl_df

data_m1_85_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_85_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_85_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_85_impTS %>% 
  kable(caption = 'MSE 85% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补85%数据缺失值。

```{r warning=FALSE}
data_m1_85_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_85_amelia %>% anyNA

data_m1_85_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_85_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_85_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_85_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补85%数据缺失值。

```{r warning=FALSE}
data_m1_85_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_85_tidyr %>% anyNA

data_m1_85_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_85_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_85_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_85_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补85%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.85) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_85_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_85_impTS) <- algo
data_tm1_85_impTS %<>% ldply %>% tbl_df

data_tm1_85_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_85_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_85_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_85_impTS %>% 
  kable(caption = 'MSE 85% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补85%数据缺失值。

```{r warning=FALSE}
data_tm1_85_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_85_amelia %>% anyNA

data_tm1_85_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_85_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_85_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_85_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补85%数据缺失值。

```{r warning=FALSE}
data_tm1_85_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_85_tidyr %>% anyNA

data_tm1_85_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_85_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_85_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_85_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

## 90% 缺失值

### 1分钟数据

以下使用`imputeTS::na.seadec()`弥补90%数据缺失值。

```{r warning=FALSE}
data_m1_NA <- data_m1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.9) %>% 
  cbind(data_m1[1], .) %>% tbl_df

data_m1_90_impTS <- llply(algo, function(x) {
  data_m1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_m1_90_impTS) <- algo
data_m1_90_impTS %<>% ldply %>% tbl_df

data_m1_90_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_90_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_90_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_90_impTS %>% 
  kable(caption = 'MSE 90% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补90%数据缺失值。

```{r warning=FALSE}
data_m1_90_amelia <- data_m1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_m1_90_amelia %>% anyNA

data_m1_90_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_90_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_90_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_90_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补90%数据缺失值。

```{r warning=FALSE}
data_m1_90_tidyr <- data_m1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_m1_90_tidyr %>% anyNA

data_m1_90_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_m1_90_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_m1_90_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_m1_90_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

### Tick数据转为1分钟数据

以下使用`imputeTS::na.seadec()`弥补90%数据缺失值。

```{r warning=FALSE}
data_tm1_NA <- data_tm1 %>% 
  dplyr::select(BidOpen, BidHigh, BidLow, BidClose, 
                AskOpen, AskHigh, AskLow,  AskClose) %>% 
  prodNA(noNA = 0.9) %>% 
  cbind(data_tm1[1], .) %>% tbl_df

data_tm1_90_impTS <- llply(algo, function(x) {
  data_tm1_NA %>% 
    dplyr::select(starts_with('Ask'), starts_with('Bid')) %>% 
    map(na.seadec, algorithm = x) %>% as.tibble
  })
names(data_tm1_90_impTS) <- algo
data_tm1_90_impTS %<>% ldply %>% tbl_df

data_tm1_90_impTS %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_90_impTS %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_90_impTS %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_90_impTS %>% 
  kable(caption = 'MSE 90% 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`Amelia::amelia()`弥补90%数据缺失值。

```{r warning=FALSE}
data_tm1_90_amelia <- data_tm1_NA %>% 
  amelia %>% 
  .$imputations %>% 
  ldply %>% tbl_df

data_tm1_90_amelia %>% anyNA

data_tm1_90_amelia %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_90_amelia %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_90_amelia %<>% 
  ddply(.(.id), summarise, 
        AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
        AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
        AskLow = mean((AskLow - data_m1$AskLow)^2), 
        AskClose = mean((AskClose - data_m1$AskClose)^2), 
        Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
        Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
        bias.open = sum(bias.open)/length(bias.open), 
        bias.high = sum(bias.high)/length(bias.high), 
        bias.low = sum(bias.low)/length(bias.low), 
        bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_90_amelia %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

以下使用`tidyr::fill()`弥补90%数据缺失值。

```{r warning=FALSE}
data_tm1_90_tidyr <- data_tm1_NA %>% 
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose) %>% #default direction down
  fill(BidOpen, BidHigh, BidLow, BidClose, 
       AskOpen, AskHigh, AskLow, AskClose, .direction = 'up')

data_tm1_90_tidyr %>% anyNA

data_tm1_90_tidyr %<>% mutate(
  bias.open = if_else(AskOpen>AskHigh|AskOpen<AskLow, 1, 0), 
  bias.high = if_else(AskHigh<AskOpen|AskHigh<AskLow|AskHigh<AskClose, 1, 0), 
  bias.low = if_else(AskLow>AskOpen|AskLow>AskHigh|AskLow>AskClose, 1, 0), 
  bias.close = if_else(AskClose>AskHigh|AskClose<AskLow, 1, 0))

data_tm1_90_tidyr %>% 
  dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)

data_tm1_90_tidyr %<>% 
  summarise(
    AskOpen = mean((AskOpen - data_m1$AskOpen)^2), 
    AskHigh = mean((AskHigh - data_m1$AskHigh)^2), 
    AskLow = mean((AskLow - data_m1$AskLow)^2), 
    AskClose = mean((AskClose - data_m1$AskClose)^2), 
    Mean.HLC = (AskHigh + AskLow + AskClose)/3, 
    Mean.OHLC = (AskOpen + AskHigh + AskLow + AskClose)/4, 
    bias.open = sum(bias.open)/length(bias.open), 
    bias.high = sum(bias.high)/length(bias.high), 
    bias.low = sum(bias.low)/length(bias.low), 
    bias.close = sum(bias.close)/length(bias.close)) %>% tbl_df

data_tm1_90_tidyr %>% 
  kable(caption = 'MSE') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%')#, height = '400px')
```

# 偏差比较

## 单变量弥补数据偏差比较

以下日内数据比较出在指定的缺失值占有数，该数据弥补得来后的误差与偏差会有多高。

```{r warning=FALSE}
dfm1_impTS <- list(`1%` = data_m1_1_impTS, `10%` = data_m1_10_impTS, 
                   `20%` = data_m1_20_impTS, `30%` = data_m1_30_impTS, 
                   `50%` = data_m1_50_impTS, `65%` = data_m1_65_impTS, 
                   `70%` = data_m1_70_impTS, `80%` = data_m1_80_impTS, 
                   `85%` = data_m1_85_impTS, `90%` = data_m1_90_impTS)

dfm2_impTS <- list(`1%` = data_tm1_1_impTS, `10%` = data_tm1_10_impTS, 
                   `20%` = data_tm1_20_impTS, `30%` = data_tm1_30_impTS, 
                   `50%` = data_tm1_50_impTS, `65%` = data_tm1_65_impTS, 
                   `70%` = data_tm1_70_impTS, `80%` = data_tm1_80_impTS, 
                   `85%` = data_tm1_85_impTS, `90%` = data_tm1_90_impTS)

## Summarise
dfm1_impTS %<>% ldply(function(x) x %>% dplyr::rename(Model = .id)) %>% 
  tbl_df %>% 
  mutate(bias = (bias.open + bias.high + bias.low + bias.close)/4) %>% 
  arrange(Mean.HLC, Mean.OHLC, bias)
dfm2_impTS %<>% ldply(function(x) x %>% dplyr::rename(Model = .id)) %>% 
  tbl_df %>% 
  mutate(bias = (bias.open + bias.high + bias.low + bias.close)/4) %>% 
  arrange(Mean.HLC, Mean.OHLC, bias)

dfm1_impTS %>% 
  kable(caption = 'MSE 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')

dfm2_impTS %>% 
  kable(caption = 'MSE 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')
```

## 多变量弥补数据偏差比较

```{r warning=FALSE}
dfm1_amelia <- list(`1%` = data_m1_1_amelia, `10%` = data_m1_10_amelia, 
                    `20%` = data_m1_20_amelia, `30%` = data_m1_30_amelia, 
                    `50%` = data_m1_50_amelia, `65%` = data_m1_65_amelia, 
                    `70%` = data_m1_70_amelia, `80%` = data_m1_80_amelia, 
                    `85%` = data_m1_85_amelia, `90%` = data_m1_90_amelia)

dfm2_amelia <- list(`1%` = data_tm1_1_amelia, `10%` = data_tm1_10_amelia, 
                    `20%` = data_tm1_20_amelia, `30%` = data_tm1_30_amelia, 
                    `50%` = data_tm1_50_amelia, `65%` = data_tm1_65_amelia, 
                    `70%` = data_tm1_70_amelia, `80%` = data_tm1_80_amelia, 
                    `85%` = data_tm1_85_amelia, `90%` = data_tm1_90_amelia)

## Summarise
dfm1_amelia %<>% ldply(function(x) x %>% dplyr::rename(Model = .id)) %>% 
  tbl_df %>% 
  mutate(bias = (bias.open + bias.high + bias.low + bias.close)/4) %>% 
  arrange(Mean.HLC, Mean.OHLC, bias)
dfm2_amelia %<>% ldply(function(x) x %>% dplyr::rename(Model = .id)) %>% 
  tbl_df %>% 
  mutate(bias = (bias.open + bias.high + bias.low + bias.close)/4) %>% 
  arrange(Mean.HLC, Mean.OHLC, bias)

dfm1_amelia %>% 
  kable(caption = 'MSE 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')

dfm2_amelia %>% 
  kable(caption = 'MSE 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')
```

## `tidyr::fill`弥补数据偏差比较

```{r warning=FALSE}
dfm1_tidyr <- list(`1%` = data_m1_1_tidyr, `10%` = data_m1_10_tidyr, 
                   `20%` = data_m1_20_tidyr, `30%` = data_m1_30_tidyr, 
                   `50%` = data_m1_50_tidyr, `65%` = data_m1_65_tidyr, 
                   `70%` = data_m1_70_tidyr, `80%` = data_m1_80_tidyr, 
                   `85%` = data_m1_85_tidyr, `90%` = data_m1_90_tidyr)

dfm2_tidyr <- list(`1%` = data_tm1_1_tidyr, `10%` = data_tm1_10_tidyr, 
                   `20%` = data_tm1_20_tidyr, `30%` = data_tm1_30_tidyr, 
                   `50%` = data_tm1_50_tidyr, `65%` = data_tm1_65_tidyr, 
                   `70%` = data_tm1_70_tidyr, `80%` = data_tm1_80_tidyr, 
                   `85%` = data_tm1_85_tidyr, `90%` = data_tm1_90_tidyr)

## Summarise
dfm1_tidyr %<>% ldply(function(x) x %>% mutate(Model = factor('tidyr_fill'))) %>% 
  tbl_df %>% 
  mutate(bias = (bias.open + bias.high + bias.low + bias.close)/4) %>% 
  dplyr::select(.id, Model, AskOpen, AskHigh, AskLow, AskClose, 
                Mean.HLC, Mean.OHLC, bias.open, bias.high, bias.low, bias.close, bias) %>% 
  arrange(Mean.HLC, Mean.OHLC, bias)
dfm2_tidyr %<>% ldply(function(x) x %>% mutate(Model = factor('tidyr_fill'))) %>% 
  tbl_df %>% 
  mutate(bias = (bias.open + bias.high + bias.low + bias.close)/4) %>% 
  dplyr::select(.id, Model, AskOpen, AskHigh, AskLow, AskClose, 
                Mean.HLC, Mean.OHLC, bias.open, bias.high, bias.low, bias.close, bias) %>% 
  arrange(Mean.HLC, Mean.OHLC, bias)

dfm1_tidyr %>% 
  kable(caption = 'MSE 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')

dfm2_tidyr %>% 
  kable(caption = 'MSE 缺失值') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>%
  scroll_box(width = '100%', height = '400px')
```

## 综合数据偏差比较

```{r warning=FALSE}
## 1-min data.
dfm1 <- list(dfm1_impTS, dfm1_amelia, dfm1_tidyr) %>% bind_rows

dfm1 %>% ddply(.(.id), arrange, Mean.HLC, Mean.OHLC, bias) %>% tbl_df %>% 
  kable(caption = 'Bias Comparison') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>% 
  group_rows('1%', 1, 12, label_row_css = 'background-color: #e68a00; color: #fff;') %>%
  group_rows('10%', 13, 24, label_row_css = 'background-color: #ff0000; color: #fff;') %>%
  group_rows('20%', 25, 36, label_row_css = 'background-color: #bf80ff; color: #fff;') %>%
  group_rows('30%', 37, 48, label_row_css = 'background-color: #66ff33; color: #fff;') %>%
  group_rows('50%', 49, 60, label_row_css = 'background-color: #6666ff; color: #fff;') %>%
  group_rows('65%', 61, 72, label_row_css = 'background-color: #66e0ff; color: #fff;') %>%
  group_rows('70%', 73, 84, label_row_css = 'background-color:#0066ff; color: #fff;') %>%
  group_rows('80%', 85, 96, label_row_css = 'background-color: #ff9900; color: #fff;') %>%
  group_rows('85%', 97, 108, label_row_css = 'background-color: #33ff33; color: #fff;') %>%
  group_rows('90%', 109, 120, label_row_css = 'background-color: #339966; color: #fff;') %>%
  scroll_box(width = '100%', height = '400px')

## tick-data to 1-min data.
dfm2 <- list(dfm2_impTS, dfm2_amelia, dfm2_tidyr) %>% bind_rows

dfm2 %>% ddply(.(.id), arrange, Mean.HLC, Mean.OHLC, bias) %>% tbl_df %>% 
  kable(caption = 'Bias Comparison') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>% 
  group_rows('1%', 1, 12, label_row_css = 'background-color: #e68a00; color: #fff;') %>%
  group_rows('10%', 13, 24, label_row_css = 'background-color: #ff0000; color: #fff;') %>%
  group_rows('20%', 25, 36, label_row_css = 'background-color: #bf80ff; color: #fff;') %>%
  group_rows('30%', 37, 48, label_row_css = 'background-color: #66ff33; color: #fff;') %>%
  group_rows('50%', 49, 60, label_row_css = 'background-color: #6666ff; color: #fff;') %>%
  group_rows('65%', 61, 72, label_row_css = 'background-color: #66e0ff; color: #fff;') %>%
  group_rows('70%', 73, 84, label_row_css = 'background-color:#0066ff; color: #fff;') %>%
  group_rows('80%', 85, 96, label_row_css = 'background-color: #ff9900; color: #fff;') %>%
  group_rows('85%', 97, 108, label_row_css = 'background-color: #33ff33; color: #fff;') %>%
  group_rows('90%', 109, 120, label_row_css = 'background-color: #339966; color: #fff;') %>%
  scroll_box(width = '100%', height = '400px')
```

## GARCH模型预测数据偏差比较

以下乃日间数据，虽然与此文献的日内数据有所分别，但是也可作为参考。

```{r, message=FALSE, warning=FALSE}
fls <- list.files('data/fx/USDJPY', pattern = 'pred2.+.rds|^DCC.GARCH.USDJPY.HLC.[0-9]{4}-[0-9]{2}-[0-9]{2}.rds|^aDCC.GARCH.USDJPY.HLC.[0-9]{4}-[0-9]{2}-[0-9]{2}.rds|DCC.GARCH.USDJPY.OHLC.[0-9]{4}-[0-9]{2}-[0-9]{2}.rds')

## extract date
validate <- fls %>% 
    str_extract_all('[0-9]{4}-[0-9]{2}-[0-9]{2}') %>% 
    unlist %>% 
    plyr::count() %>% 
    tbl_df
validate %>% dplyr::filter(freq != 5) %>% 
  kable(caption = 'Count missing observation') %>% 
  kable_styling(
    bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>% 
  scroll_box(height = '400px')

## Univariate
td <- validate %>% dplyr::filter(freq == 5) %>% .$x %>% ymd
flv <- llply(td, grep, fls, value = TRUE) %>% unlist %>% unique

## get only MSE and AIC/BIC but ommit VaR.
MSE.com <- ldply(flv, function(x) {
    dfm <- readRDS(paste0('data/fx/USDJPY/', x))#[[1]]
    
    if (!is.data.frame(dfm)) {
      dfm %<>% .$res
    }
    
    names(dfm) %<>% str_replace_all('USDJPY', 'Price')
    dfm %<>% separate(Type, c('Cat', 'Type', 'Model'))
    
    if (ncol(dfm) == 10) {
      dfm %<>% dplyr::filter(Type == 'Op' | Type == 'Hi' | 
                             Type == 'Lo' | Type == 'Cl') %>% 
        mutate(Type2 = Type) %>% 
        spread(Type, Price) %>% 
        dplyr::rename(Price.Open = Op, Price.High = Hi, 
                      Price.Low = Lo, Price.Close = Cl) %>% 
        spread(Type2, `Price.T+1`) %>% 
        dplyr::rename(Price.Open.T1 = Op, Price.High.T1 = Hi, 
                      Price.Low.T1 = Lo, Price.Close.T1 = Cl) %>% 
        dplyr::select(Date, Price.Open, Price.High, Price.Low, Price.Close, 
                      Price.Open.T1, Price.High.T1, Price.Low.T1, Price.Close.T1, 
                      Akaike, Bayes, Shibata, Hannan.Quinn)
      dfm %<>% mutate(Model = 'gjrGARCH', Cat = 'OHLC')
      
    } else if (ncol(dfm) == 14) {
      dfm %<>% dplyr::select(Date, Model, Price.High, Price.Low, Price.Close, 
                             Price.High.T1, Price.Low.T1, Price.Close.T1, 
                             Akaike, Bayes, Shibata, Hannan.Quinn) %>% 
        unique
      dfm %<>% mutate(Cat = 'HLC')
      
    } else if (ncol(dfm) == 16) {
      
      dfm %<>% dplyr::select(Date, Model, 
                               Price.Open, Price.High, Price.Low, Price.Close, 
                               Price.Open.T1, Price.High.T1, Price.Low.T1, 
                               Price.Close.T1, Akaike, Bayes, Shibata, Hannan.Quinn) %>% 
          mutate(Akaike = mean(Akaike), Bayes = mean(Bayes), 
                 Shibata = mean(Shibata), Hannan.Quinn = mean(Hannan.Quinn)) %>% 
          unique
        dfm %<>% mutate(Cat = 'OHLC')
      
    } else {
      dfm %<>% dfm
    }
    
    return(dfm)
  }) %>% tbl_df
```

```{r warning=FALSE}
## Filter bias.
bias <- MSE.com %>% 
  mutate(Model = factor(Model)) %>% 
  dplyr::select(Date, Model, Cat, Price.Open.T1, Price.High.T1, Price.Low.T1, Price.Close.T1)
bias1 <- bias %>% dplyr::filter(Model != 'gjrGARCH')
bias2 <- bias %>% dplyr::filter(Model == 'gjrGARCH')
bias2A <- bias2[c(1:3)] %>% unique
bias2 <- bias2[-c(1:3)] %>% 
  rowSums(na.rm=TRUE) %>% 
  matrix(nc = 4, byrow=TRUE) %>% 
  as_data_frame %>% 
  dplyr::rename(Price.Open.T1 = V1, Price.High.T1 = V2, 
                Price.Low.T1 = V3, Price.Close.T1 = V4)
bias2 <- cbind(bias2A, bias2) %>% tbl_df
bias <- rbind(bias1, bias2) %>% tbl_df %>% arrange(Date)
rm(bias1, bias2A, bias2)

bias %<>% 
  mutate(
  bias.open = if_else(Price.Open.T1>Price.High.T1|Price.Open.T1<Price.Low.T1, 1, 0), 
  bias.high = if_else(Price.High.T1<Price.Open.T1|Price.High.T1<Price.Low.T1|Price.High.T1<Price.Close.T1, 1, 0), 
  bias.low = if_else(Price.Low.T1>Price.Open.T1|Price.Low.T1>Price.High.T1|Price.Low.T1>Price.Close.T1, 1, 0), 
  bias.close = if_else(Price.Close.T1>Price.High.T1|Price.Close.T1<Price.Low.T1, 1, 0)) %>% 
  dplyr::select(Date, Model, Cat, Price.Open.T1, Price.High.T1, Price.Low.T1, Price.Close.T1, bias.open, bias.high, bias.low, bias.close) #%>% 
#dplyr::filter(bias.open==1|bias.high==1|bias.low==1|bias.close==1)
bias

bias %>% ddply(.(Model, Cat), summarise, 
               bias.open = sum(bias.open, na.rm=TRUE)/length(bias.open), 
               bias.high = sum(bias.high, na.rm=TRUE)/length(bias.high), 
               bias.low = sum(bias.low, na.rm=TRUE)/length(bias.low), 
               bias.close = sum(bias.close, na.rm=TRUE)/length(bias.close), 
               bias = (bias.open + bias.high + bias.low + bias.close)/4, 
               n = length(Cat)) %>% 
  kable(caption = 'Bias Dataset') %>% 
  kable_styling(
    bootstrap_options = c('striped', 'hover', 'condensed', 'responsive')) %>% 
  scroll_box(width = '100%')#, height = '400px')
```

# 结论

弥补来的数据得以以下标准：

- 最低的`MSE.HLC`（倘若是交易的话，一些模型不包括开市价）
- 最低的`MSE.OHLC`（一些交易模型会拿开市价与上一个闭市价进行比较）
- 最低的`bias`（误差与偏差，例如开闭市价都必须在最高低价之间，否则就是弥补偏差）

从以上数据证明，弥补来的数据确实有误，如之前单变量的误差（开市或闭市价高于最高价、低于最低价）。僕们可以通过`auto.arima`、`ETS`、`GARCH`或者其它方式回测数据和弥补缺失值，不过那就比较费时了。根据以上的`imputeTS::na.seadec()`弥补来的数据[binary.com 面试试题 I - 单变量数据缺失值管理](http://rpubs.com/englianhu/handle-missing-value)，`algorithm ='kalman'`或`algorithm ='interpolation'`俩的误差率最低。

[综合数据偏差比较]中证明当`1-min`数据缺失值$\leq$`30%`的时候，`amelia`多变量最为精准，然后当`50%`$\leq$缺失值$\leq$`65%`时，MSE和偏差(bias)俩都不及单变量`sea.dec`。与此同时，`tick to 1-min`数据证明`sea.dec`乃最佳弥补数据的模型。

此文献的结论乃无法断定单变量或多变量比较适合弥补数据缺失值，不过有一点可以断定的是无论缺失值多寡，`sea.dec(algorithm = 'interpolation')`和`sea.dec(algorithm = 'kalman')`都将会比较有效弥补数据。最有效的方法可能是使用多变量`DCC`模式（预测）^[<span style='color:goldenrod'>*binary.com Interview Question I - Multivariate GARCH Models*</span>中的多变量模型将会计算不同价格中的关系系数。]弥补缺失值，不过会非常耗时，而且该GARCH模型乃预测价格模型。

# 附录

## 文件与系统资讯

以下乃此文献资讯：

- 文件建立日期：2018-10-10
- 文件最新更新日期：`r today('Asia/Tokyo')`
- `r R.version.string`
- R语言版本：`r getRversion()`
- [**rmarkdown** 程序包](https://github.com/rstudio/rmarkdown)版本：`r packageVersion('rmarkdown')`
- 文件版本：1.0.1
- 作者简历：[®γσ, Eng Lian Hu](https://beta.rstudioconnect.com/content/3091/ryo-eng.html)
- GitHub：[源代码](https://github.com/englianhu/binary.com-interview-question)
- 其它系统资讯：

```{r info, echo=FALSE, warning=FALSE, results='asis'}
sys1 <- session_info()$platform %>% 
  unlist %>% 
  data.frame(Category = names(.), session_info = .)
rownames(sys1) <- NULL

sys2 <- data.frame(Sys.info()) %>% 
  mutate(Category = rownames(.)) %>% 
  .[2:1]
names(sys2)[2] <- c('Sys.info')
rownames(sys2) <- NULL

if (nrow(sys1) == 7 & nrow(sys2) == 8) {
  sys1 %<>% rbind(., data.frame(
  Category = 'Current time', 
  session_info = paste(as.character(lubridate::now('Asia/Tokyo')), 'JST')))
} else {
  sys2 %<>% rbind(., data.frame(
  Category = 'Current time', 
  Sys.info = paste(as.character(lubridate::now('Asia/Tokyo')), 'JST')))
}

cbind(sys1, sys2) %>% 
  kable(caption = 'Additional session information:') %>% 
  kable_styling(bootstrap_options = c('striped', 'hover', 'condensed', 'responsive'))

rm(sys1, sys2)
```

## 参考文献

1. [R语言缺失值处理](https://zhuanlan.zhihu.com/p/27312695)
2. [R语言中缺失值NA的处理](https://blog.csdn.net/Ssxysxy123/article/details/51774472)
3. [R语言处理缺失数据的高级方法](https://blog.csdn.net/lilanfeng1991/article/details/36467891)
4. [HTML Color Names](https://www.w3schools.com/tags/ref_colornames.asp)
5. [Missing Values, Data Science and R](https://rviews.rstudio.com/2016/11/30/missing-values-data-science-and-r/)
6. [Imputing Missing Data with R; MICE package](https://datascienceplus.com/imputing-missing-data-with-r-mice-package/)
7. [Markov Chain process - Missing values](https://stats.stackexchange.com/questions/47965/markov-chain-process-missing-values)
8. [Randomly insert NAs into dataframe proportionaly](https://stackoverflow.com/questions/27454265/randomly-insert-nas-into-dataframe-proportionaly)
9. [Insert random NAs in a vector in R](https://paleocave.sciencesortof.com/2014/07/insert-random-nas-in-a-vector-in-r/)
10. [[R] Fill in missing times in a timeseries with NA](https://stat.ethz.ch/pipermail/r-help/2010-October/257749.html)
11. [How to Replace NA's in a Date Column](https://stackoverflow.com/questions/39899997/how-to-replace-nas-in-a-date-column)
12. [How to Fill NAs with `na.locf` by factors in data frame split by country](https://stackoverflow.com/questions/13616965/how-to-fill-nas-with-locf-by-factors-in-data-frame-split-by-country)
13. [数据预处理之缺失值插补 — 基于R语言](https://blog.csdn.net/qq_31584157/article/details/52562830)
14. [imputeTS - Time Series Missing Value Imputation in R](https://github.com/englianhu/binary.com-interview-question/blob/master/reference/imputeTS%20-%20Time%20Series%20Missing%20Value%20Imputation%20in%20R)
15. [binary.com Interview Question I - Multivariate GARCH Models](http://rpubs.com/englianhu/binary-Q1Multi-GARCH)
16. [AMELIA II - A Program for Missing Data](https://github.com/englianhu/binary.com-interview-question/blob/master/reference/AMELIA%20II%20-%20A%20Program%20for%20Missing%20Data.pdf)

---

<span style='color:RoyalBlue'>**Powered by - Copyright® Intellectual Property Rights of [<img src='www/scb_logo.jpg' width='64'>®](http://www.scibrokes.com)個人の経営企業**</span>