imputegap.recovery.manager package¶

Module contents¶

class imputegap.recovery.manager.TimeSeries[source]¶

Bases: object

Class for managing and manipulating time series data.

This class allows importing, normalizing, and visualizing time series datasets. It also provides methods to contaminate the datasets with missing values and plot results.

Methods¶

__init__() :: Initializes the TimeSeries object.
import_matrix(data=None) :: Imports a matrix of time series data.
load_series(data=None, max_series=None, max_values=None, header=False) :: Loads time series data from a file or predefined dataset.
print(limit=10, view_by_series=False) :: Prints a limited number of time series from the dataset.
print_results(metrics, algorithm=””) :: Prints the results of the imputation process.
normalize(normalizer=”z_score”) :: Normalizes the time series dataset.
plot(input_data, incomp_data=None, recov_data=None, max_series=None, max_values=None, size=(16, 8), save_path=””, display=True) :: Plots the time series data, including raw, contaminated, or imputed data.
Contamination :: Class containing methods to contaminate time series data with missing values based on different patterns.

class Contamination[source]¶

Bases: object

Inner class to apply contamination patterns to selected series.

Methods¶

mcar(ts, series_rate=0.2, missing_rate=0.2, block_size=10, offset=0.1, seed=True, explainer=False, verbose=True) :: Apply Missing Completely at Random (MCAR) contamination to selected series.
aligned(ts, series_rate=0.2, missing_rate=0.2, offset=0.1) :: Apply missing percentage contamination to selected series.
blackout(ts, missing_rate=0.2, offset=0.1) :: Apply blackout contamination to selected series.
gaussian(input_data, series_rate=0.2, missing_rate=0.2, std_dev=0.2, offset=0.1, seed=True, verbose=True):: Apply Gaussian contamination to selected series.
distribution(input_data, rate_dataset=0.2, rate_series=0.2, probabilities=None, offset=0.1, seed=True, verbose=True):: Apply any distribution contamination to the time series data based on their probabilities.
disjoint(input_data, missing_rate=0.1, limit=1, offset=0.1, verbose=True):: Apply Disjoint contamination to selected series.
overlap(input_data, missing_rate=0.2, limit=1, shift=0.05, offset=0.1, verbose=True):: Apply Overlapping contamination to selected series.

References¶

https://imputegap.readthedocs.io/en/latest/patterns.html

aligned(rate_dataset=0.2, rate_series=0.2, offset=0.1, explainer=False, verbose=True)[source]¶

Create aligned missing blocks across the selected series.

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_datasetfloat, optional: Percentage of series to contaminate (default is 0.2).
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.2).
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
explainerbool, optional: Only used within the Explainer Module to contaminate one series at a time (default: False).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.aligned(ts.data, rate_dataset=0.2, rate_series=0.4, offset=0.1):

blackout(series_rate=0.2, offset=0.1, verbose=True)[source]¶

Apply blackout contamination to selected series

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
series_ratefloat, optional: Percentage of missing values per series (default is 0.2).
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.blackout(ts.data, series_rate=0.2)

disjoint(rate_series=0.1, limit=1, offset=0.1, verbose=True)[source]¶

Apply disjoint contamination to selected series

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.1).
limitfloat, optional: Percentage expressing the limit index of the end of the contamination (default is 1: all length).
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.disjoint(ts.data, rate_series=0.1, limit=1, offset=0.1)

distribution(rate_dataset=0.2, rate_series=0.2, probabilities_list=None, offset=0.1, seed=True, explainer=False, verbose=True)[source]¶

Apply any distribution contamination to the time series data based on their probabilities.

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_datasetfloat, optional: Percentage of series to contaminate (default is 0.2).
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.2).
probabilities_list2-D array-like, optional: The probabilities of being contaminated associated with each values of a series. Most match the shape of input data without the offset : (e.g. [[0.1, 0, 0.3, 0], [0.2, 0.1, 0.2, 0.9]])
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
seedbool, optional: Whether to use a seed for reproducibility (default is True).
explainerbool, optional: Only used within the Explainer Module to contaminate one series at a time (default: False).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.distribution(ts.data, rate_dataset=0.2, rate_series=0.2, probabilities_list=probabilities_list, offset=0.1)

gaussian(rate_dataset=0.2, rate_series=0.2, std_dev=0.2, offset=0.1, seed=True, explainer=False, verbose=True)[source]¶

Apply contamination with a Gaussian distribution to selected series

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_datasetfloat, optional: Percentage of series to contaminate (default is 0.2).
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.2).
std_devfloat, optional: Standard deviation of the Gaussian distribution for missing values (default is 0.4).
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
seedbool, optional: Whether to use a seed for reproducibility (default is True).
explainerbool, optional: Only used within the Explainer Module to contaminate one series at a time (default: False).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.gaussian(ts.data, rate_series=0.2, std_dev=0.4, offset=0.1):

mcar(rate_dataset=0.2, rate_series=0.2, block_size=10, offset=0.1, seed=True, explainer=False, verbose=True)[source]¶

Apply Missing Completely at Random (MCAR) contamination to selected series.

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_datasetfloat, optional: Percentage of series to contaminate (default is 0.2).
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.2).
block_sizeint, optional: Size of the block of missing data (default is 10).
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
seedbool, optional: Whether to use a seed for reproducibility (default is True).
explainerbool, optional: Only used within the Explainer Module to contaminate one series at a time (default: False).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.mcar(ts.data, rate_dataset=0.2, rate_series=0.4, block_size=10):

overlap(rate_series=0.2, limit=1, shift=0.05, offset=0.1, verbose=True)[source]¶

Apply overlap contamination to selected series

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.2).
limitfloat, optional: Percentage expressing the limit index of the end of the contamination (default is 1: all length).
shiftfloat, optional: Percentage of shift inside each the last disjoint contamination.
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.overlap(ts.data, rate_series=0.1, limit=1, shift=0.05, offset=0.1)

scattered(rate_dataset=0.2, rate_series=0.2, offset=0.1, seed=True, explainer=False, verbose=True)[source]¶

Apply percentage shift contamination with random starting position to selected series.

Parameters¶

input_datanumpy.ndarray: The time series dataset to contaminate.
rate_datasetfloat, optional: Percentage of series to contaminate (default is 0.2).
rate_seriesfloat, optional: Percentage of missing values per series (default is 0.2).
offsetfloat, optional: Size of the uncontaminated section at the beginning of the series (default is 0.1).
seedbool, optional: Whether to use a seed for reproducibility (default is True).
explainerbool, optional: Only used within the Explainer Module to contaminate one series at a time (default: False).
verbosebool, optional: Whether to display the contamination information (default is True).

Returns¶

numpy.ndarray: The contaminated time series data.

Example¶

>>> ts_m = ts.Contamination.scattered(ts.data, rate_dataset=0.2, rate_series=0.4, offset=0.1)

import_matrix(data=None)[source]¶

Imports a matrix of time series data.

The data can be provided as a list or a NumPy array. The format is (Series, Values), where series are separated by space, and values are separated by newline characters.

Parameters¶

datalist or numpy.ndarray, optional: The matrix of time series data to import.

Returns¶

TimeSeries: The TimeSeries object with the imported data.

load_series(data, nbr_series=None, nbr_val=None, header=False, replace_nan=False, verbose=True)[source]¶

Loads time series data from a file or predefined dataset.

The data is loaded as a matrix of shape (Values, Series). You can limit the number of series or values per series for computational efficiency.

Parameters¶

datastr: The file path or name of a predefined dataset (e.g., ‘bafu.txt’).
nbr_seriesint, optional: The maximum number of series to load.
nbr_valint, optional: The maximum number of values per series.
headerbool, optional: Whether the dataset has a header. Default is False.
replace_nanbool, optional: The Dataset has already NaN values that needs to be replaced by 0 values.
verbosebool, optional: Display information print (default: True).

Returns¶

TimeSeries: The TimeSeries object with the loaded data.

Example¶

>>> ts.load_series(utils.search_path("eeg-alcohol"), nbr_series=50, nbr_val=100)

normalize(normalizer='z_score', verbose=True)[source]¶

Normalize the time series dataset.

Supported normalization techniques are “z_score” and “min_max”. The method also logs the execution time for the normalization process.

Parameters¶

normalizerstr, optional: The normalization technique to use. Options are “z_score” or “min_max”. Default is “z_score”.

verbose : bool, optional Whether to display the contamination information (default is False).

Returns¶

numpy.ndarray: The normalized time series data.

Example¶

>>> ts.normalize(normalizer="z_score")

plot(input_data, incomp_data=None, recov_data=None, nbr_series=None, nbr_val=None, series_range=None, subplot=False, size=(16, 8), algorithm=None, save_path='./imputegap_assets', cont_rate=None, display=True, verbose=True)[source]¶

Plot the time series data, including raw, contaminated, or imputed data.

Parameters¶

input_datanumpy.ndarray: The original time series data without contamination.
incomp_datanumpy.ndarray, optional: The contaminated time series data.
recov_datanumpy.ndarray, optional: The imputed time series data.
nbr_seriesint, optional: The maximum number of series to plot.
nbr_valint, optional: The maximum number of values per series to plot.
series_rangeint, optional: The index of a specific series to plot. If set, only this series will be plotted.
subplotbool, optional: Print one time series by subplot or all in the same plot.
sizetuple, optional: Size of the plot in inches. Default is (16, 8).
algorithmstr, optional: Name of the algorithm used for imputation.
save_pathstr, optional: Path to save the plot locally.
cont_ratestr, optional: Percentage of contamination in each series to plot.
displaybool, optional: Whether to display the plot. Default is True.
verbosebool, optional: Whether to display the plot information. Default is True.

Returns¶

str or None: The file path of the saved plot, if applicable.

Example¶

>>> ts.plot(input_data=ts.data, nbr_series=9, nbr_val=100, save_path="./imputegap_assets") # plain data
>>> ts.plot(ts.data, ts_m, nbr_series=9, subplot=True, save_path="./imputegap_assets") # contamination
>>> ts.plot(input_data=ts.data, incomp_data=ts_m, recov_data=imputer.recov_data, nbr_series=9, subplot=True, save_path="./imputegap_assets") # imputation

print(nbr_val=10, nbr_series=7, view_by_series=False)[source]¶: Prints a limited number of time series from the dataset.

Parameters¶

nbr_val : int, optional The number of timestamps to print. Default is 15. Use -1 for no restriction. nbr_series : int, optional The number of series to print. Default is 10. Use -1 for no restriction. view_by_series : bool, optional Whether to view by series (True) or by values (False).

Returns¶

None

print_results(metrics, algorithm='', text='Results')[source]¶

Prints the results of the imputation process.

Parameters¶

metricsdict: A dictionary containing the imputation metrics to display.
algorithmstr, optional: The name of the algorithm used for imputation.
algorithmstr, optional: Output text to help the user.

Returns¶

None

Example¶

>>> ts.print_results(imputer.metrics, imputer.algorithm)

imputegap.recovery.manager.select_backend()[source]¶