import numpy as np
import pandas as pd
import scipy as sc
import seaborn as sns
from scipy.optimize import minimize
import matplotlib.pyplot as plt


t, q, δ = 10, 0.3, 5
def sim_X(t, q, δ):
    n_t = np.random.negative_binomial(1, 1-q, size=t)
    u_t = [np.random.exponential(scale = δ, size = n) for n in n_t]
    x_t = [np.sum(u) for u in u_t]
    return(np.array(x_t))
sim_X(t, q, δ)

array([ 0.        ,  4.09548659, 12.38933536,  0.        ,  2.47667854,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ])


X = sim_X(1000, q, δ)
def mle(X):
    t, t0 = len(X), np.sum(X ==0)
    q_mle = (t-t0)/t
    δ_mle =  t0 / t * np.sum(X) /(t-t0)
    return(q_mle, δ_mle)


t, q, δ = 100, 0.1, 5
X = sim_X(t, q, δ)
def logp_geom_exp(X):
    def logp(parms):
        q, δ = parms
        if np.logical_and(np.all(parms > 0), q < 1 ) : 
            t0, t = np.sum(X == 0), len(X)
            return(t * np.log(1-q) + (t-t0) * np.log(1-q) + (t - t0) * np.log(q) - 
                   (t - t0) * np.log(δ) - (1 - q) / δ * np.sum(X))
        else:
            return(-np.inf)
    return(logp)
logp = logp_geom_exp(X)
logp(np.array([q, δ]))

-46.814485463324615


parms_name = ['q', 'δ']
a_q, b_q, a_δ, b_δ = 0, 1, 0, 100
Σ, n_step = np.diag(np.array([0.01, 1])), 10000
def sim_post_sample_MH(X, parms_name, a_q, b_q, a_δ, b_δ, Σ, n_step):
    logp = logp_geom_exp(X)
    trace = []
    accepted = []
    q0, δ0 = np.random.uniform(low = a_q, high = b_q, size = 1), np.random.uniform(low = a_δ, high = b_δ, size = 1)
    trace.append(np.array([q0[0], δ0[0]])), accepted.append(True)
    for j in range(n_step):
        ϵ = np.random.multivariate_normal(mean = np.zeros(2), cov = Σ , size = 1)
        parms_old, parms_new = trace[-1], trace[-1] + ϵ[0]
        u = np.random.uniform(0, 1, size = 1)
        if logp(parms_new) - logp(parms_old) > np.log(u):
            trace.append(parms_new), accepted.append(True)
        else:
            trace.append(parms_old), accepted. append(False)
    trace, accepted
    trace_df = pd.DataFrame(trace)
    trace_df.columns = parms_name
    trace_df['accepted'] = np.array(accepted)
    return(trace_df)

trace = sim_post_sample_MH(X, parms_name, a_q, b_q, a_δ, b_δ, Σ, n_step)
np.mean(trace)

q            0.072419
δ           10.380515
accepted     0.265873
dtype: float64


fig, axs = plt.subplots(1,2)
for j in range(len(parms_name)):
    axs[j].plot(trace[parms_name[j]].values)
    axs[j].set_title(parms_name[j])
sns.despine()
fig.tight_layout()
trace['q'].values

array([0.1540923 , 0.14132258, 0.14132258, ..., 0.12513508, 0.1114039 ,
       0.1114039 ])


sns.pairplot(trace[parms_name].loc[int(n_step/2):n_step])
sns.despine()


parms_name = ['q', 'δ']
a_δ, b_δ, a_q, b_q = 1, 1, 0, 1
σ, n_step = 0.01, 10000
def sim_post_sample_Gibbs(X, parms_name, a_δ, b_δ, a_q, b_q, σ, n_step):
    logp = logp_geom_exp(X)
    t, t0 = len(X), np.sum(X == 0)
    trace = []
    accepted = []
    q0, δ0 = np.random.uniform(low = a_q, high = b_q, size = 1), 1 / np.random.gamma(shape = a_δ, scale = 1 / b_δ, size = 1)
    trace.append(np.array([q0[0], δ0[0]])), accepted.append(True)
    for j in range(n_step):
        q_old, δ_old = trace[-1] 
        δ_new = 1 / np.random.gamma(shape = (t - t0) + a_δ + 1 , scale = 1 / ((1- q_old)*np.sum(X) + b_δ), size = 1)
        q_new = np.random.normal(q_old, σ)
        u = np.random.uniform(0, 1, size = 1)
        if logp(np.array([q_new, δ_new[0]])) - logp(np.array([q_old, δ_old])) > u:
            trace.append(np.array([q_new, δ_new[0]])), accepted.append(True)
        else:
            trace.append(np.array([q_old, δ_new[0]])), accepted.append(False)
    trace_df = pd.DataFrame(trace)
    trace_df.columns = parms_name
    trace_df['accepted'] = np.array(accepted)
    return(trace_df)
trace = sim_post_sample_Gibbs(X, parms_name, a_δ, b_δ, a_q, b_q, σ, n_step)


fig, axs = plt.subplots(1,2)
for j in range(len(parms_name)):
    axs[j].plot(trace[parms_name[j]].values)
    axs[j].set_title(parms_name[j])
sns.despine()
fig.tight_layout()
trace['q'].values

array([0.06620961, 0.09634418, 0.09634418, ..., 0.08984419, 0.08984419,
       0.08984419])


sns.pairplot(trace[parms_name].loc[2500:n_step])
sns.despine()


def distance(name):
    def D(X, X_ast):
        if name == "Wasserestein":
            return(np.sqrt(np.sum(np.sort(X)-np.sort(X_ast))**2))
        elif name == "stat_ex":
            t0, t0_ast = np.sum(X == 0), np.sum(X_ast == 0)
            return(np.sqrt( (t0 - t0_ast)**2 + (np.sum(X) - np.sum(X_ast))**2))
    return(D)


def sim_post_sample_ABC(X, parms_name, a_q, b_q, a_δ, b_δ, n_step, ϵ, name_distance):
    trace, i = [], 0
    D = distance(name_distance)
    while i < n_step:
        q_ast, δ_ast = np.random.uniform(low = a_q, high = b_q, size = 1), np.random.uniform(low = a_δ, high = b_δ, size = 1)
        X_ast = sim_X(t, q_ast, δ_ast)
        if D(X, X_ast) < ϵ :
            trace.append(np.array([q_ast[0], δ_ast[0]]))
            i = i +1
    trace_df = pd.DataFrame(trace)
    trace_df.columns = parms_name
    return(trace_df)


t, q, δ = 100, 0.1, 5
X = sim_X(t, q, δ)
parms_name = ['q', 'δ']
a_q, b_q, a_δ, b_δ = 0, 1, 0, 10
n_step_abc, ϵ_abc, name_distance = 1000, 10, "stat_ex"
Σ, n_step_MH =np.diag(np.array([0.01, 1])), 5000
trace_abc, trace_MH = sim_post_sample_ABC(X, parms_name, a_q, b_q, a_δ, b_δ, n_step_abc, ϵ_abc, name_distance), sim_post_sample_MH(X, parms_name, a_q, b_q, a_δ, b_δ, Σ, n_step_MH)


trace_abc["method"] = np.repeat("abc",len(trace_abc) )
trace_MH["method"] = np.repeat("MH",len(trace_MH))
trace = pd.concat([trace_MH.drop(columns = ['accepted']).iloc[int(n_step_MH - n_step_abc):n_step_MH], trace_abc])
sns.pairplot(trace[np.append(parms_name, "method")], hue = "method")
sns.despine()

Inférence paramétrique du modèle collectif à l'aide de données agrégées¶

Simulation de données agrégée¶

Estimateur du maximum de vraisemblance¶

Estimation Bayésienne¶

Metropolis Hasting¶

Echantilloneur de Gibbs¶

Estimation Bayésienne approchée¶