code/craam/ImMDP_8hpp_source.html

 #pragma once

 #include "RMDP.hpp"
 #include "Transition.hpp"
 #include "modeltools.hpp"
 #include "algorithms/values.hpp"
 #include "algorithms/robust_values.hpp"
 #include "algorithms/occupancies.hpp"

 #include <vector>
 #include <memory>
 #include <random>
 #include <algorithm>
 #include <iostream>
 #include <iterator>

 #include "cpp11-range-master/range.hpp"

 namespace craam{
 namespace impl{

 using namespace std;
 using namespace util::lang;
 using namespace craam::algorithms;

 template<typename T>
 T max_value(vector<T> x){
     return (x.size() > 0) ? *max_element(x.begin(), x.end()) : -1;
 }

 class MDPI{

 public:
     MDPI(const shared_ptr<const MDP>& mdp, const indvec& state2observ, const Transition& initial):
              mdp(mdp), state2observ(state2observ), initial(initial),
               obscount(1+max_value(state2observ)),
               action_counts(obscount, -1){
         check_parameters(*mdp, state2observ, initial);

         for(auto state : range((size_t) 0, mdp->state_count())){
             auto obs = state2observ[state];

             // check the number of actions
             auto ac = mdp->get_state(state).action_count();
             if(action_counts[obs] >= 0){
                 if(action_counts[obs] != (long) ac){
                     throw invalid_argument("Inconsistent number of actions: " + to_string(ac) +
                                            " instead of " + to_string(action_counts[obs]) +
                                            " in state " + to_string(state));
                 }
             }else{
                 action_counts[obs] = ac;
             }
         }
     }

     MDPI(const MDP& mdp, const indvec& state2observ, const Transition& initial)
             : MDPI(make_shared<const MDP>(mdp),state2observ, initial){}

     size_t obs_count() const { return obscount; };
     size_t state_count() const {return mdp->state_count(); };
     long state2obs(long state){return state2observ[state];};
     size_t action_count(long obsid) {return action_counts[obsid];};

     indvec obspol2statepol(const indvec& obspol) const{
         indvec statepol(state_count());
         obspol2statepol(obspol, statepol);
         return statepol;
     }

     void obspol2statepol(const indvec& obspol, indvec& statepol) const{
         assert(obspol.size() == (size_t) obscount);
         assert(mdp->state_count() == statepol.size());

         for(auto s : range((size_t)0, state_count())){
             statepol[s] = obspol[state2observ[s]];
         }
     }

     Transition transition2obs(const Transition& tran){
         if((size_t) tran.max_index() >= state_count())
         throw invalid_argument("Transition to a non-existing state.");
         Transition result;
         for(auto i : range((size_t)0, tran.size())){
             const long state = tran.get_indices()[i];
             const prec_t prob = tran.get_probabilities()[i];
             const prec_t reward = tran.get_rewards()[i];

             result.add_sample(state2obs(state), prob, reward);
         }
         return result;
     }

     shared_ptr<const MDP> get_mdp() {return mdp;};

     Transition get_initial() const {return initial;};

     indvec random_policy(random_device::result_type seed = random_device{}()){
         indvec policy(obscount, -1);

         default_random_engine gen(seed);

         for(auto obs : range(0l, obscount)){
             auto ac = action_counts[obs];
             if(ac == 0)
                 continue;

             uniform_int_distribution<int> dist(0,ac-1);
             policy[obs] = dist(gen);
         }

         return policy;
     }

     prec_t total_return(prec_t discount, prec_t precision=SOLPREC) const{
         auto&& sol = mpi_jac(*mdp, discount, numvec(0), PolicyDeterministic(), MAXITER, precision);
         return sol.total_return(initial);
     }

     // save and load description.
     void to_csv(ostream& output_mdp, ostream& output_state2obs, ostream& output_initial,
                     bool headers = true) const{
         // save the MDP
         mdp->to_csv(output_mdp, headers);
         // save state maps
         if(headers){
             output_state2obs << "idstate,idobs" << endl;
         }
         for(auto i : indices(state2observ)){
             output_state2obs << i << "," << state2observ[i] << endl;
         }

         // save the initial distribution
         if(headers){
             output_initial << "idstate,probability" << endl;
         }
         const indvec& inindices = initial.get_indices();
         const numvec& probabilities = initial.get_probabilities();

         for(auto i : indices(inindices)){
             output_initial << inindices[i] << "," << probabilities[i] << endl;
         }

     }

     void to_csv_file(const string& output_mdp, const string& output_state2obs,
                      const string& output_initial, bool headers = true) const{

         // open file streams
         ofstream ofs_mdp(output_mdp),
                     ofs_state2obs(output_state2obs),
                     ofs_initial(output_initial);

         // save the data
         to_csv(ofs_mdp, ofs_state2obs, ofs_initial, headers);

         // close streams
         ofs_mdp.close(); ofs_state2obs.close(); ofs_initial.close();
     }

     template<typename T = MDPI>
     static unique_ptr<T> from_csv(istream& input_mdp, istream& input_state2obs,
                                      istream& input_initial, bool headers = true){
         // read mdp
         MDP mdp;
         craam::from_csv(mdp,input_mdp);

         // read state2obs
         string line;
         if(headers) input_state2obs >> line; // skip the header

         indvec state2obs(mdp.state_count());
         input_state2obs >> line;
         while(input_state2obs.good()){
             string cellstring;
             stringstream linestream(line);

             getline(linestream, cellstring, ',');
             auto idstate = stoi(cellstring);
             getline(linestream, cellstring, ',');
             auto idobs = stoi(cellstring);
             state2obs[idstate] = idobs;

             input_state2obs >> line;
         }

         // read initial distribution
         if(headers) input_initial >> line; // skip the header

         Transition initial;
         input_initial >> line;
         while(input_initial.good()){
             string cellstring;
             stringstream linestream(line);

             getline(linestream, cellstring, ',');
             auto idstate = stoi(cellstring);
             getline(linestream, cellstring, ',');
             auto prob = stof(cellstring);
             initial.add_sample(idstate, prob, 0.0);

             input_initial >> line;
         }

         shared_ptr<const MDP> csmdp = make_shared<const MDP>(std::move(mdp));
         return make_unique<T>(csmdp, state2obs, initial);

     }
     template<typename T = MDPI>
     static unique_ptr<T> from_csv_file(const string& input_mdp,
                                           const string& input_state2obs,
                                           const string& input_initial,
                                           bool headers = true){
         // open files
         ifstream ifs_mdp(input_mdp),
                     ifs_state2obs(input_state2obs),
                     ifs_initial(input_initial);

         // transfer method call
         return from_csv<T>(ifs_mdp, ifs_state2obs, ifs_initial, headers);
     }
 protected:

     shared_ptr<const MDP> mdp;
     indvec state2observ;
     Transition initial;
     long obscount;
     indvec action_counts;

     static void check_parameters(const MDP& mdp, const indvec& state2observ, const Transition& initial){
         // *** check consistency of provided parameters ***
         // check that the number of state2observ coefficients it correct
         if(mdp.state_count() !=  state2observ.size())
             throw invalid_argument("Number of observation indexes must match the number of states.");
         // check that the observation indexes are not negative
         if(state2observ.size() == 0)
             throw invalid_argument("Cannot have empty observations.");
         if(*min_element(state2observ.begin(), state2observ.end()) < 0)
             throw invalid_argument("Observation indexes must be non-negative");
         // check then initial transition
         if(initial.max_index() >= (long) mdp.state_count())
             throw invalid_argument("An initial transition to a non-existent state.");
         if(!initial.is_normalized())
             throw invalid_argument("The initial transition must be normalized.");
     }
 };


 class MDPI_R : public MDPI{

 public:

     MDPI_R(const shared_ptr<const MDP>& mdp, const indvec& state2observ, const Transition& initial)
         : MDPI(mdp, state2observ, initial), robust_mdp(), state2outcome(mdp->state_count(),-1){
         initialize_robustmdp();
     }

     MDPI_R(const MDP& mdp, const indvec& state2observ, const Transition& initial)
         : MDPI(mdp, state2observ, initial), robust_mdp(), state2outcome(mdp.state_count(),-1){
         initialize_robustmdp();
     }

     const RMDP& get_robust_mdp() const {
         return robust_mdp;
     };

     void update_importance_weights(const numvec& weights){
         if(weights.size() != state_count()){
             throw invalid_argument("Size of distribution must match the number of states.");
         }

         // loop over all mdp states and set weights
         for(size_t i : indices(weights)){
             const auto rmdp_stateid = state2observ[i];
             const auto rmdp_outcomeid = state2outcome[i];

             // loop over all actions
             auto& rstate = robust_mdp.get_state(rmdp_stateid);
             for(size_t ai : indices(rstate)){
                 rstate.get_action(ai).set_distribution(rmdp_outcomeid, weights[i]);
             }
         }

         // now normalize the weights to they sum to one
         for(size_t si : indices(robust_mdp)){
             auto& s = robust_mdp.get_state(si);
             for(size_t ai : indices(s)){
                 auto& a = s.get_action(ai);
                 // check if the distribution sums to 0 (not visited)
                 const numvec& dist = a.get_distribution();
                 if(accumulate(dist.begin(), dist.end(), 0.0) > 0.0){
                     a.normalize_distribution();
                 }
                 else{
                     // just set it to be uniform
                     a.uniform_distribution();
                 }
             }
         }
     }

     indvec solve_reweighted(long iterations, prec_t discount, const indvec& initobspol = indvec(0)){
         if(initobspol.size() > 0 && initobspol.size() != obs_count()){
             throw invalid_argument("Initial policy must be defined for all observations.");
         }

         indvec obspol(initobspol);                   // return observation policy
         if(obspol.size() == 0){
             obspol.resize(obs_count(),0);
         }
         indvec statepol(state_count(),0);         // state policy that corresponds to the observation policy
         obspol2statepol(obspol,statepol);

         // map the initial distribution to observations in order to evaluate the return
         const Transition oinitial = transition2obs(initial);

         for(auto iter : range(0l, iterations)){
             (void) iter; // to remove the warning

             // compute state distribution
             numvec importanceweights = occfreq_mat(*mdp, initial, discount, statepol);
             // update importance weights
             update_importance_weights(importanceweights);
             // compute solution of the robust MDP with the new weights
             auto&& s = mpi_jac(robust_mdp, discount);

             // update the policy for the underlying states
             obspol = s.policy;
             // map the observation policy to the individual states
             obspol2statepol(obspol, statepol);
         }
         return obspol;
     }

     indvec solve_robust(long iterations, prec_t threshold, prec_t discount, const indvec& initobspol = indvec(0)){

         if(initobspol.size() > 0 && initobspol.size() != obs_count()){
             throw invalid_argument("Initial policy must be defined for all observations.");
         }

         indvec obspol(initobspol);                   // return observation policy
         if(obspol.size() == 0){
             obspol.resize(obs_count(),0);
         }
         indvec statepol(state_count(),0);         // state policy that corresponds to the observation policy
         obspol2statepol(obspol,statepol);

         for(auto iter : range(0l, iterations)){
             (void) iter; // to remove the warning

             // compute state distribution
             numvec&& importanceweights = occfreq_mat(*mdp, initial, discount, statepol);

             // update importance weights
             update_importance_weights(importanceweights);

             // compute solution of the robust MDP with the new weights
             auto&& s = mpi_jac(robust_mdp, discount, numvec(0), uniform_nature(robust_mdp, robust_l1, threshold));

             // update the policy for the underlying states
             obspol = s.policy;

             // map the observation policy to the individual states
             obspol2statepol(obspol, statepol);

         }
         return obspol;

     }

     static unique_ptr<MDPI_R> from_csv(istream& input_mdp, istream& input_state2obs,
                                      istream& input_initial, bool headers = true){

         return MDPI::from_csv<MDPI_R>(input_mdp,input_state2obs,input_initial, headers);
     };

     static unique_ptr<MDPI_R> from_csv_file(const string& input_mdp,
                                           const string& input_state2obs,
                                           const string& input_initial,
                                           bool headers = true){
         return MDPI::from_csv_file<MDPI_R>(input_mdp,input_state2obs,input_initial, headers);
     };

 protected:
     RMDP robust_mdp;
     indvec state2outcome;
     void initialize_robustmdp(){
         // Determine the number of state2observ
         auto obs_count = *max_element(state2observ.begin(), state2observ.end()) + 1;

         // keep track of the number of outcomes for each
         indvec outcome_count(obs_count, 0);

         for(size_t state_index : indices(*mdp)){
             auto obs = state2observ[state_index];

             // make sure to at least create a terminal state when there are no actions for it
             robust_mdp.create_state(obs);

             // maps the transitions
             for(auto action_index : range(0l, action_counts[obs])){
                 // get original MDP transition
                 const Transition& old_tran = mdp->get_state(state_index).get_action(action_index).get_outcome();
                 // create a new transition
                 Transition& new_tran = robust_mdp.create_state(obs).create_action(action_index).create_outcome(outcome_count[obs]);

                 // copy the original transitions (they are automatically consolidated while being added)
                 for(auto k : range((size_t) 0, old_tran.size())){
                     new_tran.add_sample(state2observ[old_tran.get_indices()[k]],
                                         old_tran.get_probabilities()[k],
                                         old_tran.get_rewards()[k]);
                 }

             }
             state2outcome[state_index] = outcome_count[obs]++;
         }
     }
 };

 }}
craam::algorithms::occfreq_mat
numvec occfreq_mat(const GRMDP< SType > &rmdp, const Transition &init, prec_t discount, const Policies &policies)
Computes occupancy frequencies using matrix representation of transition probabilities.
Definition: occupancies.hpp:124

craam::impl::MDPI::transition2obs
Transition transition2obs(const Transition &tran)
Converts a transition from states to observations, adding probabilities of individual states...
Definition: ImMDP.hpp:128

craam::impl::MDPI::obspol2statepol
indvec obspol2statepol(const indvec &obspol) const
Converts a policy defined in terms of observations to a policy defined in terms of states...
Definition: ImMDP.hpp:102

craam::impl::MDPI::to_csv_file
void to_csv_file(const string &output_mdp, const string &output_state2obs, const string &output_initial, bool headers=true) const
Saves the MDPI to a set of 3 csv files, for transitions, observations, and the initial distribution...
Definition: ImMDP.hpp:219

craam::impl::MDPI::from_csv
static unique_ptr< T > from_csv(istream &input_mdp, istream &input_state2obs, istream &input_initial, bool headers=true)
Loads an MDPI from a set of 3 csv files, for transitions, observations, and the initial distribution...
Definition: ImMDP.hpp:245

craam::impl::MDPI
Represents an MDP with implementability constraints.
Definition: ImMDP.hpp:37

craam::algorithms::uniform_nature
PolicyNature< T > uniform_nature(size_t statecount, NatureResponse< T > nature, T threshold)
A helper function that simply copies a nature specification across all states.
Definition: robust_values.hpp:318

craam::impl::MDPI::get_initial
Transition get_initial() const
Initial distribution of MDP.
Definition: ImMDP.hpp:146

craam::impl::MDPI::obscount
long obscount
number of observations
Definition: ImMDP.hpp:314

craam::GRMDP
A general robust Markov decision process.
Definition: RMDP.hpp:182

craam::Transition::get_indices
const indvec & get_indices() const
Indices with positive probabilities.
Definition: Transition.hpp:323

craam::impl::MDPI::initial
Transition initial
initial distribution
Definition: ImMDP.hpp:312

craam::Transition::max_index
long max_index() const
Returns the maximal indexes involved in the transition.
Definition: Transition.hpp:262

std

lang

craam::impl::MDPI::get_mdp
shared_ptr< const MDP > get_mdp()
Internal MDP representation.
Definition: ImMDP.hpp:143

craam::prec_t
double prec_t
Default precision used throughout the code.
Definition: definitions.hpp:25

craam::algorithms::mpi_jac
auto mpi_jac(const GRMDP< SType > &mdp, prec_t discount, const numvec &valuefunction=numvec(0), const ResponseType &response=PolicyDeterministic(), unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC, unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2, bool print_progress=false)
Modified policy iteration using Jacobi value iteration in the inner loop.
Definition: values.hpp:405

craam::numvec
vector< prec_t > numvec
Default numerical vector.
Definition: definitions.hpp:28

craam::impl::MDPI_R::state2outcome
indvec state2outcome
Maps the index of the mdp state to the index of the observation within the state corresponding to the...
Definition: ImMDP.hpp:532

craam::impl::MDPI::mdp
shared_ptr< const MDP > mdp
the underlying MDP
Definition: ImMDP.hpp:308

craam::impl::MDPI::action_counts
indvec action_counts
number of actions for each observation
Definition: ImMDP.hpp:316

craam::impl::MDPI_R::MDPI_R
MDPI_R(const MDP &mdp, const indvec &state2observ, const Transition &initial)
Calls the base constructor and also constructs the corresponding robust MDP.
Definition: ImMDP.hpp:362

craam::impl::MDPI::MDPI
MDPI(const MDP &mdp, const indvec &state2observ, const Transition &initial)
Constructs the MDP with implementability constraints.
Definition: ImMDP.hpp:88

craam::algorithms::robust_l1
vec_scal_t robust_l1(const numvec &v, const numvec &p, prec_t threshold)
L1 robust response.
Definition: robust_values.hpp:44

craam::algorithms::PolicyDeterministic
Definition: values.hpp:252

craam::Transition::get_probabilities
const numvec & get_probabilities() const
Returns list of positive probabilities for indexes returned by get_indices.
Definition: Transition.hpp:332

craam::GRMDP::state_count
size_t state_count() const
Number of states.
Definition: RMDP.hpp:225

craam::impl::MDPI::to_csv
void to_csv(ostream &output_mdp, ostream &output_state2obs, ostream &output_initial, bool headers=true) const
Saves the MDPI to a set of 3 csv files, for transitions, observations, and the initial distribution...
Definition: ImMDP.hpp:186

craam::impl::MDPI_R::initialize_robustmdp
void initialize_robustmdp()
Constructs a robust version of the implementable MDP.
Definition: ImMDP.hpp:534

craam::impl::MDPI::check_parameters
static void check_parameters(const MDP &mdp, const indvec &state2observ, const Transition &initial)
Checks whether the parameters are correct.
Definition: ImMDP.hpp:322

craam::impl::MDPI_R::solve_robust
indvec solve_robust(long iterations, prec_t threshold, prec_t discount, const indvec &initobspol=indvec(0))
Uses a robust MDP formulation to solve the MDPI.
Definition: ImMDP.hpp:477

craam::algorithms
Main namespace for algorithms that operate on MDPs and RMDPs.
Definition: occupancies.hpp:8

craam::impl::MDPI_R::MDPI_R
MDPI_R(const shared_ptr< const MDP > &mdp, const indvec &state2observ, const Transition &initial)
Calls the base constructor and also constructs the corresponding robust MDP.
Definition: ImMDP.hpp:353

craam::Transition::size
size_t size() const
Returns the number of target states with non-zero transition probabilities.
Definition: Transition.hpp:249

craam::Transition
Represents sparse transition probabilities and rewards from a single state.
Definition: Transition.hpp:31

craam::SOLPREC
constexpr prec_t SOLPREC
Default solution precision.
Definition: definitions.hpp:40

craam::from_csv
Model & from_csv(Model &mdp, istream &input, bool header=true)
Loads an GRMDP definition from a simple csv file.
Definition: modeltools.hpp:82

craam::Transition::is_normalized
bool is_normalized() const
Definition: Transition.hpp:186

craam::GRMDP::create_state
SType & create_state(long stateid)
Assures that the MDP state exists and if it does not, then it is created.
Definition: RMDP.hpp:211

craam::Transition::get_rewards
const numvec & get_rewards() const
Rewards for indices with positive probabilities returned by get_indices.
Definition: Transition.hpp:337

craam::impl::MDPI_R::get_robust_mdp
const RMDP & get_robust_mdp() const
Definition: ImMDP.hpp:367

craam::impl::MDPI_R::update_importance_weights
void update_importance_weights(const numvec &weights)
Updates the weights on outcomes in the robust MDP based on the state weights provided.
Definition: ImMDP.hpp:378

craam::from_csv_file
Model & from_csv_file(Model &mdp, const string &filename, bool header=true)
Loads the transition probabilities and rewards from a CSV file.
Definition: modeltools.hpp:127

craam::impl::MDPI::obspol2statepol
void obspol2statepol(const indvec &obspol, indvec &statepol) const
Converts a policy defined in terms of observations to a policy defined in terms of states...
Definition: ImMDP.hpp:114

craam::impl::MDPI_R::robust_mdp
RMDP robust_mdp
Robust representation of the MDPI.
Definition: ImMDP.hpp:525

craam::SAState::create_action
AType & create_action(long actionid)
Creates an action given by actionid if it does not exists.
Definition: State.hpp:66

craam::impl::MDPI_R::solve_reweighted
indvec solve_reweighted(long iterations, prec_t discount, const indvec &initobspol=indvec(0))
Uses a simple iterative algorithm to solve the MDPI.
Definition: ImMDP.hpp:428

craam::impl::MDPI_R::from_csv_file
static unique_ptr< MDPI_R > from_csv_file(const string &input_mdp, const string &input_state2obs, const string &input_initial, bool headers=true)
Loads the class from an set of CSV files.
Definition: ImMDP.hpp:520

craam::indvec
vector< long > indvec
Default index vector.
Definition: definitions.hpp:31

craam::impl::MDPI_R
An MDP with implementability constraints.
Definition: ImMDP.hpp:345

craam::MAXITER
constexpr unsigned long MAXITER
Default number of iterations.
Definition: definitions.hpp:43

craam
Main namespace which includes modeling a solving functionality.
Definition: Action.hpp:18

craam::impl::MDPI::total_return
prec_t total_return(prec_t discount, prec_t precision=SOLPREC) const
Computes a return of an observation policy.
Definition: ImMDP.hpp:172

craam::impl::MDPI::MDPI
MDPI(const shared_ptr< const MDP > &mdp, const indvec &state2observ, const Transition &initial)
Constructs the MDP with implementability constraints.
Definition: ImMDP.hpp:54

craam::impl::MDPI::state2observ
indvec state2observ
maps index of a state to the index of the observation
Definition: ImMDP.hpp:310

craam::Transition::add_sample
void add_sample(long stateid, prec_t probability, prec_t reward)
Adds a single transitions probability to the existing probabilities.
Definition: Transition.hpp:116

craam::impl::MDPI::random_policy
indvec random_policy(random_device::result_type seed=random_device{}())
Constructs a random observation policy.
Definition: ImMDP.hpp:149