code/craam/robust__values_8hpp_source.html

 #pragma once

 #include "../RMDP.hpp"
 #include "values.hpp"
 #include <functional>
 #include <type_traits>
 #include "../cpp11-range-master/range.hpp"

 namespace craam { namespace algorithms{

 using namespace std;
 using namespace util::lang;

 // *******************************************************
 // Nature definitions
 // *******************************************************

 template<class T>
 using NatureResponse = vec_scal_t (*)(numvec const& v, numvec const& p, T threshold);

 template<class T>
 using NatureInstance = pair<NatureResponse<T>, T>;


 inline vec_scal_t robust_l1(const numvec& v, const numvec& p, prec_t threshold){
     assert(v.size() == p.size());
     return worstcase_l1(v,p,threshold);
 }

 inline vec_scal_t optimistic_l1(const numvec& v, const numvec& p, prec_t threshold){
     assert(v.size() == p.size());
     //TODO: this could be faster without copying the vector and just modifying the function
     numvec minusv(v.size());
     transform(begin(v), end(v), begin(minusv), negate<prec_t>());
     auto&& result = worstcase_l1(minusv,p,threshold);
     return make_pair(result.first, -result.second);
 }

 template<class T>
 inline vec_scal_t robust_unbounded(const numvec& v, const numvec& p, T){
     assert(v.size() == p.size());
     numvec dist(v.size(),0.0);
     long index = min_element(begin(v), end(v)) - begin(v);
     dist[index] = 1;
     return make_pair(dist,v[index]);
 }

 template<class T>
 inline vec_scal_t optimistic_unbounded(const numvec& v, const numvec& p, T){
     assert(v.size() == p.size());
     numvec dist(v.size(),0.0);
     long index = max_element(begin(v), end(v)) - begin(v);
     dist[index] = 1;
     return make_pair(dist,v[index]);
 }

 // *******************************************************
 // RegularAction computation methods
 // *******************************************************


 template<class T>
 inline vec_scal_t value_action(const RegularAction& action, const numvec& valuefunction,
                         prec_t discount, const NatureInstance<T>& nature){

     const numvec& rewards = action.get_outcome().get_rewards();
     const indvec& nonzero_indices = action.get_outcome().get_indices();

     numvec qvalues(rewards.size()); // values for individual states - used by nature.

     #pragma omp simd
     for(size_t i = 0; i < rewards.size(); i++){
         qvalues[i] = rewards[i] + discount * valuefunction[nonzero_indices[i]];
     }

     return nature.first(qvalues, action.get_outcome().get_probabilities(), nature.second);
 }


 // *******************************************************
 // WeightedOutcomeAction computation methods
 // *******************************************************

 template<class T>
 inline vec_scal_t value_action(const WeightedOutcomeAction& action, numvec const& valuefunction,
                                 prec_t discount, const NatureInstance<T> nature) {

     assert(action.get_distribution().size() == action.get_outcomes().size());

     if(action.get_outcomes().empty())
         throw invalid_argument("Action with no action.get_outcomes().");

     numvec outcomevalues(action.size());
     for(size_t i = 0; i < action.size(); i++)
         outcomevalues[i] = action[i].value(valuefunction, discount);

     return nature.first(outcomevalues, action.get_distribution(), nature.second);
 }


 // *******************************************************
 // State computation methods
 // *******************************************************


 template<class AType, class T>
 inline vec_scal_t
 value_fix_state(const SAState<AType>& state, numvec const& valuefunction, prec_t discount,
                               long actionid, const NatureInstance<T>& nature) {
    // this is the terminal state, return 0
     if(state.is_terminal()) return make_pair(numvec(0),0);

     assert(actionid >= 0 && actionid < long(state.size()));

     if(actionid < 0 || actionid >= (long) state.size()) throw range_error("invalid actionid: " + to_string(actionid) + " for action count: " + to_string(state.get_actions().size()) );

     const auto& action = state[actionid];
     // cannot assume that the action is valid
     if(!state.is_valid(actionid)) throw invalid_argument("Cannot take an invalid action");

     return value_action(action, valuefunction, discount, nature);
 }


 template<typename AType, typename T>
 inline ind_vec_scal_t
 value_max_state(const SAState<AType>& state, const numvec& valuefunction,
                 prec_t discount, const NatureInstance<T>& nature) {

     if(state.is_terminal())
         return make_tuple(-1,numvec(),0);

     prec_t maxvalue = -numeric_limits<prec_t>::infinity();

     long result = -1;
     numvec result_outcome;

     for(size_t i = 0; i < state.get_actions().size(); i++){
         const auto& action = state[i];

         // skip invalid state.get_actions()
         if(!state.is_valid(i)) continue;

         auto value = value_action(action, valuefunction, discount, nature);
         if(value.second > maxvalue){
             maxvalue = value.second;
             result = i;
             result_outcome = move(value.first);
         }
     }

     // if the result has not been changed, that means that all actions are invalid
     if(result == -1)
         throw invalid_argument("all actions are invalid.");

     return make_tuple(result,result_outcome,maxvalue);
 }


 // **************************************************************************
 // Helper classes to handle computing of the best response
 // **************************************************************************

 struct SolutionRobust : public Solution {
     vector<numvec> natpolicy;

     SolutionRobust() : Solution(), natpolicy(0) {};

     SolutionRobust(size_t statecount): Solution(statecount), natpolicy(statecount, numvec(0)) {};

     SolutionRobust(numvec valuefunction, indvec policy):
             Solution(move(valuefunction), move(policy)),
             natpolicy(this->valuefunction.size(), numvec(0)) {};

     SolutionRobust(numvec valuefunction, indvec policy,
              vector<numvec> natpolicy, prec_t residual = -1, long iterations = -1) :
         Solution(move(valuefunction), move(policy), residual, iterations),
         natpolicy(move(natpolicy)) {};
 };
 template<class T>
 class PolicyNature : public PolicyDeterministic {
 public:
     using solution_type = SolutionRobust;

     vector<NatureInstance<T>> natspec;

     PolicyNature(indvec policy, vector<NatureInstance<T>> natspec):
         PolicyDeterministic(move(policy)), natspec(move(natspec)) {};

     PolicyNature(vector<NatureInstance<T>> natspec):
         PolicyDeterministic(indvec(0)), natspec(move(natspec)) {};

     SolutionRobust new_solution(size_t statecount, numvec valuefunction) const {
         if(natspec.size() != statecount)
             throw invalid_argument("Size of nature specification does not match the number of states.");

         process_valuefunction(statecount, valuefunction);
         SolutionRobust solution =  SolutionRobust(move(valuefunction), process_policy(statecount));
         return solution;
     }

     template<class SType>
     prec_t update_solution(SolutionRobust& solution, const SType& state, long stateid,
                             const numvec& valuefunction, prec_t discount) const{

         prec_t newvalue = 0;
         // check whether this state should only be evaluated or also optimized
         if(policy.empty() || policy[stateid] < 0){    // optimizing
             tie(solution.policy[stateid], solution.natpolicy[stateid], newvalue) = value_max_state(state, valuefunction, discount, natspec[stateid]);
         }else{// fixed-action, do not copy
             prec_t newvalue;
             tie(solution.natpolicy[stateid], newvalue) = value_fix_state(state, valuefunction, discount, policy[stateid], natspec[stateid]);
         }
         return newvalue;
     }

     template<class SType>
     prec_t update_value(const SolutionRobust& solution, const SType& state, long stateid,
                             const numvec& valuefunction, prec_t discount) const{

         return value_fix_state(state, valuefunction, discount, solution.policy[stateid],
                 solution.natpolicy[stateid]);
     }

 };


 template<class T>
 PolicyNature<T> uniform_nature(size_t statecount, NatureResponse<T> nature,
                             T threshold){
     return PolicyNature<T>(vector<NatureInstance<T>>(statecount, make_pair(nature, threshold)));
 }

 template<class Model, class T>
 PolicyNature<T> uniform_nature(const Model& m, NatureResponse<T> nature,
                             T threshold){
     return PolicyNature<T>(vector<NatureInstance<T>>(m.state_count(), make_pair(nature, threshold)));
 }


 // **************************************************************************
 // Convenient interface methods
 // **************************************************************************

 namespace internal{

 template <class T1, class T2>
 vector<pair<T1,T2>> zip(const vector<T1>& v1, const vector<T2>& v2){
     assert(v1.size() == v2.size());
     vector<pair<T1,T2>> result(v1.size());
     for(size_t i=0; i< v1.size(); i++){
         result[i] = make_pair(v1[i], v2[i]);
     }
     return result;
 }

 template <class T1, class T2>
 vector<pair<T1,T2>> zip(const T1& v1, const vector<T2>& v2){
     vector<pair<T1,T2>> result(v2.size());
     for(size_t i=0; i< v2.size(); i++){
         result[i] = make_pair(v1, v2[i]);
     }
     return result;
 }
 }

 template<class SType, class T = prec_t >
 inline auto rsolve_vi(const GRMDP<SType>& mdp, prec_t discount,
                         const vector<NatureResponse<T>>& nature, const vector<T>& thresholds,
                         numvec valuefunction=numvec(0), const indvec& policy = numvec(0),
                         unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
     {
     assert(nature.size() == thresholds.size());
     assert(nature.size() == mdp.state_count());

     return vi_gs<SType, PolicyNature<T>>(mdp, discount, move(valuefunction),
             PolicyNature<T>(policy,internal::zip(nature,thresholds)),
             iterations, maxresidual);
 }

 template<class SType, class T = prec_t >
 inline auto rsolve_vi(const GRMDP<SType>& mdp, prec_t discount,
                         const NatureResponse<T>& nature, const vector<T>& thresholds,
                         numvec valuefunction=numvec(0), const indvec& policy = numvec(0),
                         unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
     {
     assert(nature.size() == thresholds.size());
     assert(nature.size() == mdp.state_count());

     return vi_gs<SType, PolicyNature<T>>(mdp, discount, move(valuefunction),
             PolicyNature<T>(policy,internal::zip(nature,thresholds)),
             iterations, maxresidual);
 }


 template<class SType, class T = prec_t>
 inline auto rsolve_mpi(const GRMDP<SType>& mdp, prec_t discount,
                 const vector<NatureResponse<T>>& nature, const vector<T>& thresholds,
                 const numvec& valuefunction=numvec(0), const indvec& policy = indvec(0),
                 unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC,
                 unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2,
                 bool print_progress=false) {
     assert(nature.size() == thresholds.size());
     assert(nature.size() == mdp.state_count());


     return mpi_jac<SType, PolicyNature<T>>(mdp, discount, valuefunction,
                     PolicyNature<T>(policy,internal::zip(nature,thresholds)),
                     iterations_pi, maxresidual_pi,
                     iterations_vi, maxresidual_vi,
                     print_progress);
 }

 template<class SType, class T = prec_t>
 inline auto rsolve_mpi(const GRMDP<SType>& mdp, prec_t discount,
                 const NatureResponse<T>& nature, const vector<T>& thresholds,
                 const numvec& valuefunction=numvec(0), const indvec& policy = indvec(0),
                 unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC,
                 unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2,
                 bool print_progress=false) {
     assert(nature.size() == thresholds.size());
     assert(nature.size() == mdp.state_count());


     return mpi_jac<SType, PolicyNature<T>>(mdp, discount, valuefunction,
                     PolicyNature<T>(policy,internal::zip(nature,thresholds)),
                     iterations_pi, maxresidual_pi,
                     iterations_vi, maxresidual_vi,
                     print_progress);
 }

 inline NatureResponse<prec_t> string_to_nature(string nature){
     if(nature == "robust_unbounded") return robust_unbounded;
     if(nature == "optimistic_unbounded") return optimistic_unbounded;
     if(nature == "robust_l1") return robust_l1;
     if(nature == "optimistic_l1") return optimistic_l1;
     throw invalid_argument("Unknown nature.");
 }


 }}
craam::SAState
State for sa-rectangular uncertainty (or no uncertainty) in an MDP.
Definition: State.hpp:38

craam::algorithms::Solution
A solution to a plain MDP.
Definition: values.hpp:211

craam::algorithms::value_fix_state
vec_scal_t value_fix_state(const SAState< AType > &state, numvec const &valuefunction, prec_t discount, long actionid, const NatureInstance< T > &nature)
Computes the value of a fixed action and any response of nature.
Definition: robust_values.hpp:161

craam::algorithms::rsolve_mpi
auto rsolve_mpi(const GRMDP< SType > &mdp, prec_t discount, const vector< NatureResponse< T >> &nature, const vector< T > &thresholds, const numvec &valuefunction=numvec(0), const indvec &policy=indvec(0), unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC, unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2, bool print_progress=false)
Modified policy iteration using Jacobi value iteration in the inner loop.
Definition: robust_values.hpp:434

craam::algorithms::PolicyNature::update_solution
prec_t update_solution(SolutionRobust &solution, const SType &state, long stateid, const numvec &valuefunction, prec_t discount) const
Computes the Bellman update and updates the solution to the best response It does not update the valu...
Definition: robust_values.hpp:289

craam::SAState::size
size_t size() const
Number of actions.
Definition: State.hpp:57

craam::WeightedOutcomeAction::get_distribution
const numvec & get_distribution() const
Returns the baseline distribution over outcomes.
Definition: Action.hpp:361

craam::OutcomeManagement::get_outcomes
const vector< Transition > & get_outcomes() const
Returns the list of outcomes.
Definition: Action.hpp:197

craam::OutcomeManagement::size
size_t size() const
Returns number of outcomes.
Definition: Action.hpp:185

craam::algorithms::uniform_nature
PolicyNature< T > uniform_nature(size_t statecount, NatureResponse< T > nature, T threshold)
A helper function that simply copies a nature specification across all states.
Definition: robust_values.hpp:318

craam::SAState::is_terminal
bool is_terminal() const
True if the state is considered terminal (no actions).
Definition: State.hpp:119

craam::GRMDP
A general robust Markov decision process.
Definition: RMDP.hpp:182

craam::Transition::get_indices
const indvec & get_indices() const
Indices with positive probabilities.
Definition: Transition.hpp:323

craam::algorithms::SolutionRobust
A robust solution to a robust or regular MDP.
Definition: robust_values.hpp:233

std

lang

craam::prec_t
double prec_t
Default precision used throughout the code.
Definition: definitions.hpp:25

craam::WeightedOutcomeAction
An action in a robust MDP that allows for outcomes chosen by nature.
Definition: Action.hpp:230

craam::numvec
vector< prec_t > numvec
Default numerical vector.
Definition: definitions.hpp:28

craam::algorithms::SolutionRobust::SolutionRobust
SolutionRobust(numvec valuefunction, indvec policy)
Empty SolutionRobust for a problem with policy and value function.
Definition: robust_values.hpp:245

craam::algorithms::optimistic_l1
vec_scal_t optimistic_l1(const numvec &v, const numvec &p, prec_t threshold)
L1 optimistic response.
Definition: robust_values.hpp:50

craam::algorithms::Solution::policy
indvec policy
index of the action to take for each states
Definition: values.hpp:215

craam::algorithms::PolicyNature
The class abstracts some operations of value / policy iteration in order to generalize to various typ...
Definition: robust_values.hpp:260

craam::algorithms::robust_l1
vec_scal_t robust_l1(const numvec &v, const numvec &p, prec_t threshold)
L1 robust response.
Definition: robust_values.hpp:44

craam::algorithms::PolicyDeterministic
Definition: values.hpp:252

craam::Transition::get_probabilities
const numvec & get_probabilities() const
Returns list of positive probabilities for indexes returned by get_indices.
Definition: Transition.hpp:332

craam::algorithms::PolicyNature::new_solution
SolutionRobust new_solution(size_t statecount, numvec valuefunction) const
Constructs a new robust solution.
Definition: robust_values.hpp:276

craam::vec_scal_t
pair< numvec, prec_t > vec_scal_t
Pair of a vector and a scalar.
Definition: definitions.hpp:34

craam::GRMDP::state_count
size_t state_count() const
Number of states.
Definition: RMDP.hpp:225

craam::SAState::is_valid
bool is_valid(long actionid) const
Returns whether the actions is valid.
Definition: State.hpp:100

craam::algorithms::SolutionRobust::SolutionRobust
SolutionRobust()
Empty SolutionRobust.
Definition: robust_values.hpp:239

craam::SOLPREC
constexpr prec_t SOLPREC
Default solution precision.
Definition: definitions.hpp:40

craam::RegularAction::get_outcome
const Transition & get_outcome(long outcomeid) const
Returns the single outcome.
Definition: Action.hpp:48

craam::algorithms::SolutionRobust::natpolicy
vector< numvec > natpolicy
Randomized policy of nature, probabilities only for states that have non-zero probability in the MDP ...
Definition: robust_values.hpp:236

craam::algorithms::string_to_nature
NatureResponse< prec_t > string_to_nature(string nature)
Converts a string representation of nature response to the appropriate nature response call...
Definition: robust_values.hpp:480

craam::worstcase_l1
pair< numvec, prec_t > worstcase_l1(numvec const &z, numvec const &q, prec_t t)
Computes the solution of: min_p p^T * z s.t.
Definition: definitions.hpp:111

craam::algorithms::PolicyNature::natspec
vector< NatureInstance< T > > natspec
Specification of natures response (the function that nature computes, could be different for each sta...
Definition: robust_values.hpp:265

craam::ind_vec_scal_t
tuple< prec_t, numvec, prec_t > ind_vec_scal_t
Tuple of a index, vector and a scalar.
Definition: definitions.hpp:37

craam::algorithms::rsolve_vi
auto rsolve_vi(const GRMDP< SType > &mdp, prec_t discount, const vector< NatureResponse< T >> &nature, const vector< T > &thresholds, numvec valuefunction=numvec(0), const indvec &policy=numvec(0), unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
Gauss-Seidel variant of value iteration (not parallelized).
Definition: robust_values.hpp:381

internal
helper functions
Definition: State.hpp:204

craam::algorithms::SolutionRobust::SolutionRobust
SolutionRobust(size_t statecount)
Empty SolutionRobust for a problem with statecount states.
Definition: robust_values.hpp:242

craam::algorithms::optimistic_unbounded
vec_scal_t optimistic_unbounded(const numvec &v, const numvec &p, T)
best outcome, threshold is ignored
Definition: robust_values.hpp:71

craam::Transition::get_rewards
const numvec & get_rewards() const
Rewards for indices with positive probabilities returned by get_indices.
Definition: Transition.hpp:337

craam::RegularAction
Action in a regular MDP.
Definition: Action.hpp:31

craam::algorithms::value_max_state
ind_vec_scal_t value_max_state(const SAState< AType > &state, const numvec &valuefunction, prec_t discount, const NatureInstance< T > &nature)
Finds the greedy action and its value for the given value function.
Definition: robust_values.hpp:195

craam::SAState::get_actions
const vector< AType > & get_actions() const
Returns set of all actions.
Definition: State.hpp:116

craam::algorithms::NatureResponse
vec_scal_t(*)(numvec const  &v, numvec const  &p, T threshold) NatureResponse
Function representing constraints on nature.
Definition: robust_values.hpp:34

craam::algorithms::PolicyNature::PolicyNature
PolicyNature(vector< NatureInstance< T >> natspec)
Constructs the object from a policy and a specification of nature.
Definition: robust_values.hpp:272

craam::algorithms::PolicyNature::update_value
prec_t update_value(const SolutionRobust &solution, const SType &state, long stateid, const numvec &valuefunction, prec_t discount) const
Computes a fixed Bellman update using the current solution policy.
Definition: robust_values.hpp:306

craam::algorithms::PolicyNature::PolicyNature
PolicyNature(indvec policy, vector< NatureInstance< T >> natspec)
Constructs the object from a policy and a specification of nature.
Definition: robust_values.hpp:268

craam::indvec
vector< long > indvec
Default index vector.
Definition: definitions.hpp:31

craam::MAXITER
constexpr unsigned long MAXITER
Default number of iterations.
Definition: definitions.hpp:43

craam
Main namespace which includes modeling a solving functionality.
Definition: Action.hpp:18

craam::algorithms::NatureInstance
pair< NatureResponse< T >, T > NatureInstance
Represents an instance of nature that can be used to directly compute the response.
Definition: robust_values.hpp:40

craam::algorithms::robust_unbounded
vec_scal_t robust_unbounded(const numvec &v, const numvec &p, T)
worst outcome, threshold is ignored
Definition: robust_values.hpp:61

craam::algorithms::value_action
vec_scal_t value_action(const RegularAction &action, const numvec &valuefunction, prec_t discount, const NatureInstance< T > &nature)
Computes an ambiguous value (e.g.
Definition: robust_values.hpp:94