code/craam/values_8hpp_source.html

 #pragma once

 #include "../RMDP.hpp"
 #include <functional>
 #include <type_traits>
 #include "../cpp11-range-master/range.hpp"

 namespace craam {
 namespace algorithms{

 using namespace std;
 using namespace util::lang;


 // *******************************************************
 // RegularAction computation methods
 // *******************************************************

 inline prec_t value_action(const RegularAction& action, const numvec& valuefunction,
         prec_t discount) {
     return action.get_outcome().value(valuefunction, discount);
 }

 inline prec_t value_action(const RegularAction& action, const numvec& valuefunction,
         prec_t discount, numvec distribution) {
     return action.get_outcome().value(valuefunction, discount, distribution);
 }


 // *******************************************************
 // WeightedOutcomeAction computation methods
 // *******************************************************

 inline prec_t value_action(const WeightedOutcomeAction& action, numvec const& valuefunction,
             prec_t discount) {
     assert(action.get_distribution().size() == action.get_outcomes().size());

     if(action.get_outcomes().empty())
         throw invalid_argument("WeightedOutcomeAction with no outcomes");

     prec_t averagevalue = 0.0;
     const numvec& distribution = action.get_distribution();
     for(size_t i = 0; i < action.get_outcomes().size(); i++)
         averagevalue += distribution[i] * action[i].value(valuefunction, discount);
     return averagevalue;
 }

 inline prec_t value_action(const WeightedOutcomeAction& action, numvec const& valuefunction,
                     prec_t discount, const numvec& distribution) {

     assert(distribution.size() == action.get_outcomes().size());
     if(action.get_outcomes().empty()) throw invalid_argument("WeightedOutcomeAction with no outcomes");

     prec_t averagevalue = 0.0;
     // TODO: simd?
     for(size_t i = 0; i < action.get_outcomes().size(); i++)
         averagevalue += distribution[i] * action[i].value(valuefunction, discount);
     return averagevalue;
 }


 // *******************************************************
 // State computation methods
 // *******************************************************

 template<class AType>
 inline pair<long,prec_t> value_max_state(const SAState<AType>& state, const numvec& valuefunction,
                                      prec_t discount) {
     if(state.is_terminal())
         return make_pair(-1,0.0);

     prec_t maxvalue = -numeric_limits<prec_t>::infinity();
     long result = -1l;

     for(size_t i = 0; i < state.size(); i++){
         auto const& action = state[i];

         // skip invalid state.get_actions()
         if(!state.is_valid(i)) continue;

         auto value = value_action(action, valuefunction, discount);
         if(value >= maxvalue){
             maxvalue = value;
             result = i;
         }
     }

     // if the result has not been changed, that means that all actions are invalid
     if(result == -1)
         throw invalid_argument("all actions are invalid.");

     return make_pair(result, maxvalue);
 }

 template<class AType>
 inline prec_t value_fix_state(const SAState<AType>& state, numvec const& valuefunction,
                               prec_t discount, long actionid) {
     // this is the terminal state, return 0
     if(state.is_terminal())
         return 0;
     if(actionid < 0 || actionid >= (long) state.get_actions().size())
         throw range_error("invalid actionid: " + to_string(actionid) + " for action count: " +
                             to_string(state.get_actions().size()) );

     const auto& action = state[actionid];
     // cannot assume invalid state.get_actions()
     if(!state.is_valid(actionid)) throw invalid_argument("Cannot take an invalid action");

     return value_action(action, valuefunction, discount);
 }

 template<class AType>
 inline prec_t
 value_fix_state(const SAState<AType>& state, numvec const& valuefunction, prec_t discount,
                               long actionid, numvec distribution) {
    // this is the terminal state, return 0
     if(state.is_terminal()) return 0;

     assert(actionid >= 0 && actionid < long(state.size()));

     if(actionid < 0 || actionid >= long(state.size())) throw range_error("invalid actionid: "
         + to_string(actionid) + " for action count: " + to_string(state.get_actions().size()) );

     const auto& action = state[actionid];
     // cannot assume that the action is valid
     if(!state.is_valid(actionid)) throw invalid_argument("Cannot take an invalid action");

     return value_action(action, valuefunction, discount, distribution);
 }

 // *******************************************************
 // RMDP computation methods
 // *******************************************************

 struct Solution {
     numvec valuefunction;
     indvec policy;
     prec_t residual;
     long iterations;

     Solution(): valuefunction(0), policy(0), residual(-1),iterations(-1) {};

     Solution(size_t statecount): valuefunction(statecount, 0.0), policy(statecount, -1), residual(-1),iterations(-1) {};

     Solution(numvec valuefunction, indvec policy, prec_t residual = -1, long iterations = -1) :
         valuefunction(move(valuefunction)), policy(move(policy)), residual(residual), iterations(iterations) {};

     prec_t total_return(const Transition& initial) const{
         if(initial.max_index() >= (long) valuefunction.size()) throw invalid_argument("Too many indexes in the initial distribution.");
         return initial.value(valuefunction);
     };
 };


 // **************************************************************************
 // Helper classes to handle computing of the best response
 // **************************************************************************

 /*
 Regular solution to an MDP

 Field policy Ignored when size is 0. Otherwise a partial policy. Actions are optimized only in
                  states in which policy = -1, otherwise a fixed value is used.
 */
 class PolicyDeterministic{
 public:
     using solution_type = Solution;

     indvec policy;

     PolicyDeterministic() : policy(0) {};

     PolicyDeterministic(indvec policy) : policy(move(policy)) {};

     Solution new_solution(size_t statecount, numvec valuefunction) const {
         process_valuefunction(statecount, valuefunction);
         assert(valuefunction.size() == statecount);
         Solution solution =  Solution(move(valuefunction), process_policy(statecount));
         return solution;
     }

     template<class SType>
     prec_t update_solution(Solution& solution, const SType& state, long stateid,
                             const numvec& valuefunction, prec_t discount) const{
         assert(stateid < long(solution.policy.size()));

         prec_t newvalue;
         // check whether this state should only be evaluated
         if(policy.empty() || policy[stateid] < 0){    // optimizing
             tie(solution.policy[stateid], newvalue) = value_max_state(state, valuefunction, discount);
         }else{// fixed-action, do not copy
             return value_fix_state(state, valuefunction, discount, policy[stateid]);
         }
         return newvalue;
     }

     template<class SType>
     prec_t update_value(const Solution& solution, const SType& state, long stateid,
                             const numvec& valuefunction, prec_t discount) const{

         return value_fix_state(state, valuefunction, discount, solution.policy[stateid]);
     }
 protected:
     void process_valuefunction(size_t statecount, numvec& valuefunction) const{
         // check if the value function is a correct size, and if it is length 0
         // then creates an appropriate size
         if(!valuefunction.empty()){
             if(valuefunction.size() != statecount) throw invalid_argument("Incorrect dimensions of value function.");
         }else{
             valuefunction.assign(statecount, 0.0);
         }
     }
     indvec process_policy(size_t statecount) const {
         // check the dimensions of the policy
         if(!policy.empty()){
             if(policy.size() != statecount) throw invalid_argument("Incorrect dimensions of policy function.");
             return policy;
         }else{
             return indvec(statecount, -1);
         }
     }
 };


 // **************************************************************************
 // Main solution methods
 // **************************************************************************

 template<class SType, class ResponseType = PolicyDeterministic>
 inline auto vi_gs(const GRMDP<SType>& mdp, prec_t discount,
                         numvec valuefunction=numvec(0), const ResponseType& response = PolicyDeterministic(),
                         unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
                         {

     const auto& states = mdp.get_states();
     typename ResponseType::solution_type solution =
             response.new_solution(states.size(), move(valuefunction));

     // just quit if there are no states
     if( mdp.state_count() == 0) return solution;

     // initialize values
     prec_t residual = numeric_limits<prec_t>::infinity();
     size_t i;   // iterations defined outside to make them reportable

     for(i = 0; i < iterations && residual > maxresidual; i++){
         residual = 0;

         for(size_t s = 0l; s < states.size(); s++){
             prec_t newvalue = response.update_solution(solution, states[s], s, solution.valuefunction, discount);

             residual = max(residual, abs(solution.valuefunction[s] - newvalue));
             solution.valuefunction[s] = newvalue;
         }
     }
     solution.residual = residual;
     solution.iterations = i;
     return solution;
 }


 template<class SType, class ResponseType = PolicyDeterministic>
 inline auto mpi_jac(const GRMDP<SType>& mdp, prec_t discount,
                 const numvec& valuefunction=numvec(0), const ResponseType& response = PolicyDeterministic(),
                 unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC,
                 unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2,
                 bool print_progress=false) {

     const auto& states = mdp.get_states();
     typename ResponseType::solution_type solution =
             response.new_solution(states.size(), move(valuefunction));

     // just quit if there are no states
     if( mdp.state_count() == 0) return solution;

     numvec oddvalue = solution.valuefunction;   // set in even iterations (0 is even)
     numvec evenvalue = oddvalue;                // set in odd iterations

     numvec residuals(states.size());

     // residual in the policy iteration part
     prec_t residual_pi = numeric_limits<prec_t>::infinity();

     size_t i; // defined here to be able to report the number of iterations

     // use two vectors for value iteration and copy values back and forth
     numvec * sourcevalue = & oddvalue;
     numvec * targetvalue = & evenvalue;

     for(i = 0; i < iterations_pi; i++){

         if(print_progress)
             cout << "Policy iteration " << i << "/" << iterations_pi << ":" << endl;

         swap(targetvalue, sourcevalue);

         prec_t residual_vi = numeric_limits<prec_t>::infinity();

         // update policies
         #pragma omp parallel for
         for(auto s = 0l; s < long(states.size()); s++){
             prec_t newvalue = response.update_solution(solution, states[s], s, *sourcevalue, discount);
             residuals[s] = abs((*sourcevalue)[s] - newvalue);
             (*targetvalue)[s] = newvalue;
         }
         residual_pi = *max_element(residuals.cbegin(),residuals.cend());

         if(print_progress) cout << "    Bellman residual: " << residual_pi << endl;

         // the residual is sufficiently small
         if(residual_pi <= maxresidual_pi)
             break;

         if(print_progress) cout << "    Value iteration: " << flush;
         // compute values using value iteration

         for(size_t j = 0; j < iterations_vi && residual_vi > maxresidual_vi; j++){
             if(print_progress) cout << "." << flush;

             swap(targetvalue, sourcevalue);

             #pragma omp parallel for
             for(auto s = 0l; s < (long) states.size(); s++){
                 prec_t newvalue = response.update_value(solution, states[s], s, *sourcevalue, discount);
                 residuals[s] = abs((*sourcevalue)[s] - newvalue);
                 (*targetvalue)[s] = newvalue;
             }
             residual_vi = *max_element(residuals.begin(),residuals.end());
         }
         if(print_progress) cout << endl << "    Residual (fixed policy): " << residual_vi << endl << endl;
     }
     solution.valuefunction = move(*targetvalue);
     solution.residual = residual_pi;
     solution.iterations = i;
     return solution;
 }

 // **************************************************************************
 // Convenient interface methods
 // **************************************************************************


 template<class SType>
 inline auto solve_vi(const GRMDP<SType>& mdp, prec_t discount,
                         numvec valuefunction=numvec(0), const indvec& policy = numvec(0),
                         unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
                         {
    return vi_gs<SType, PolicyDeterministic>(mdp, discount, move(valuefunction),
             PolicyDeterministic(policy), iterations, maxresidual);
 }


 template<class SType>
 inline auto solve_mpi(const GRMDP<SType>& mdp, prec_t discount,
                 const numvec& valuefunction=numvec(0), const indvec& policy = indvec(0),
                 unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC,
                 unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2,
                 bool print_progress=false) {

     return mpi_jac<SType, PolicyDeterministic>(mdp, discount, valuefunction, PolicyDeterministic(policy),
                     iterations_pi, maxresidual_pi,
                      iterations_vi, maxresidual_vi,
                      print_progress);
 }

 }}
craam::SAState
State for sa-rectangular uncertainty (or no uncertainty) in an MDP.
Definition: State.hpp:38

craam::algorithms::Solution
A solution to a plain MDP.
Definition: values.hpp:211

craam::algorithms::value_fix_state
vec_scal_t value_fix_state(const SAState< AType > &state, numvec const &valuefunction, prec_t discount, long actionid, const NatureInstance< T > &nature)
Computes the value of a fixed action and any response of nature.
Definition: robust_values.hpp:161

craam::SAState::size
size_t size() const
Number of actions.
Definition: State.hpp:57

craam::WeightedOutcomeAction::get_distribution
const numvec & get_distribution() const
Returns the baseline distribution over outcomes.
Definition: Action.hpp:361

craam::OutcomeManagement::get_outcomes
const vector< Transition > & get_outcomes() const
Returns the list of outcomes.
Definition: Action.hpp:197

craam::algorithms::Solution::residual
prec_t residual
Bellman residual of the computation.
Definition: values.hpp:217

craam::algorithms::solve_mpi
auto solve_mpi(const GRMDP< SType > &mdp, prec_t discount, const numvec &valuefunction=numvec(0), const indvec &policy=indvec(0), unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC, unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2, bool print_progress=false)
Modified policy iteration using Jacobi value iteration in the inner loop.
Definition: values.hpp:533

craam::SAState::is_terminal
bool is_terminal() const
True if the state is considered terminal (no actions).
Definition: State.hpp:119

craam::GRMDP::get_states
const vector< SType > & get_states() const
Definition: RMDP.hpp:248

craam::GRMDP
A general robust Markov decision process.
Definition: RMDP.hpp:182

craam::Transition::max_index
long max_index() const
Returns the maximal indexes involved in the transition.
Definition: Transition.hpp:262

std

lang

craam::algorithms::PolicyDeterministic::PolicyDeterministic
PolicyDeterministic()
All actions will be optimized.
Definition: values.hpp:260

craam::prec_t
double prec_t
Default precision used throughout the code.
Definition: definitions.hpp:25

craam::algorithms::PolicyDeterministic::update_solution
prec_t update_solution(Solution &solution, const SType &state, long stateid, const numvec &valuefunction, prec_t discount) const
Computed the Bellman update and updates the solution to the best response It does not update the valu...
Definition: values.hpp:278

craam::algorithms::Solution::valuefunction
numvec valuefunction
Value function.
Definition: values.hpp:213

craam::WeightedOutcomeAction
An action in a robust MDP that allows for outcomes chosen by nature.
Definition: Action.hpp:230

craam::algorithms::mpi_jac
auto mpi_jac(const GRMDP< SType > &mdp, prec_t discount, const numvec &valuefunction=numvec(0), const ResponseType &response=PolicyDeterministic(), unsigned long iterations_pi=MAXITER, prec_t maxresidual_pi=SOLPREC, unsigned long iterations_vi=MAXITER, prec_t maxresidual_vi=SOLPREC/2, bool print_progress=false)
Modified policy iteration using Jacobi value iteration in the inner loop.
Definition: values.hpp:405

craam::numvec
vector< prec_t > numvec
Default numerical vector.
Definition: definitions.hpp:28

craam::algorithms::Solution::policy
indvec policy
index of the action to take for each states
Definition: values.hpp:215

craam::algorithms::Solution::Solution
Solution(size_t statecount)
Empty solution for a problem with statecount states.
Definition: values.hpp:224

craam::algorithms::PolicyDeterministic
Definition: values.hpp:252

craam::algorithms::PolicyDeterministic::policy
indvec policy
Partial policy specification (action -1 is ignored and optimized)
Definition: values.hpp:257

craam::GRMDP::state_count
size_t state_count() const
Number of states.
Definition: RMDP.hpp:225

craam::SAState::is_valid
bool is_valid(long actionid) const
Returns whether the actions is valid.
Definition: State.hpp:100

craam::algorithms::PolicyDeterministic::update_value
prec_t update_value(const Solution &solution, const SType &state, long stateid, const numvec &valuefunction, prec_t discount) const
Computes a fixed Bellman update using the current solution policy.
Definition: values.hpp:295

craam::Transition
Represents sparse transition probabilities and rewards from a single state.
Definition: Transition.hpp:31

craam::SOLPREC
constexpr prec_t SOLPREC
Default solution precision.
Definition: definitions.hpp:40

craam::RegularAction::get_outcome
const Transition & get_outcome(long outcomeid) const
Returns the single outcome.
Definition: Action.hpp:48

craam::algorithms::Solution::Solution
Solution(numvec valuefunction, indvec policy, prec_t residual=-1, long iterations=-1)
Empty solution for a problem with a given value function and policy.
Definition: values.hpp:227

craam::Transition::value
prec_t value(numvec const &valuefunction, prec_t discount, numvec probabilities) const
Computes value for the transition and a value function.
Definition: Transition.hpp:202

craam::algorithms::Solution::iterations
long iterations
Number of iterations taken.
Definition: values.hpp:219

craam::RegularAction
Action in a regular MDP.
Definition: Action.hpp:31

craam::algorithms::value_max_state
ind_vec_scal_t value_max_state(const SAState< AType > &state, const numvec &valuefunction, prec_t discount, const NatureInstance< T > &nature)
Finds the greedy action and its value for the given value function.
Definition: robust_values.hpp:195

craam::SAState::get_actions
const vector< AType > & get_actions() const
Returns set of all actions.
Definition: State.hpp:116

craam::algorithms::PolicyDeterministic::PolicyDeterministic
PolicyDeterministic(indvec policy)
A partial policy that can be used to fix some actions policy[s] = -1 means that the action should be ...
Definition: values.hpp:265

craam::algorithms::vi_gs
auto vi_gs(const GRMDP< SType > &mdp, prec_t discount, numvec valuefunction=numvec(0), const ResponseType &response=PolicyDeterministic(), unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
Gauss-Seidel variant of value iteration (not parallelized).
Definition: values.hpp:350

craam::indvec
vector< long > indvec
Default index vector.
Definition: definitions.hpp:31

craam::MAXITER
constexpr unsigned long MAXITER
Default number of iterations.
Definition: definitions.hpp:43

craam::algorithms::solve_vi
auto solve_vi(const GRMDP< SType > &mdp, prec_t discount, numvec valuefunction=numvec(0), const indvec &policy=numvec(0), unsigned long iterations=MAXITER, prec_t maxresidual=SOLPREC)
Gauss-Seidel variant of value iteration (not parallelized).
Definition: values.hpp:505

craam
Main namespace which includes modeling a solving functionality.
Definition: Action.hpp:18

craam::algorithms::Solution::total_return
prec_t total_return(const Transition &initial) const
Computes the total return of the solution given the initial distribution.
Definition: values.hpp:235

craam::algorithms::value_action
vec_scal_t value_action(const RegularAction &action, const numvec &valuefunction, prec_t discount, const NatureInstance< T > &nature)
Computes an ambiguous value (e.g.
Definition: robust_values.hpp:94