code/craam/occupancies_8hpp_source.html

 #pragma once

 #include "../RMDP.hpp"

 #include <Eigen/Dense>
 #include "../cpp11-range-master/range.hpp"

 namespace craam{namespace algorithms{

 using namespace std;
 using namespace Eigen;

 namespace internal{

     template<class SType>
     inline Transition mean_transition_state(const SType& state, long index, const pair<indvec,vector<numvec>>& policies){
         return state.mean_transition(policies.first[index], policies.second[index]);
     }

     template<class SType>
     inline Transition mean_transition_state(const SType& state, long index, const indvec& policy){
         return state.mean_transition(policy[index]);
     }

     template<class SType>
     inline prec_t mean_reward_state(const SType& state, long index, const pair<indvec,vector<numvec>>& policies){
         return state.mean_reward(policies.first[index], policies.second[index]);
     }

     template<class SType>
     inline prec_t mean_reward_state(const SType& state, long index, const indvec& policy){
         return state.mean_reward(policy[index]);
     }
 }

 template<typename SType, typename Policies>
 inline MatrixXd transition_mat(const GRMDP<SType>& rmdp, const Policies& policies, bool transpose = false) {
     const size_t n = rmdp.state_count();
     MatrixXd result = MatrixXd::Zero(n,n);

     const auto& states = rmdp.get_states();
     #pragma omp parallel for
     for(size_t s = 0; s < n; s++){
         const Transition&& t = internal::mean_transition_state(states[s], s, policies);

         const auto& indexes = t.get_indices();
         const auto& probabilities = t.get_probabilities();

         if(!transpose){
             for(size_t j=0; j < t.size(); j++)
                 result(s,indexes[j]) = probabilities[j];
         }else{
             for(size_t j=0; j < t.size(); j++)
                 result(indexes[j],s) = probabilities[j];
         }
     }
     return result;
 }

 template<typename SType, typename Policy>
 inline numvec rewards_vec(const GRMDP<SType>& rmdp, const Policy& policies){

     const auto n = rmdp.state_count();
     numvec rewards(n);

     #pragma omp parallel for
     for(size_t s=0; s < n; s++){
         const SType& state = rmdp[s];
         if(state.is_terminal())
             rewards[s] = 0;
         else
             rewards[s] = internal::mean_reward_state(state, s, policies);
     }
     return rewards;
 }

 template<typename SType, typename Policies>
 inline numvec
 occfreq_mat(const GRMDP<SType>& rmdp, const Transition& init, prec_t discount,
                  const Policies& policies) {
     const auto n = rmdp.state_count();

     // initial distribution
     const numvec& ivec = init.probabilities_vector(n);
     const VectorXd initial_vec = Map<const VectorXd,Unaligned>(ivec.data(),ivec.size());

     // get transition matrix and construct (I - gamma * P^T)
     MatrixXd t_mat = MatrixXd::Identity(n,n)  - discount * transition_mat(rmdp, policies, true);

     // solve set of linear equations
     numvec result(n,0);
     Map<VectorXd,Unaligned>(result.data(),result.size()) = HouseholderQR<MatrixXd>(t_mat).solve(initial_vec);

     return result;
 }

 }}
craam::algorithms::occfreq_mat
numvec occfreq_mat(const GRMDP< SType > &rmdp, const Transition &init, prec_t discount, const Policies &policies)
Computes occupancy frequencies using matrix representation of transition probabilities.
Definition: occupancies.hpp:124

craam::algorithms::rewards_vec
numvec rewards_vec(const GRMDP< SType > &rmdp, const Policy &policies)
Constructs the rewards vector for each state for the RMDP.
Definition: occupancies.hpp:91

craam::Transition::probabilities_vector
numvec probabilities_vector(size_t size) const
Constructs and returns a dense vector of probabilities, which includes 0 transition probabilities...
Definition: Transition.hpp:296

craam::algorithms::internal::mean_reward_state
prec_t mean_reward_state(const SType &state, long index, const pair< indvec, vector< numvec >> &policies)
Helper function to deal with variable indexing.
Definition: occupancies.hpp:30

craam::GRMDP::get_states
const vector< SType > & get_states() const
Definition: RMDP.hpp:248

craam::algorithms::transition_mat
MatrixXd transition_mat(const GRMDP< SType > &rmdp, const Policies &policies, bool transpose=false)
Constructs the transition (or its transpose) matrix for the policy.
Definition: occupancies.hpp:56

craam::GRMDP
A general robust Markov decision process.
Definition: RMDP.hpp:182

craam::Transition::get_indices
const indvec & get_indices() const
Indices with positive probabilities.
Definition: Transition.hpp:323

Eigen

std

craam::prec_t
double prec_t
Default precision used throughout the code.
Definition: definitions.hpp:25

craam::numvec
vector< prec_t > numvec
Default numerical vector.
Definition: definitions.hpp:28

craam::Transition::get_probabilities
const numvec & get_probabilities() const
Returns list of positive probabilities for indexes returned by get_indices.
Definition: Transition.hpp:332

craam::GRMDP::state_count
size_t state_count() const
Number of states.
Definition: RMDP.hpp:225

craam::algorithms::internal::mean_transition_state
Transition mean_transition_state(const SType &state, long index, const pair< indvec, vector< numvec >> &policies)
Helper function to deal with variable indexing.
Definition: occupancies.hpp:18

craam::Transition::size
size_t size() const
Returns the number of target states with non-zero transition probabilities.
Definition: Transition.hpp:249

craam::Transition
Represents sparse transition probabilities and rewards from a single state.
Definition: Transition.hpp:31

internal
helper functions
Definition: State.hpp:204

craam::indvec
vector< long > indvec
Default index vector.
Definition: definitions.hpp:31

craam
Main namespace which includes modeling a solving functionality.
Definition: Action.hpp:18