code/craam/Transition_8hpp_source.html

 #pragma once

 #include "definitions.hpp"

 #include<vector>
 #include<string>
 #include <algorithm>
 #include <stdexcept>
 #include <numeric>
 #include <cmath>

 #include "cpp11-range-master/range.hpp"

 namespace craam {

 using namespace std;
 using namespace util::lang;

 const prec_t tolerance = 1e-5;

 class Transition {

 public:
     Transition() : indices(0), probabilities(0), rewards(0) {};

     Transition(const indvec& indices,
                 const numvec& probabilities,
                 const numvec& rewards) : Transition() {

         if(indices.size() != probabilities.size() || indices.size() != rewards.size())
             throw invalid_argument("All parameters for the constructor of Transition must have the same size.");
         auto sorted = sort_indexes(indices);
         for(auto k : sorted)
             add_sample(indices[k],probabilities[k],rewards[k]);
     }

     Transition(const indvec& indices,
                 const numvec& probabilities) : Transition() {

         if(indices.size() != probabilities.size())
             throw invalid_argument("All parameters for the constructor of Transition must have the same size.");
         auto sorted = sort_indexes(indices);
         for(auto k : sorted)
             add_sample(indices[k],probabilities[k],0.0);
     }

     Transition(const numvec& probabilities) : Transition() {
         for(auto k : util::lang::indices(probabilities))
             add_sample(k, probabilities[k], 0.0);
     }

     void add_sample(long stateid, prec_t probability, prec_t reward){

         if(probability < -0.001) throw invalid_argument("probabilities must be non-negative.");
         if(stateid < 0) throw invalid_argument("State id must be non-negative.");
         // if the probability is 0 or negative, just do not add the sample
         if(probability <= 0) return;

         // test for the last index; the index is not in the transition yet and belong to the end
         if(indices.size() == 0 || this->indices.back() < stateid){
             indices.push_back(stateid);
             probabilities.push_back(probability);
             rewards.push_back(reward);
         }
         // the index is already in the transitions, or belongs in the middle
         else{
             size_t findex;  // lower bound on the index of the element
             bool present;   // whether the index was found

             // test the last element for efficiency sake
             if(stateid == indices.back()){
                 findex = indices.size() - 1;
                 present = true;
             }
             else{
                 // find the closest existing index to the new one
                 auto fiter = lower_bound(indices.cbegin(),indices.cend(),stateid);
                 findex = fiter - indices.cbegin();
                 present = (*fiter == stateid);
             }
             // there is a transition to this element already
             if(present){
                 auto p_old = probabilities[findex];
                 probabilities[findex] += probability;
                 auto r_old = rewards[findex];
                 auto new_reward = (p_old * r_old + probability * reward) /
                                     (probabilities[findex]);
                 rewards[findex] = new_reward;
             // the transition is not there, the element needs to be inserted
             }else{
                 indices.insert(indices.cbegin()+findex,stateid);
                 probabilities.insert(probabilities.cbegin()+findex,probability);
                 rewards.insert(rewards.cbegin()+findex,reward);
             }
         }

     }

     prec_t sum_probabilities() const{
         return accumulate(probabilities.cbegin(),probabilities.cend(),0.0);
     }

     void normalize(){
         // nothing to do if there are no transitions
         if(probabilities.empty())
             return;

         prec_t sp = sum_probabilities();
         if(sp > tolerance){
             for(auto& p : probabilities)
                 p /= sp;
         }else{
             throw invalid_argument("Probabilities sum to 0 (or close) and cannot be normalized.");
         }
     }

     bool is_normalized() const{
         if(indices.empty()) return true;
         else return abs(1.0 - sum_probabilities()) < tolerance;
     }

     prec_t value(numvec const& valuefunction, prec_t discount, numvec probabilities) const{
         assert(valuefunction.size() >= probabilities.size());
         assert(rewards.size() == probabilities.size());
         assert(probabilities.size() == indices.size());

         if(indices.empty())
             throw range_error("No transitions defined for the state action-pair. Cannot compute value.");
         prec_t value = 0.0;

         //Note: in simple benchmarks, the simd statement seems to speed up the computation
         // by a factor of 2-4 with -march=native on a computer with AVX support
         #pragma omp simd reduction(+:value)
         for(size_t c = 0; c < size(); c++){
             value +=  probabilities[c] * (rewards[c] + discount * valuefunction[indices[c]]);
         }
         return value;
     }

     prec_t value(numvec const& valuefunction, prec_t discount = 1.0) const{

         return value(valuefunction, discount, probabilities);
     }

     prec_t mean_reward(const numvec& probabilities) const{
         assert(probabilities.size() == size());
         if(indices.empty())
             throw range_error("No transitions defined. Cannot compute mean reward.");

         return inner_product(cbegin(probabilities), end(probabilities), cbegin(rewards), 0.0);
     }


     prec_t mean_reward() const{
         return mean_reward(probabilities);
     }

     size_t size() const {
         return indices.size();
     };

     bool empty() const {
         return indices.empty();
     };

     long max_index() const {
         return indices.empty() ? -1 : indices.back();
     };

     void probabilities_addto(prec_t scale, numvec& transition) const{
         for(size_t i : util::lang::indices(*this))
             transition[indices[i]] += scale*probabilities[i];
     }

     void probabilities_addto(prec_t scale, Transition& transition) const{
         for(size_t i : util::lang::indices(*this))
             transition.add_sample(indices[i], scale*probabilities[i], scale*rewards[i]);
     }

     numvec probabilities_vector(size_t size) const{

         if(max_index() >= 0 && static_cast<long>(size) <= max_index())
             throw range_error("Size must be greater than the maximal index");
         numvec result(size, 0.0);
         for(size_t i : util::lang::indices(indices))
             result[indices[i]] = probabilities[i];
         return result;
     }

     numvec rewards_vector(size_t size) const{

         if(max_index() >= 0 && static_cast<long>(size) <= max_index())
             throw range_error("Size must be greater than the maximal index");
         numvec result(size, 0.0);
         for(size_t i : util::lang::indices(indices))
             result[indices[i]] = rewards[i];
         return result;
     }

     const indvec& get_indices() const {return indices;};

     long get_index(long k){assert(k>=0 && k < long(size())); return indices[k];}

     const numvec& get_probabilities() const {return probabilities;};
     const numvec& get_rewards() const {return rewards;};

     void set_reward(long sampleid, prec_t reward) {rewards[sampleid] = reward;};

     prec_t get_reward(long sampleid) const {
         assert(sampleid >= 0 && sampleid < long(size()));
         return rewards[sampleid];
     };

     string to_json(long outcomeid = -1) const{
         string result{"{"};
         result += "\"outcomeid\" : ";
         result += std::to_string(outcomeid);
         result += ",\"stateids\" : [";
         for(auto i : indices){
             result += std::to_string(i);
             result += ",";
         }
         if(!indices.empty()) result.pop_back();// remove last comma
         result += "],\"probabilities\" : [";
         for(auto p : probabilities){
             result += std::to_string(p);
             result += ",";
         }
         if(!probabilities.empty()) result.pop_back();// remove last comma
         result += "],\"rewards\" : [" ;
         for(auto r : rewards){
             result += std::to_string(r);
             result += ",";
         }
         if(!rewards.empty()) result.pop_back();// remove last comma
         result += "]}";
         return result;
     }

 protected:

     indvec indices;
     numvec probabilities;
     numvec rewards;
 };

 }
craam::Transition::rewards_vector
numvec rewards_vector(size_t size) const
Constructs and returns a dense vector of rewards, which includes 0 transition probabilities.
Definition: Transition.hpp:312

craam::Transition::Transition
Transition(const numvec &probabilities)
Creates a single transition from raw data with uniformly zero rewards, where destination states are i...
Definition: Transition.hpp:82

craam::Transition::set_reward
void set_reward(long sampleid, prec_t reward)
Sets the reward for a transition to a particular state.
Definition: Transition.hpp:340

craam::Transition::probabilities_vector
numvec probabilities_vector(size_t size) const
Constructs and returns a dense vector of probabilities, which includes 0 transition probabilities...
Definition: Transition.hpp:296

craam::Transition::probabilities_addto
void probabilities_addto(prec_t scale, Transition &transition) const
Scales transition probabilities and rewards according to the provided parameter and adds them to the ...
Definition: Transition.hpp:286

craam::Transition::get_indices
const indvec & get_indices() const
Indices with positive probabilities.
Definition: Transition.hpp:323

craam::Transition::probabilities_addto
void probabilities_addto(prec_t scale, numvec &transition) const
Scales transition probabilities according to the provided parameter and adds them to the provided vec...
Definition: Transition.hpp:273

craam::Transition::max_index
long max_index() const
Returns the maximal indexes involved in the transition.
Definition: Transition.hpp:262

std

lang

craam::prec_t
double prec_t
Default precision used throughout the code.
Definition: definitions.hpp:25

craam::numvec
vector< prec_t > numvec
Default numerical vector.
Definition: definitions.hpp:28

craam::Transition::to_json
string to_json(long outcomeid=-1) const
Returns a json representation of transition probabilities.
Definition: Transition.hpp:350

craam::Transition::get_probabilities
const numvec & get_probabilities() const
Returns list of positive probabilities for indexes returned by get_indices.
Definition: Transition.hpp:332

craam::Transition::rewards
numvec rewards
List of rewards associated with transitions.
Definition: Transition.hpp:383

craam::Transition::probabilities
numvec probabilities
List of probability distributions to states.
Definition: Transition.hpp:381

craam::Transition::get_index
long get_index(long k)
Index of the k-th state with non-zero probability.
Definition: Transition.hpp:326

craam::Transition::indices
indvec indices
List of state indices.
Definition: Transition.hpp:379

craam::Transition::size
size_t size() const
Returns the number of target states with non-zero transition probabilities.
Definition: Transition.hpp:249

craam::Transition
Represents sparse transition probabilities and rewards from a single state.
Definition: Transition.hpp:31

craam::Transition::value
prec_t value(numvec const &valuefunction, prec_t discount=1.0) const
Computes value for the transition and a value function.
Definition: Transition.hpp:228

craam::Transition::is_normalized
bool is_normalized() const
Definition: Transition.hpp:186

craam::sort_indexes
vector< size_t > sort_indexes(vector< T > const &v)
Sort indices by values in ascending order.
Definition: definitions.hpp:69

craam::Transition::value
prec_t value(numvec const &valuefunction, prec_t discount, numvec probabilities) const
Computes value for the transition and a value function.
Definition: Transition.hpp:202

craam::Transition::get_rewards
const numvec & get_rewards() const
Rewards for indices with positive probabilities returned by get_indices.
Definition: Transition.hpp:337

craam::tolerance
const prec_t tolerance
tolerance for checking whether a transition probability is normalized
Definition: Transition.hpp:20

craam::Transition::empty
bool empty() const
Checks if the transition is empty.
Definition: Transition.hpp:254

craam::Transition::Transition
Transition(const indvec &indices, const numvec &probabilities, const numvec &rewards)
Creates a single transition from raw data.
Definition: Transition.hpp:46

craam::Transition::normalize
void normalize()
Normalizes the transition probabilities to sum to 1.
Definition: Transition.hpp:171

craam::Transition::get_reward
prec_t get_reward(long sampleid) const
Gets the reward for a transition to a particular state.
Definition: Transition.hpp:343

craam::indvec
vector< long > indvec
Default index vector.
Definition: definitions.hpp:31

craam
Main namespace which includes modeling a solving functionality.
Definition: Action.hpp:18

craam::Transition::mean_reward
prec_t mean_reward() const
Computes the mean return from this transition.
Definition: Transition.hpp:244

craam::Transition::add_sample
void add_sample(long stateid, prec_t probability, prec_t reward)
Adds a single transitions probability to the existing probabilities.
Definition: Transition.hpp:116

craam::Transition::mean_reward
prec_t mean_reward(const numvec &probabilities) const
Computes the mean return from this transition with custom transition probabilities.
Definition: Transition.hpp:234

craam::Transition::Transition
Transition(const indvec &indices, const numvec &probabilities)
Creates a single transition from raw data with uniformly zero rewards.
Definition: Transition.hpp:66