Modelos de severidad; Métodos actuariales

La prima de un seguro es el resultado de la suma de las perdidas proyectadas (proyección de los montos de las reclamaciones), la utilidad objetivo, y otros gastos proyectados asociados a la operación de la empresa y/o al aseguramiento. El método de prima pura y el método de razón de perdida son utilizados para la indicación promedio de la prima y para comparar el porcentaje estimado necesario, de cada peso disponible, para cubrir las pérdidas y los gastos. (Perez & Metaxas, 2023)

Para realizar el cálculo de las indicaciones, es necesario modelar y analizar la distribución del riesgo. Frecuentemente en la industria de seguros, los modelos de frecuencia  son independiente a los modelos de severidad. Tanto la frecuencia como la severidad pueden verse afectadas por el riesgo primario de ocurrencia, el riesgo primario de severidad,  el riesgo técnico de utilización y el riesgo técnico de morbilidad evitable. Es necesario especificar que en términos actuariales la frecuencia es el número de reclamaciones por expuestos, la severidad es el monto de la perdida por reclamación y la prima pura es el monto de la perdida por expuesto o dicho de otra manera la frecuencia por la severidad.   

Adicional a tener un modelo de dos partes, provenientes de la frecuencia y la severidad. Cuando un grupo representa un riesgo lo suficientemente grande, se recomienda estudiarlo por separado. Tal es el caso de las enfermedades de alto costo. O como se viene dando en las contrataciones entre los actores del sistema de salud colombiano, los pagos asociados a condiciones clínicas. En el caso del resto de las morbilidades, se puede realizar la clasificación del riesgo vía agrupaciones y asignación de valores diferentes entre grupos de riesgos. Previamente, esta clasificación se realizaba con análisis univariados o bivariados que actualmente son sustituidos por múltiples variaciones de modelos lineales generalizados, entre otros.

Los métodos multivariados, como los modelos lineales generalizados, incluyen todas las variables necesarias para la construcción del modelo. En la industria aseguradora los GLM son ahora, el método estándar para la clasificación del riesgo y la respectiva tarificación. Estos modelos permiten estimar los valores esperados de los montos (severidad) y la prima pura así como las probabilidades de las frecuencias de reclamos y de la razón de perdida.

Considerando el caso del aseguramiento en salud, en Colombia hoy, las distribuciones de las severidades por lo general son sesgadas a la derecha, lo que genera una preocupación importante para las IPS, a la hora de incursionar en modelos de riesgo compartido con las aseguradoras. El valor en riesgo es considerablemente alto y distante de las severidades promedio en la mayoría de los casos por lo que deben tomarse acciones dentro de la contratación para el manejo de este.

Es entonces indispensable que un modelo de severidad, el cual estima los montos de las reclamaciones cuando estas ocurran, tenga en consideración el impacto que las variables explicativas entre otros aspectos tienen en el VaR y el TVaR. Los otros aspectos son referentes a: el modelo elegido, sea multiplicativo, aditivo, univariado, multivariado, con función de enlace o sin función de enlace, con distribución gamma, inversa gaussiana o de copulas, o una regresión logística para el cálculo de  la probabilidad de que las reclamaciones excedan un límite especifico. 

Pero estos son aspectos generales, el principal reto en la construcción de modelos predictivos es la disponibilidad y la calidad del dato. En este punto la selección de variables es importante no solo porque puede aportar al entendimiento de la variable objetivo para una correcta tarificación, sino que además la calidad de los datos debe ser óptima para su utilización y de estos depende el nivel de granularidad al que se pueda realizar el análisis. Con respecto a los datos y selección de variables, la selección del nivel de truncamiento y el uso de primas o perdidas niveladas es indispensable para disminuir ruido en el modelo.

A la hora de la construcción del modelo, procesos como agrupamientos (binning), adición de términos polinomiales, uso de funciones lineales por tramos y la selección de interacciones, pueden llevar a diferentes resultados. Por los que las diferentes medidas de ajuste, desempeño y estabilidad son imprescindibles. Algunas de estas medidas son: el log-likelihood, scaled deviance, F-test, medidas de penalización, análisis de residuos, cooks distance, cross-validation, bootstrapping y medidas de lift como los gráficos de quintiles, gráficos de doble levantamiento, gráficos de razones y el índice de Gini.

En la literatura académica se encuentra la aplicación de otros modelos aparte de los GLM, por ejemplo, los modelos lineales generalizados mixtos, los cuales permiten que algunos coeficientes sean variables aleatorias, los modelos lineales doble-generalizados, que no asume un parámetro de dispersión constante, los modelos aditivos generalizados, que no asumen linealidad en los predictores, los splines de regresión adaptativa multivariante,  que solo selecciona las variables significativas e identifica las interacciones entre variables, y las redes elásticas que pueden reducir el sobreajuste. (Perez & Metaxas, 2023)

Un ejemplo de lo anterior es el estudio de Šoltés et al., el cual realiza un análisis de severidad utilizando un modelo lineal generalizado en la industria automotriz para seguros de daños a terceros.  Según Šoltés et al., la razón por la que es preferible un modelo de dos partes (frecuencia, severidad) es la estabilidad y minimización del error que se obtiene con esta metodología. Así mismo, utilizan un Gzlm, el cual a diferencia de un GLM permite una distribución no normal de los residuos.  Šoltés et al., además identifican desequilibrio entre las clases (número dispar de datos en los diferentes grupos) por lo cual, utilizan PROC GLM de SAS, con el método de LSMEANS.

En general, el  análisis de la severidad permite identificar diferentes clases de tarifas según los coeficientes obtenidos para las variables incluidas (el impacto). Es así como, grupos de mayor riesgo puedan ser diferenciados de aquellos con menor riesgo. Cuando un grupo representa un riesgo lo suficientemente grande, se recomienda analizarlo por separado (ejemplo, pacientes de alto costo). La ventaja de obtener varias clases de tarifas es la reducción del riesgo de selección adversa y la consecución de una distribución optima de los recursos, por ejemplo en el caso de la distribución de la UPC en Colombia a las EPS.

Un ejemplo adicional, del sector salud, pero en este caso utilizando los datos del US Medical Expenditure Panel Survey es el modelo realizado por Frees et al., en este caso la segmentación se realizo por cada uno de los componentes del gasto (consulta externa, urgencias, hospitalizaciones, cuidado en casa y gastos administrativos) y se consideraron las diferentes interacciones entre estos componentes.  (Frees, Jin, & Lin) El modelo utilizado por Frees et al., modela la severidad utilizando un GLM con copulas gaussianas, el cual permite dependencias multivariadas.

Una copula es una distribución multivariada con distribuciones marginales uniformes en el intervalo (0,1) Esta, según por Frees et al., separa distribuciones multivariadas conjuntas en dos partes, una describiendo la interdependencia de las probabilidades y otra describiendo solo las distribuciones marginales. Es decir permiten simular variables aleatorias con distribución conjuntas. (Frees, Jin, & Lin)

Seleccionar el modelo adecuado para el caso a simular es solo el primer paso, las variables seleccionadas y las interacciones entre ellas pueden tener un impacto en el valor de los coeficientes que se obtienen como resultado. En el caso de Šoltés et al.,  utilizaron el poder del motor, el volumen del motor, el peso, los años, la marca, la edad del dueño y la residencia. Adicionalmente agruparon (bining) algunas variables. En el caso de Frees et al., incluyeron variables demográficas y socioeconómicas. En el modelo de Štrangfeldová et al., el cual tiene como objetivo modelar la prima para un seguro solidario en Slovakia, consideraron variables como el aumento de la demanda en la población mayor para la población económicamente inactiva teniendo en cuenta que el modelo del sistema de salud eslovaco que contiene elementos del modelo social Bismarck. (Štrangfeldová & Mališová, 2021) En Jackson et al., se consideraron variables demográficas básicas y el tiempo de afiliación a un seguro de salud.

Posterior a la selección de variables y del modelo, determinar el uso de funciones de enlaces, la utilización de términos aditivos o multiplicativos, la realización de la transformación de algunas variables para evitar multicolinealidad, entre otras acciones, tienen un impacto en los resultados y el desempeño del modelo. Por tal razón, Jackson et al., mencional la importancia de realizar comparaciones de las n variantes de un modelo, por ejemplo cambiando el periodo de predicción, la cohorte, los componentes, las interacciones entre componentes, los niveles de truncamiento de los outliers etc. (Jackson S, 2019)

Finalmente, Lumiata, una empresa dedicada al desarrollo de software aplicado al sector salud en California, realizó la comparación del desempeño de su modelo con el de una gran aseguradora Estadunidense, tomando una muestra de 14 millones de asegurados bajo pólizas de empleados. Para ello, utilizan datos de capitaciones, medicamentos y laboratorio clínico e Incluyen las variables: medicamentos, costo de reclamaciones, código diagnóstico, código de las tecnologías y costo de las capitaciones. Para poder realizar comparaciones entre los modelos, fue necesario normalizar el costo con la creación de una variable que tiene en cuenta el mes de afiliación y el asegurado. El resultado de la comparación fue un mejor desempeño del 20% en el modelo de Lumiata. (Lumiata Data Science and Engineering, 2021)

Dado a la gran variedad de metodologías para la modelación de la severidad, se hace necesario identificar aquellos modelos que brinden un mejor desempeño, así como variables que muestren agregar valor a la creación de clases de tarifas para el aseguramiento de la población colombiana.

 

Bibliografía

Frees, E., Jin, X., & Lin, X. (s.f.). Actuarial Applications of Multivariate Two-Part Regression. Annals of Actuarial Science, Volume 7 / Issue 02 / September 2013, pp 258 - 287 doi:10.1017/S1748499512000346.

Jackson S, Y. M.-X. (2019). The Agile Deployment of Machine Learning Models in Healthcare. Front. Big Data, 1:7 doi: 10.3389/fdata.2018.00007.

Lumiata Data Science and Engineering. (2021). Accurate and Interpretable Machine Learning for Transparent Pricing of Health Insurance Plans. The Thirty-Fifth AAAI Conference on Artificial Intelligence, 15127-15136.

Perez, R., & Metaxas, N. (2023). Fundamentos Técnicos. CAS - Escuela Colombiana de Ingeniería Julio Garavito. Bogotá.

Šoltés, E., Zelinová, S., & Bilíková, M. (s.f.). GENERAL LINEAR MODEL: AN EFFECTIVE. Statistics in Transition, New Series 4:13-31. https://www.ceeol.com/search/article-detail?id=816976.

Štrangfeldová, J., & Mališová, D. (2021). Application of actuarial modeling to determine the rate of health insurance in solidary health care systems: a case of Slovakia. Administration and Public Management Review, 37:90-102.

 

 

Anterior
Anterior

SELECCIÓN ADVERSA: UN FACTOR SUBESTIMADO EN LA CRISIS ACTUAL DEL SISTEMA DE SALUD

Siguiente
Siguiente

Todo lo que tienes que saber sobre la reforma a la salud (Actualización)