martes, 25 de octubre de 2011

Recuento ponderado WWC

El recuento ponderado, que en inglés se conoce como Weighted Word Count (WWC), sirve para tener una estimación de cuánto esfuerzo nos llevará un determinado encargo. Veamos la siguiente imagen:

Recuento de Trados 2009
Recibes de un cliente un archivo XML que, al abrirse, muestra unos datos similares a estos. Se trata de un análisis del recuento de repeticiones y coincidencias contra la(s) memoria(s) de traducción del cliente. El cliente te pregunta cuánto tardarás en entregarle el encargo. Suponemos que puedes completar 2500 palabras (revisión incluida) por día. 43 000 palabras entre 2500 = 17,2 días. El cliente ya ha puesto pies en polvorosa. 10 000 palabras nuevas entre 2500 = 4 días. El cliente acepta. Y tú te has metido en un lío porque no has tenido en cuenta la montaña de palabras que hay más arriba. Esto se resume así: no todas las palabras pesan igual. No todos los segmentos (≈frases) cuestan lo mismo de traducir. Están los segmentos sin coincidencia alguna, los que se aparecen varias veces, los que están tal cual en la memoria de traducción o los que se parecen en mayor o menor medida a segmentos de la memoria. Todo esto suponiendo que la memoria sea más o menos de fiar, lo cual no pasa siempre. Y preferiría no entrar en debates sobre la conveniencia de descuentos por coincidencias en la memoria, gracias, estamos en 2011 y hay otras batallas más urgentes que luchar.

Hay varios métodos para sacar el WWC. He visto casos de clientes que añaden esta media al análisis de forma semiautomatizada, pero no sé cómo lo hacen. Yo lo hago con el CATCount, que es un programa gratuito de los creadores de Translation Office 3000. El programa es muy sencillo y permite cierta automatización. Admite logs en CSV de Trados (hasta 2007 y creo que SDLx también) o TXT de LogoPort. Así se carga el recuento tradicional. Por otra parte, se le puede cargar un patrón de descuentos (o peso) como si fuera una plantilla. Y con esto nos calcula el WWC.


Media ponderada de CATCount

Pero veamos cómo funciona el sistema. La idea no es calcular cuánto vamos a cobrarle al cliente o cuánto nos va a pagar, si es que no tenemos posibilidad de negociación. La idea es calcular cuánto tiempo nos va a costar, el esfuerzo. Así, 9978 palabras nos cuentan un 100 % porque no tienen coincidencia. Pero los segmentos con una coincidencia del 85-94 % contra la memoria nos cuentan la mitad de las nuevas, un 50 %. En este caso, hay ciertos grupos de segmentos que no se pagan porque no se revisan. Los segmentos exactamente iguales a otros de la memoria, por ejemplo. Estos se confirman y punto. Además, como curiosidad, y esto no es tan habitual, los segmentos del 95-99 % no se pagan. ¿Y por qué? Están bloqueados por el cliente y nosotros hacemos como que no los vemos. Como son cambios mínimos y, de todas formas, el cliente deberá revisarlos, ya se encarga él directamente.

Obviamente, la idea es utilizar los porcentajes de coste económico para evaluar cuánto tiempo emplearemos en cada segmento. Este coste económico puede venir impuesto por el cliente en forma de descuentos o porcentajes distintos a los habituales, o podemos derivarlo nosotros mismos con los porcentajes predeterminados de un programa tipo Trados. Está claro que podemos hacer lo mismo con unas cuantas formulitas en una hoja de cálculo y una importación del CSV del análisis, si es que lo hay. Eso ya depende de la habilidad de cada uno con las hojas de cálculos y si le aporta algo extra hacerlo directamente ahí en lugar de en CATCount.

Así, concluimos que este proyecto nos llevará un esfuerzo de 13 298,05 palabras ponderadas entre 2500 diarias = 5,32 días de trabajo, es decir, 6 días para curarnos en salud si nos encontramos con que la memoria no está en perfecto estado.