martes, 25 de octubre de 2011

Recuento ponderado WWC

El recuento ponderado, que en inglés se conoce como Weighted Word Count (WWC), sirve para tener una estimación de cuánto esfuerzo nos llevará un determinado encargo. Veamos la siguiente imagen:

Recuento de Trados 2009
Recibes de un cliente un archivo XML que, al abrirse, muestra unos datos similares a estos. Se trata de un análisis del recuento de repeticiones y coincidencias contra la(s) memoria(s) de traducción del cliente. El cliente te pregunta cuánto tardarás en entregarle el encargo. Suponemos que puedes completar 2500 palabras (revisión incluida) por día. 43 000 palabras entre 2500 = 17,2 días. El cliente ya ha puesto pies en polvorosa. 10 000 palabras nuevas entre 2500 = 4 días. El cliente acepta. Y tú te has metido en un lío porque no has tenido en cuenta la montaña de palabras que hay más arriba. Esto se resume así: no todas las palabras pesan igual. No todos los segmentos (≈frases) cuestan lo mismo de traducir. Están los segmentos sin coincidencia alguna, los que se aparecen varias veces, los que están tal cual en la memoria de traducción o los que se parecen en mayor o menor medida a segmentos de la memoria. Todo esto suponiendo que la memoria sea más o menos de fiar, lo cual no pasa siempre. Y preferiría no entrar en debates sobre la conveniencia de descuentos por coincidencias en la memoria, gracias, estamos en 2011 y hay otras batallas más urgentes que luchar.

Hay varios métodos para sacar el WWC. He visto casos de clientes que añaden esta media al análisis de forma semiautomatizada, pero no sé cómo lo hacen. Yo lo hago con el CATCount, que es un programa gratuito de los creadores de Translation Office 3000. El programa es muy sencillo y permite cierta automatización. Admite logs en CSV de Trados (hasta 2007 y creo que SDLx también) o TXT de LogoPort. Así se carga el recuento tradicional. Por otra parte, se le puede cargar un patrón de descuentos (o peso) como si fuera una plantilla. Y con esto nos calcula el WWC.


Media ponderada de CATCount

Pero veamos cómo funciona el sistema. La idea no es calcular cuánto vamos a cobrarle al cliente o cuánto nos va a pagar, si es que no tenemos posibilidad de negociación. La idea es calcular cuánto tiempo nos va a costar, el esfuerzo. Así, 9978 palabras nos cuentan un 100 % porque no tienen coincidencia. Pero los segmentos con una coincidencia del 85-94 % contra la memoria nos cuentan la mitad de las nuevas, un 50 %. En este caso, hay ciertos grupos de segmentos que no se pagan porque no se revisan. Los segmentos exactamente iguales a otros de la memoria, por ejemplo. Estos se confirman y punto. Además, como curiosidad, y esto no es tan habitual, los segmentos del 95-99 % no se pagan. ¿Y por qué? Están bloqueados por el cliente y nosotros hacemos como que no los vemos. Como son cambios mínimos y, de todas formas, el cliente deberá revisarlos, ya se encarga él directamente.

Obviamente, la idea es utilizar los porcentajes de coste económico para evaluar cuánto tiempo emplearemos en cada segmento. Este coste económico puede venir impuesto por el cliente en forma de descuentos o porcentajes distintos a los habituales, o podemos derivarlo nosotros mismos con los porcentajes predeterminados de un programa tipo Trados. Está claro que podemos hacer lo mismo con unas cuantas formulitas en una hoja de cálculo y una importación del CSV del análisis, si es que lo hay. Eso ya depende de la habilidad de cada uno con las hojas de cálculos y si le aporta algo extra hacerlo directamente ahí en lugar de en CATCount.

Así, concluimos que este proyecto nos llevará un esfuerzo de 13 298,05 palabras ponderadas entre 2500 diarias = 5,32 días de trabajo, es decir, 6 días para curarnos en salud si nos encontramos con que la memoria no está en perfecto estado.

8 comentarios:

  1. ¡Me encanta esa herramienta, Jordi! Cuando yo era PM, me acostumbré a hacer reglas de 3 para no pillarme los dedos y siempre hacíamos "recuentos proporcionales", que los llamábamos, no "ponderados", que sería su término exacto.
    Me parece importantísimo que incidas en esto, porque muchas veces el cliente, recuento en mano, nos intenta colocar las nuevas sin mirar los fuzzies y luego, como bien comentas, vienen las sorpresas. Para un traductor individual es interesantísimo, sobre todo cuando uno empieza y no automatiza estos cálculos. Imagínate lo práctico que resulta para un equipo de traducción completo.
    ¡Gracias por compartir! :)

    ResponderEliminar
  2. Muy útil, sí señor. Aunque por experiencie, jamás me han dado una memoria que pueda utilizar ciegamente, así que, siemper cuento las palabras totales, sin contar fuzzies ni ostias, y así, si acabo antes, pues mejor. POr ejemplo, en el recuento de 17,5 días, pues le diría al cliente 10 días, así a ojo bestia. Si le va bien, pues bien. Si no, pues también. Que se busque a otro, porque sé que no me pagará los fuzzies, y yo, para trabajar gratis, me voy a África, que hay muchos niños con necesidades ;)

    Más que nada, por eso que dices, porque los 95-99% pueden ser un churro y, aún así, los tendré que retraducir/revisar. Porque no, no a todas las agencias les hará gracia que le dejes esa tarea enteramente al corrector interno. Ellos quieren que les hagas el trabajo sucio y entregues la traducción lo mejor posible, así que, dudo que en 6 días con una memoria dudosa, puedas acabar todo el trabajo.

    A lo mejor es que dudo demasiado de las agencias porque me han tocado muchas malas, pero como dices, prefiero curarme en salud y decir más de la cuenta, y luego dar la sorpresa :)

    De todas formas, me gusta tu método, ya que podría ponerlo en práctica para proyectos/actualizaciones en las que he trabajado antes y de las que tengo yo mi propia memoria (o ya he realizado el proyecto con la misma agencia y le he entregado la memoria a la agencia y la agencia la ha actualizado con los cambios, etc.). Para esos casos, me parece un método excelente para calcular lo que se tardará. Muchas Thankius.

    ResponderEliminar
  3. Eugenia: La verdad es que hace años que a esto lo llamo recuento ponderado, pero ahora no sé de dónde saqué el término. He buscado la definición de media ponderada y es justo lo que hace CATCount: darle un valor a cada elemento, sumar todos los valores y dividirlos entre el número de elementos. He buscado "media proporcional" y solo me ha quedado claro que también se llama geométrica, pero yo diría que es otra cosa.
    Por otra parte, tienes mucha razón en eso de contar solo las palabras nuevas. Te dicen "son 2000" cuando quieren decir "son 10 000, de las cuales 2000 son nuevas". Esto te lo dicen por teléfono, aceptas el encargo y luego cuando te llega el correo descubres la sorpresa. Ay, pobres PMs, que van de culo intentando asignar encargos a diestro y siniestro. :)

    Curri: Si te digo la verdad, esto es un encargo real, para el cual tuve seis días de trabajo, contando el fin de semana. La TM era aceptable, pero era un campo de minas de incoherencias terminológicas. Nada del otro mundo, vamos.
    No, en este caso los 95-99 % estaban bloqueados de fábrica: ni se miran ni se pagan. Eso era cosa del revisor, porque en la mayoría de casos se trataba de cambios en simples variables, no de cambios textuales.

    ResponderEliminar
  4. Cuidadín con fiarse de las coincidencias 100%... Aquí os dejo un párrafo de una tesis (Translation Memory: Concepts, products, impact and prospects) de Gerald Menett que merece la pena leerse atentamente:

    Take the German sentence pairs:
    1 «Ein Messer ist im Schrank. Er mißt Elektrizität.“
    2 «Ein Messer ist im Schrank. Es ist sehr scharf.“

    Imagine that the translator has translated a document containing sentence pair 1 and has thus stored in his Translation Memory the two segments:
    «A meter is in the cabinet.» And «It measures electricity.»“ The syntactical and contextual information supplied by the second sentence indicates to the translator that the word «Messer» here refers to a meter. The translator then runs a text containing sentence pair 2 through the pre-translation routine in his Translation Memory software.

    The Translation Memory software will recognise a 100% match in the first part of the pair, and insert «A meter is in the cabinet.» in the translation. A human translator would immediately realise from the syntactical and contextual information supplied in the second part of the pair that here in German word «Messer» is of neuter gender, and hence means «knife».

    The translator must hope that he can pick up such mistranslations in his proof-reading.

    ResponderEliminar
  5. Pablo: Para eso están los filtros. memoQ puede ocultar los 100% y con Trados Studio puedes confirmar los 100% (si es que todavía no lo están) y utilizar una combinación de teclado para confirmar el segmento actual (que no es un 100%) y saltar al siguiente sin confirmar. Con TagEditor se puede hacer un truco para bloquear los 100% desde cualquier editor de texto y que no molesten.
    Lo que comentas se resuelve parcialmente con los segmentos de coincidencia exacta en un contexto, que garantizan que tanto el segmento anterior como el siguiente son los mismos. De todas formas, si ni siquiera este tipo de coincidencias resuelven la ambigüedad, es que el texto está mal escrito. Las memorias están pensadas para textos creados con el lenguaje controlado típico de los textos técnicos. Y una característica fundamental del lenguaje controlado es la reducción de ambigüedad.

    ResponderEliminar
  6. Hola, Jordi: es cierto que los filtros de coincidencia exacta (los famosos 101% de MemoQ) resuelven, en parte, el problema. Pero, en el caso concreto del ejemplo no resolvería la ambigüedad, por la sencilla razón de que no dispone de un tercer segmento anterior o posterior de referencia idéntico.

    En inglés puede que exista lo que se ha dado en denominar «leguaje controlado». Pero, en lo que llevo en el mundo de la traducción, al menos en alemán, aún estoy por verlo. Y, en la práctica, he visto muy, pero que muy poquitos casos. Por ejemplo, sé que existen el AECMA Simplified English o el PACE , pero aún estoy por verlos aplicados en la práctica. Otro problema es que los lenguajes controlados suelen ser muy específicos para un área de conocimiento y un par idiomático concretos, mientras que la tecnología va en sentido contrario. Por ejemplo...¿cuantas áreas de conocimiento, completamente distintas, son aplicables a la ingeniería ferroviaria actual? ¿Matemáticas? ¿Ingeniería mecánica? ¿Neumática? ¿Hidráulica? ¿Electrónica? ¿aerodinámica? No creo que todo eso sea «controlable», ni tan siquiera abarcable.

    Todas las grandes empresas que conozco utilizan sublenguajes de dominio especializados propios, lo que dista mucho de un lenguaje controlado. Y, desde luego, no comparto tu opinión sobre el hecho de que no aplicar un lenguaje controlado a un texto técnico, o la ausencia de un tercer segmento, implique que un texto esté mal redactado. Un saludo.

    ResponderEliminar
  7. Pablo: Interesante debate.
    Los principios del lenguaje controlado van más allá de las áreas de conocimiento. Sí, hay lenguajes controlados para industrias (o incluso empresas) específicas, pero ciertos principios gramaticales (limitación de subordinadas, de complementos del nombre) son de aplicación universal a los tipos de texto a los que normalmente se aplican los lenguajes controlados. Ciertos principios son extrapolables a bastantes lenguas mayoritarias, pero la mayoría son específicos de una lengua, concretamente del inglés, como bien precisas.

    Un texto técnico para difusión (un manual de usuario o de servicio, por ejemplo) está mal escrito si no es lenguaje mínimamente controlado, ya que una de las características de este tipo de lenguajes es la eliminación de la ambigüedad. Porque el lenguaje controlado existe para que el texto se entienda mejor por no nativos (o gente no acostumbrada a leer), para que lo trate mejor una máquina (minería de datos, reutilización de segmentos) y para que se traduzca más fácilmente.

    ResponderEliminar
  8. Respecto a las coincidencias 100 %, pueden darse dos casos:

    1) que el cliente no las pague, en cuyo caso entiendo que no debo hacer nada con esos segmentos y los confirmo sin ni siquiera leerlos (y, si puedo, utilizo la función «translate to fuzzy» para pasarlos lo más rápido posible);

    2) que el cliente las pague, normalmente a precio de revisión (aprox. 30 % de la tarifa de traducción), en cuyo caso reviso los segmentos y calculo para esas palabras un esfuerzo del 30 %, es decir, en una hora puedo revisar el triple de palabras de las que traduzco.

    Para las coincidencias 84-99 %, suelo calcular un esfuerzo del 50 %, pues están a medio camino entre la traducción nueva y la revisión. Para todas las coincidencias inferiores al 84 % calculo un esfuerzo del 100 %. Y lo hago así precisamente por lo que dices, Jordi: para darle al cliente un plazo de entrega ajustado al esfuerzo real del trabajo y al tiempo que voy a invertir (aunque siempre trato de añadir un margen de maniobra por si las moscas). Si considerara todas las palabras como nuevas, como comenta Curri, los plazos de entrega de ciertos trabajos, como el que pones de ejemplo, no serían reales y harían huir a cualquiera. :-) Ah, y si la memoria es un churro, se lo comento al cliente y hago lo que puedo en función de sus deseos y del tiempo disponible para completar el trabajo.

    Un saludo,
    Isabel

    ResponderEliminar

Nota: solo los miembros de este blog pueden publicar comentarios.