Buscador de patrones morfofonológicos del español (BuFón) | Laboratorio de fon&ecute;tica

Manual de BuFón

Versión 1.0

21 de diciembre de 2010

Índice

1 Introducción
2 Base de datos
3 Modos de búsqueda
4 Formalismo
5 Facilidades adicionales
A Transcripción fonológica
B Abreviaturas
- B.1 Negación
- B.2 Combinaciones
C Segmentación silábica
D Detalles técnicos

1 Introducción

BuFón es una herramienta de libre acceso disponible en la página web del Laboratorio de Fonética del CSIC http://www.cchs.csic.es/fonetica/ que permite hacer búsquedas de patrones morfofonológicos y pares mínimos en una base de datos de palabras del español.

La manera más sencilla de usar BuFón es escribir en la ventana de búsqueda una secuencia de caracteres y pulsar el botón Buscar. El programa devolverá una lista con todas las palabras que encuentre en la base de datos que contengan esa secuencia en cualquier posición.

Podemos hacer búsquedas más complejas ajustando una serie de parámetros y utilizando un formalismo especial que se describen en las siguientes secciones.

2 Base de datos

La base de datos que utiliza BuFón se divide en distintas secciones, cuyos nombres aparecen listados debajo de la ventana de búsqueda. Podemos elegir las secciones en las que el programa buscará el patrón deseado seleccionado las correspondientes casillas a la izquierda del nombre.

Diccionarios contiene aproximadamente 90.000 palabras que aparecen en los diccionarios normativos y de uso más comunes.

Seleccionando las casillas verbos y/o no verbos es posible filtrar la búsqueda para que solo aparezcan estas categorías.

Prensa contiene aproximadamente medio millón de palabras aparecidas en la prensa española de los últimos 15 años. Aparecen todas las formas conjugadas y derivadas de verbos, sustantivos y adjetivos, neologismos, palabras en otros idiomas y palabras con faltas de ortografía.

Para minimizar la información inútil que pueda devolver esta parte de la base de datos, los resultados están ordenados por frecuencia de aparición y se acompañan de un número que expresa las veces que aparece en el corpus.

Del mismo modo que en la anterior, podemos elegir que nos devuelva solo verbos y/o no verbos.

Nombres propios se divide a su vez en tres apartados de los que se puede seleccionar uno o varios a la vez.

Nombres de pila
Nombres de apellido
Nombres de lugar

Siglas contiene 1800 entradas de entre las más frecuentes aparecidas en la base de datos de prensa.

Marcas comerciales contiene 1600 entradas recopiladas de distintos sitios de Internet.

3 Modos de búsqueda

El programa tiene dos modos de búsqueda: uno ortográfico, seleccionado por defecto, y otro fonológico.

Cuando está seleccionado el modo ortográfico el programa busca las secuencias en su forma ortográfica normal. De modo que si buscamos #eb, el programa nos devolverá palabras como ebanista o ebrio.

Si seleccionamos el modo fonológico, en cambio, el programa busca las secuencias en su forma fonológica según unas reglas de transcripción que se explican en el anexo A. De este modo si buscamos #eb, el programa nos devolverá, a parte de las citadas anteriormente, también palabras como hebreo o evasión.

En el modo fonológico pueden usarse también las abreviaturas que se describen en el anexo B.

4 Formalismo

El formalismo de búsqueda de BuFón se basa en la sintaxis de expresiones regulares (ver Anexo D), aunque ha sido adaptada a las convenciones lingüísticas para hacerla más familiar a los usuarios potenciales de la aplicación: morfólogos, fonólogos, fonetistas, etc.

4.1 Búsquedas básicas

`#`	marca el inicio o final de palabra
`[abc]`	equivale a cualquiera de los caracteres contenidos entre los corchetes
`(a)`	hace opcional el carácter contenido entre paréntesis
`X`	equivale a cualquier carácter
`C`	equivale a cualquier consonante
`V`	equivale a cualquier vocal
`'V`	equivale a cualquier vocal con tilde
`S`	equivale a una sílaba de cualquier tipo
`¬`	equivale a cualquier segmento que no contenga el caracter que haya a continuación, el conjunto de caracteres entre corchetes o la abreviatura.

Ejemplos:

`#CCV`	devuelve palabras que empiezan por dos consonantes y una vocal
`#XX#`	devuelve palabras que tengan solo dos caracteres
`u[bdg]#`	devuelve palabras que acaban en ub, ud, o ug
`¬s#`	devuelve palabras que no acaban en s
`¬[mnñ]`	devuelve palabras que no tienen consonantes nasales
`#(p)seu`	devuelve palabras que empiezan por pseu o seu
`l'V#`	devuelve palabras que acaban en lá, lé, lí, ló o lú

4.2 Límites silábicos y morfológicos

Cuando el programa reconoce alguno de los siguientes signos en la cadena de búsqueda interpreta que la estructura silábica o morfológica es relevante.

`.`	marca el inicio o final de sílaba
`-`	marca una frontera morfológica
`<`	marca una frontera de prefijo
`>`	marca una frontera de sufijo

Ejemplos:

`.CCVV.`	devuelve palabras con sílabas formadas por dos consonantes y dos vocales
`#S.S.S#`	devuelve palabras trisílabas
`'S.S.X+C#`	devuelve palabras esdrújulas acabadas en consonante
`#sub<`	devuelve palabras que empiecen por el prefijo sub
`>i`	devuelve palabras que contengan cualquier sufijo que empiece por i
`n-t`	devuelve palabras que contengan la secuencia nt pero que entre ambos segmentos haya un límite morfológico

Hay que advertir, no obstante, que la segmentación morfológica está automatizada, por lo que es probable que los resultados presenten errores.

4.3 Repeticiones

`+`	cuando sigue a una letra o expresión entre corchetes equivale a cualquier número de apariciones de ese segmento o expresión.
`*`	el mismo significado que `+`, incluyendo la posibilidad de que dicho segmento o expresión no aparezca.

Ejemplos:

`ul+a#`	devuelve palabras que acaban en ula o ulla
`ul*a#`	devuelve palabras que acaban en ula, ulla o ua

4.4 Búsqueda inversa

`!`	cuando precede a cualquier patrón de búsqueda equivale a las secuencias que no coinciden con él.

Ejemplos:

`!#a`	devuelve palabras que no empiezan por a.
`!VV`	devuelve palabras que no tienen dos vocales seguidas.

4.5 Pares mínimos, tripletas, n-tuplas

{ab} Busca grupos de palabras que solo se diferencian en que cada una de ellas contiene uno de los caracteres encerrados entre corchetes en la misma posición.

Ejemplos:

`{mnñ}`	devuelve grupos de tres palabras como cama, cana, caña
`a{rl}#`	devuelve grupos de palabras como retar, retal

4.6 Variables (1, 2 y 3)

1a1 Busca palabras en las que a va seguida y precedida del mismo segmento

Ejemplos:

`#1V1V#`	devuelve palabras de cuatro segmentos en las que los impares son el mismo y los pares vocales, por ejemplo: nena, lila
`#32123#`	devuelve palíndromos de 5 segmentos

5 Facilidades adicionales

El programa incluye además las siguientes utilidades:

Número de palabras. Al final de la página el programa devuelve el número de palabras encontradas, el total de palabras en la parte del corpus seleccionada y el porcentaje que representa.
Resaltado de la clave en la búsqueda. Activando la opción Resaltar hacemos que el buscador resalte la parte de la palabra que coincide con nuestra búsqueda. Esta opción puede resultar útil cuando usamos expresiones complejas.
Guardar resultados en archivo. El programa almacena los datos de la última búsqueda en un archivo de texto que podemos descargar en nuestro ordenador pinchando sobre el icono que aparece al final de la búsqueda.

A Transcripción fonológica

La transcripción fonológica de las consonantes en el corpus se ha hecho según el siguiente cuadro:

AFI BuFón AFI BuFón

p p m m

t t n n

k k ñ o ~

b b R r

d d r R

g g l l

f f L L

s s J y

T 0 w w

x x tS c

B Abreviaturas

Abreviaturas para grupos de sonidos (solo funcionan en el modo fonológico):

Abreviatura	clase	equivalencia

Rasgos fonológicos (consonantes)

`ST`	sonante	`[aeiouáéíóúlrLRmnñwy]`
`SN`	sonoro	`[aeiouáéíóúbdglrLRmnñwy]`
`CN`	continua	`[aeiouáéíóúlrLRfsTx]`
`N`	nasal	`[mnñ]`
`CR`	coronal	`[tdnsTlrR]`
`DO`	dorsal	`[aeiouáéíóúkgñxLH]`
`LB`	labial	`[bpmfou]`

Rasgos fonológicos (vocales)

`A`	alta	`[uiíú]`
`B`	baja	`[aá]`
`RE`	retraída y redondeada	`[ouóú]`

Rasgos fonéticos (consonantes)

`T`	Oclusivas sordas	`[ptk]`
`D`	Oclusivas sonoras	`[bdg]`
`F`	Fricativas	`[fsTx]`
`Q`	Liquidas	`[lLrR]`

B.1 Negación

Las abreviaturas ST, SN, CN, N, A, B y RE se pueden negar, mediante el signo de negación lógico ¬ para obtener la clase contraria correspondiente. Ejemplos:

`maST#`	devuelve palabras que acaban en ma seguido de sonante
`ma¬ST#`	devuelve palabras que acaban en ma seguida de no sonante

B.2 Combinaciones

Las abreviaturas se pueden combinar encerrándolas entre corchetes para definir clases más complejas. Si combinamos rasgos de tipo fonológico obtendremos la intersección de los conjuntos a los que equivalen esas abreviaturas, es decir los elementos que comparten esos rasgos; si, por el contrario, combinamos rasgos de tipo fonético obtendremos la unión de los conjuntos que representan, es decir la suma de sus miembros.

Ejemplos:

`[SNCO]` (rasgos fonológicos)	equivale a `[lnrR]`
`[PD]` (rasgos fonéticos)	equivale a `[ptkbdg]`

C Segmentación silábica

Las entradas del corpus han sido segmentadas en sílabas para permitir buscar patrones silábicos y acentuales. Dado que en castellano no siempre es predecible la silabificación de una entrada léxica a partir de su forma ortográfica (principalmente por el problema de la variabilidad en el silabeo de vocales adyacentes) el algoritmo usado puede que produzca algún resultado indeseable para el usuario.

A continuación se reproduce la parte del algoritmo utilizada para silabificar secuencias de dos vocales, por si sirve de ayuda para interpretar los resultados.

si	las dos son átonas
	↪ diptongo
si no
	si	ninguna es /i/ o /u/ átonas
		↪ hiato
	si no
		si	la primera es /i/ y la segunda /a/ u /o/ y están a principio de palabra
			↪ hiato
		si no
			↪ diptongo

D Detalles técnicos

Las expresiones regulares consisten en una serie de convenciones formales, utilizadas por la mayoría de lenguajes de programación actuales, que sirven para describir un conjunto de cadenas o secuencias sin necesidad de enumerar todos sus elementos. De este modo una cadena como l[aou]na equivale a las secuencias: lana, lona, luna.

El formalismo de búsqueda de BuFón es compatible en gran medida con las expresiones regulares que utiliza PERL (lenguaje en el que está escrito el programa). Sin embargo algunos signos han sido recodificados para darles un significado más acorde con las convenciones lingüística. Así por ejemplo, la expresión regular . significa normalmente “cualquier signo, incluido el espacio” y en este programa “límite silábico”.

This document was translated from L^AT_EX by H^EV^EA.