Manual de BuFónVersión 1.021 de diciembre de 2010 |
Índice
- 1 Introducción
- 2 Base de datos
- 3 Modos de búsqueda
- 4 Formalismo
- 5 Facilidades adicionales
- A Transcripción fonológica
- B Abreviaturas
- C Segmentación silábica
- D Detalles técnicos
1 Introducción
BuFón es una herramienta de libre acceso disponible en la página web del Laboratorio de Fonética del CSIC http://www.cchs.csic.es/fonetica/ que permite hacer búsquedas de patrones morfofonológicos y pares mínimos en una base de datos de palabras del español.
La manera más sencilla de usar BuFón es escribir en la ventana de búsqueda una secuencia de caracteres y pulsar el botón Buscar. El programa devolverá una lista con todas las palabras que encuentre en la base de datos que contengan esa secuencia en cualquier posición.
Podemos hacer búsquedas más complejas ajustando una serie de parámetros y utilizando un formalismo especial que se describen en las siguientes secciones.
2 Base de datos
La base de datos que utiliza BuFón se divide en distintas secciones, cuyos nombres aparecen listados debajo de la ventana de búsqueda. Podemos elegir las secciones en las que el programa buscará el patrón deseado seleccionado las correspondientes casillas a la izquierda del nombre.
- Diccionarios contiene aproximadamente 90.000 palabras
que aparecen en los diccionarios normativos y de uso más comunes.
Seleccionando las casillas verbos y/o no verbos es posible filtrar la búsqueda para que solo aparezcan estas categorías.
- Prensa contiene aproximadamente medio millón de
palabras aparecidas en la prensa española de los últimos 15 años.
Aparecen todas las formas conjugadas y derivadas de verbos,
sustantivos y adjetivos, neologismos, palabras en otros idiomas y
palabras con faltas de ortografía.
Para minimizar la información inútil que pueda devolver esta parte de la base de datos, los resultados están ordenados por frecuencia de aparición y se acompañan de un número que expresa las veces que aparece en el corpus.
Del mismo modo que en la anterior, podemos elegir que nos devuelva solo verbos y/o no verbos.
- Nombres propios se divide a su vez en tres apartados
de los que se puede seleccionar uno o varios a la vez.
- Nombres de pila
- Nombres de apellido
- Nombres de lugar
- Siglas contiene 1800 entradas de entre las más frecuentes aparecidas en la base de datos de prensa.
- Marcas comerciales contiene 1600 entradas recopiladas de distintos sitios de Internet.
3 Modos de búsqueda
El programa tiene dos modos de búsqueda: uno ortográfico, seleccionado por defecto, y otro fonológico.
Cuando está seleccionado el modo ortográfico el programa
busca las secuencias en su forma ortográfica normal. De modo que si
buscamos #eb
, el programa nos devolverá palabras como
ebanista o ebrio.
Si seleccionamos el modo fonológico, en cambio, el programa
busca las secuencias en su forma fonológica según unas reglas de
transcripción que se explican en el anexo A. De este
modo si buscamos #eb
, el programa nos devolverá, a parte de las
citadas anteriormente, también palabras como hebreo o
evasión.
En el modo fonológico pueden usarse también las abreviaturas que se describen en el anexo B.
4 Formalismo
El formalismo de búsqueda de BuFón se basa en la sintaxis de expresiones regulares (ver Anexo D), aunque ha sido adaptada a las convenciones lingüísticas para hacerla más familiar a los usuarios potenciales de la aplicación: morfólogos, fonólogos, fonetistas, etc.
4.1 Búsquedas básicas
# | marca el inicio o final de palabra |
[abc] | equivale a cualquiera de los caracteres contenidos entre los corchetes |
(a) | hace opcional el carácter contenido entre paréntesis |
X | equivale a cualquier carácter |
C | equivale a cualquier consonante |
V | equivale a cualquier vocal |
'V | equivale a cualquier vocal con tilde |
S | equivale a una sílaba de cualquier tipo |
¬ | equivale a cualquier segmento que no contenga el caracter que haya a continuación, el conjunto de caracteres entre corchetes o la abreviatura. |
Ejemplos:
#CCV | devuelve palabras que empiezan por dos consonantes y una vocal |
#XX# | devuelve palabras que tengan solo dos caracteres |
u[bdg]# | devuelve palabras que acaban en ub, ud, o ug |
¬s# | devuelve palabras que no acaban en s |
¬[mnñ] | devuelve palabras que no tienen consonantes nasales |
#(p)seu | devuelve palabras que empiezan por pseu o seu |
l'V# | devuelve palabras que acaban en lá, lé, lí, ló o lú |
4.2 Límites silábicos y morfológicos
Cuando el programa reconoce alguno de los siguientes signos en la cadena de búsqueda interpreta que la estructura silábica o morfológica es relevante.
. | marca el inicio o final de sílaba |
- | marca una frontera morfológica |
< | marca una frontera de prefijo |
> | marca una frontera de sufijo |
Ejemplos:
.CCVV. | devuelve palabras con sílabas formadas por dos consonantes y dos vocales |
#S.S.S# | devuelve palabras trisílabas |
'S.S.X+C# | devuelve palabras esdrújulas acabadas en consonante |
#sub< | devuelve palabras que empiecen por el prefijo sub |
>i | devuelve palabras que contengan cualquier sufijo que empiece por i |
n-t | devuelve palabras que contengan la secuencia nt pero que entre ambos segmentos haya un límite morfológico |
Hay que advertir, no obstante, que la segmentación morfológica
está automatizada, por lo que es probable que los
resultados presenten errores.
4.3 Repeticiones
+ | cuando sigue a una letra o expresión entre corchetes equivale a cualquier número de apariciones de ese segmento o expresión. |
* | el mismo significado que + , incluyendo la posibilidad
de que dicho segmento o expresión no aparezca. |
Ejemplos:
ul+a# | devuelve palabras que acaban en ula o ulla |
ul*a# | devuelve palabras que acaban en ula, ulla o ua |
4.4 Búsqueda inversa
! | cuando precede a cualquier patrón de búsqueda equivale a las secuencias que no coinciden con él. |
Ejemplos:
!#a | devuelve palabras que no empiezan por a. |
!VV | devuelve palabras que no tienen dos vocales seguidas. |
4.5 Pares mínimos, tripletas, n-tuplas
{ab} | Busca grupos de palabras que solo se diferencian en que cada una de ellas contiene uno de los caracteres encerrados entre corchetes en la misma posición. |
Ejemplos:
{mnñ} | devuelve grupos de tres palabras como cama, cana, caña |
a{rl}# | devuelve grupos de palabras como retar, retal |
4.6 Variables (1, 2 y 3)
1a1 | Busca palabras en las que a va seguida y precedida del mismo segmento |
Ejemplos:
#1V1V# | devuelve palabras de cuatro segmentos en las que los impares son el mismo y los pares vocales, por ejemplo: nena, lila |
#32123# | devuelve palíndromos de 5 segmentos |
5 Facilidades adicionales
El programa incluye además las siguientes utilidades:
- Número de palabras. Al final de la página el programa devuelve el número de palabras encontradas, el total de palabras en la parte del corpus seleccionada y el porcentaje que representa.
- Resaltado de la clave en la búsqueda. Activando la opción Resaltar hacemos que el buscador resalte la parte de la palabra que coincide con nuestra búsqueda. Esta opción puede resultar útil cuando usamos expresiones complejas.
- Guardar resultados en archivo. El programa almacena los datos de la última búsqueda en un archivo de texto que podemos descargar en nuestro ordenador pinchando sobre el icono que aparece al final de la búsqueda.
A Transcripción fonológica
La transcripción fonológica de las consonantes en el corpus se ha hecho según el siguiente cuadro:
AFI BuFón AFI BuFón p p
m m
t t
n n
k k
ñ
o~
b b
R r
d d
r R
g g
l l
f f
L L
s s
J y
T 0
w w
x x
tS c
B Abreviaturas
Abreviaturas para grupos de sonidos (solo funcionan en el modo fonológico):
Abreviatura | clase | equivalencia |
Rasgos fonológicos (consonantes) | ||
ST | sonante | [aeiouáéíóúlrLRmnñwy] |
SN | sonoro | [aeiouáéíóúbdglrLRmnñwy] |
CN | continua | [aeiouáéíóúlrLRfsTx] |
N | nasal | [mnñ] |
CR | coronal | [tdnsTlrR] |
DO | dorsal | [aeiouáéíóúkgñxLH] |
LB | labial | [bpmfou] |
Rasgos fonológicos (vocales) | ||
A | alta | [uiíú] |
B | baja | [aá] |
RE | retraída y redondeada | [ouóú] |
Rasgos fonéticos (consonantes) | ||
T | Oclusivas sordas | [ptk] |
D | Oclusivas sonoras | [bdg] |
F | Fricativas | [fsTx] |
Q | Liquidas | [lLrR] |
B.1 Negación
Las abreviaturas ST, SN, CN, N, A, B y RE se pueden negar, mediante el signo de negación lógico ¬ para obtener la clase contraria correspondiente. Ejemplos:
maST# | devuelve palabras que acaban en ma seguido de sonante |
ma¬ST# | devuelve palabras que acaban en ma seguida de no sonante |
B.2 Combinaciones
Las abreviaturas se pueden combinar encerrándolas entre corchetes para definir clases más complejas. Si combinamos rasgos de tipo fonológico obtendremos la intersección de los conjuntos a los que equivalen esas abreviaturas, es decir los elementos que comparten esos rasgos; si, por el contrario, combinamos rasgos de tipo fonético obtendremos la unión de los conjuntos que representan, es decir la suma de sus miembros.
Ejemplos:
[SNCO] (rasgos fonológicos) | equivale a [lnrR] |
[PD] (rasgos fonéticos) | equivale a [ptkbdg] |
C Segmentación silábica
Las entradas del corpus han sido segmentadas en sílabas para permitir buscar patrones silábicos y acentuales. Dado que en castellano no siempre es predecible la silabificación de una entrada léxica a partir de su forma ortográfica (principalmente por el problema de la variabilidad en el silabeo de vocales adyacentes) el algoritmo usado puede que produzca algún resultado indeseable para el usuario.
A continuación se reproduce la parte del algoritmo utilizada para silabificar secuencias de dos vocales, por si sirve de ayuda para interpretar los resultados.
si | las dos son átonas | ||
↪ diptongo | |||
si no | |||
si | ninguna es /i/ o /u/ átonas | ||
↪ hiato | |||
si no | |||
si | la primera es /i/ y la segunda /a/ u /o/ y están a principio de palabra | ||
↪ hiato | |||
si no | |||
↪ diptongo |
D Detalles técnicos
Las expresiones regulares consisten en una serie de convenciones
formales, utilizadas por la mayoría de lenguajes de programación
actuales, que sirven para describir un conjunto de cadenas o
secuencias sin necesidad de enumerar todos sus elementos. De este
modo una cadena como l[aou]na
equivale a las secuencias:
lana, lona, luna.
El formalismo de búsqueda de BuFón es compatible en gran medida con las expresiones regulares que utiliza PERL (lenguaje en el que está escrito el programa). Sin embargo algunos signos han sido recodificados para darles un significado más acorde con las convenciones lingüística. Así por ejemplo, la expresión regular . significa normalmente “cualquier signo, incluido el espacio” y en este programa “límite silábico”.
This document was translated from LATEX by HEVEA.