Si le preguntamos a cualquier hispanohablante cuántas vocales hay o cuántas vocales tiene el español, la respuesta inmediata y sin titubeos de la mayoría será que son cinco vocales las que tiene, como todo el mundo sabe: a, e, i, o, u. Es algo tan básico que tenemos incluso aquella canción: «borriquito como tú… que no sabes ni la u…».
Aunque es cierto que el sistema vocálico más frecuente en las lenguas del mundo es de cinco vocales, y el español es efectivamente una de estas lenguas, tenemos que preguntarnos cómo hemos llegado a esta situación desde las diez vocales que tenía el latín y por qué la mayoría de las lenguas hermanas tienen, al menos, siete:
- gallego (7): /i, e, ɛ, a, ɔ, o, u/
- italiano (7): /i, e, ɛ, a, ɔ, o, u/
- catalán (7 u 8): /i, e, ɛ, a, ɔ, o, u (, ə)/
- rumano (7): /i, e, a, o, u, ə, ɨ/
- portugués (hasta 9 orales): /i, e, ɛ, a, ɔ, o, u, ə (, ɨ)/
- francés (hasta 12 orales): /i, e, ɛ, a, ɔ, o, u, ə, œ, ø, y (, ɛː, ɑ)/
Para los hispanohablantes, la correspondencia de letras y de fonemas vocálicos es simétrica, y por eso no titubeamos al responder a esa pregunta. Sin embargo, si uno pregunta a hablantes de lenguas con más de cinco vocales, las respuestas son variopintas: desde el anglófono que afirma que su lengua tiene cinco vocales hasta los que, sin saberlo instintiva e inmediatamente, intentan hacer cálculos, acertados en mayor o menor medida, al vuelo.
Tan rápida, fácil e intuitiva es la respuesta para los hispanohablantes que quien no está familiarizado con la lingüística y la fonética en general puede incluso hacerse preguntas como «¿¡Es que hay más de cinco vocales!?».
Tras este preámbulo, veamos por qué la mayoría de las variedades del español tienen cinco fonemas vocálicos, en lugar de los siete que se habrían esperado a partir de la evolución del latín tardovulgar.
Contenidos del artículo
Las vocales en latín
Como hemos mencionado, el latín tenía diez vocales, esto es, /i, e, a, o, u/ breves y las correspondientes vocales largas. Es por esto que el alfabeto latino, al contrario que por ejemplo el griego, estaba concebido en un principio para representar estos cinco timbres vocálicos (sin contar la grafía ‹y›, de introducción posterior).

Si la única lengua romance fuera el español, podríamos pensar, precipitadamente, que lo único que ocurrió fue que se perdieron las vocales largas —o que se fundieron o convergieron con las breves— y que por eso tenemos, básicamente, una grafía para cada una de las cinco vocales; esto sí que pasó tal cual en sardo.
Sin embargo, lo ocurrido en castellano es algo más complicado. Para entender el resultado en cinco vocales de nuestra lengua tenemos que continuar un poco más con la evolución del latín.
Los cinco pares de vocales del latín, que en principio contrastaban en cantidad (a larga y a breve, e larga y e breve, etc.) pero no en timbre (p. ej. la i larga sonaba igual que la i breve, solo que con mayor duración), debieron en algún momento diferenciarse también en el timbre, tal como pasa en el inglés británico actual, en el que las íes de sheet /ʃiːt/ y de shit /ʃɪt/ difieren tanto en duración —por eso la primera incluye el símbolo ː, que indica cantidad larga— como en timbre —por eso los símbolos fonéticos son distintos: /i/ e /ɪ/—, siendo la de shit, por así decirlo, intermedia entre nuestra /i/ y nuestra /e/.
Boletín de lenguas para linguófilos

Un correo diario con contenidos e historias filológicas y lingüísticas.
(El artículo que estás leyendo no se cierra: no perderás la posición de lectura, así que apúntate al boletín ahora mismo y enseguida podrás seguir leyendo).
Pérdida de la cantidad vocálica
Podemos suponer que antes del siglo II d. C. estábamos en un estadio en el que las vocales latinas diferían tanto en timbre como en cantidad, siendo las largas algo más cerradas que las correspondientes breves, más abiertas.
A partir de este momento la cantidad se perdió y, una vez que las vocales largas habían desaparecido como tales, lo único relevante en la distinción de las vocales era el timbre, y es de suponer que, alrededor del siglo III-IV, ya nos encontrábamos con un sistema vocálico de siete vocales (en sílaba tónica) como el del gallego o el italiano.
Distinción entre vocales tónicas y átonas
Antes de seguir, hemos de distinguir entre las vocales en sílaba tónica y en sílaba átona. El vocalismo átono del latín tardovulgar resultó, con sus matices —en los que no entraremos— en cinco vocales: /i, e, a, o, u/; por tanto, esto no presenta dificultad y carece de mayor interés.
Es en el vocalismo tónico donde encontramos un mayor número de vocales en la mayoría de lenguas romances, por lo que hemos de ver qué pasó con los equivalentes castellanos.
Suscríbete al pódcast de gramática histórica
Las vocales de las lenguas romances
Las vocales presentes en las citadas lenguas romances, de las que carece el español, son la e abierta /ɛ/ y la o abierta /ɔ/. Dicho de otra forma: las lenguas romances, por lo general, tienen dos es distintas y dos oes distintas, una abierta y otra cerrada, mientras que el español solo tiene una e y una o intermedias entre las abiertas y las cerradas de las otras lenguas que distinguen.
Así, por ejemplo, los italianos —no todos— distinguen dos significados, según sus diferentes orígenes, de pesca: /ˈpɛska/ ‘melocotón’ y /ˈpeska/ ‘pesca’. Si un hispanohablante pronuncia pesca, el italoparlante no sabrá si se refiere al melocotón o al acto de pescar.

Diptongación de vocales tónicas abiertas
En la mayoría de las variedades del latín hablado —lo que aquí llamaremos protorromance por pura conveniencia—, las vocales /ɛ/ y /ɔ/ se fracturaron, es decir, se convirtieron en una especie de vocal doble, de modo que /ɛ/ se convirtió en [eɛ] y /ɔ/, en [oɔ], primer paso hacia una verdadera diptongación en /ie/ y /uo/ respectivamente.
El castellano iría un paso más allá en el segundo diptongo, diferenciando aún más sus elementos, con lo que llegamos a /ue/ (aunque hubo variación, p. ej. /ua/ como en uamne). Nada de esto, sin embargo, ocurrió en el gallegoportugués ni en el catalán.

Diptongación según la lengua romance
En este punto, hagamos algunas comprobaciones con el español, el italiano y el francés (y portugués y catalán, donde nunca hay diptongación) para ver que todo funciona:
- pĕ́tra > «piedra» | pietra | pierre || pedra | pedra
- fŏ́cu > «fuego» | fuoco | feu || fogo | foc
Pero ¿qué pasa con este otro par?
- fĕ́sta > «fiesta» | festa | fête || festa | festa
- pŏ́rta > «puerta» | porta | porte || porta | porta
Aquí vemos que solo el español tiene diptongos, mientras que las demás lenguas, incluidos el italiano y el francés, tienen vocales puras.

Este libro es un compendio de la mitología griega narrada de forma ligera y amena, pero también de forma razonablemente exhaustiva dentro de la concisión deseada. Dicho todo esto de otra forma: buena parte del esfuerzo lo he puesto en equilibrar (o balancear, como se dice más ahora) esos factores dentro de lo que mi cabecita ha sido capaz de hacer: exhaustividad, concisión, diversión. 👉 Ver más.
La diferencia entre el primer y el segundo par es que las sílabas donde se encuentran las vocales en cuestión son abiertas (la sílaba acaba en vocal: pe‑tra, fo‑cu) o cerradas (la sílaba acaba en consonante: fes‑ta, por‑ta).
Como las sílabas trabadas tienden a acumular mayor tensión articulatoria, no hay diptongación. La única excepción, como vemos, es el castellano, que diptonga las primitivas ĕ́ /ɛ́/ y ŏ́ /ɔ́/ tanto en sílaba abierta como en sílaba cerrada.
Hay, aun así, algunas palabras que escapan a la diptongación incluso en español, como por ejemplo:
- mŏ́nte debería haber dado *«muente», igual que fŏ́nte ha dado «fuente»
- hŏ́mine debería haber dado «huembre», que de hecho puede encontrarse en textos medievales
- abscŏ́ndit debería haber dado *«escuende»
Incluso hay diferencias entre las lenguas peninsulares que dan lugar a diptongos donde el castellano no los tiene:
Conclusión: ¿por qué el español tiene solo cinco vocales?
La mayoría de las lenguas romances tienen, al menos, siete vocales, incluyendo una e abierta y otra cerrada, y una o abierta y otra cerrada; las abiertas, resumiendo, corresponden a las antiguas e y o breves (> /ɛ/ y /ɔ/) en sílaba cerrada tónica, como en f[ɛ]sta y p[ɔ]rta.
El castellano es la gran excepción, ya que diptonga sin hacer distingos de ningún tipo cualquier antigua e y o breve en sílaba tónica. Por tanto, el español tiene cinco vocales: /a/, /i/, /u/ como todas las lenguas romances y una sola /e/ y una sola /o/ que no son ni abiertas ni cerradas (y a las que por tanto, hilando fino, habría que añadir unos diacríticos: [e̞], [o̞]). A las vocales puras abiertas /ɛ/, /ɔ/ de las otras lenguas romances (que serían las vocales sexta y séptima) corresponden diptongos en español: /ie/, /ue/.
Boletín de lenguas para linguófilos

Un correo diario con contenidos e historias filológicas y lingüísticas.
(El artículo que estás leyendo no se cierra: no perderás la posición de lectura, así que apúntate al boletín ahora mismo y enseguida podrás seguir leyendo).
Alternancias morfofonológicas: «si quieres, puedes»
O «si querés, podés», que diría un argentino. Aunque llevamos dichas muchas cosas, tenemos que tener en cuenta, para este apartado del artículo sobre alternancias morfofonológicas, los siguientes datos clave:
- el español diptonga las antiguas ĕ y ŏ cuando son tónicas: ĕ́ > /ie/; ŏ́ > /ue/
- si las antiguas ĕ y ŏ son átonas, el español tiene las respectivas vocales /e/ y /o/
- marcaremos subrayando la vocal o el diptongo tónico: V
Por tanto, y como sabe cualquier nativo al menos de forma inconsciente, esto nos lleva a que podamos tener lexemas que pueden aparecer con más de una forma, por ejemplo «puerta» ↔ «portero» o «fiesta» ↔ «festival».
La razón, como ya habrás adivinado, es que en la primera palabra de cada par la antigua vocal breve es tónica (y por tanto diptonga), mientras que, en la segunda, es átona (y por tanto permanece como vocal pura). La alternancia morfofonológica está condicionada por el acento.
Este tipo de alternancias también se da en los paradigmas verbales según estas mismas reglas. Por eso tenemos, en el presente de indicativo y subjuntivo, que todo el singular y la 3.ª persona del plural tienen diptongo en verbos descendientes de étimos latinos con vocal radical ĕ/ŏ: «pierdo, pierdes, pierde, perdemos, perdéis, pierden».
Algunas excepciones
Aunque esta es la regla general, las alternancias morfofonológicas tienen también su parte caprichosa.
¿Por qué «ofendo», pero «defiendo»? Los dos verbos son obvios compuestos de la raíz verbal latina fĕnd‑, y no hay ninguna razón —más allá de la histórica: «ofender» es palabra más tardía que «defender»— para que lo correcto hubiera sido *«ofiendo».
¿Y por qué de «diente» → «dentista» pero de «cuento» → «cuentista» (cf. «contar»)? Desde un punto de vista estrictamente etimológico y morfofonológico, deberíamos tener *«contista». Simplemente, el derivado se ha hecho no sobre el lexema original cont‑, sino ya sobre el lexema (diptongado) de «cuento».
Los cursos de latín y griego antiguo desde cero incluyen todas las explicaciones gramaticales que puedas necesitar. No es un simple manual de gramática: son contenidos organizados lógica y gradualmente y explicados en vídeo. Lo mejor de los cursos es la enorme cantidad de prácticas graduadas de análisis, traducción, declinación, conjugación, etc. ¡Infórmate!
¿Y de «nuevo» → tanto «nuevísimo» como «novísimo»; de «fuerte» → tanto «fuertísimo» como «fortísimo»? Los superlativos en -ísimo, aunque ya existían en latín, se normalizaron en español secundariamente a través del italiano, con regusto cultista; por esto les viene bien conservar la raíz en monoptongo del latín. Por otra parte, este sufijo nuevo se añade a adjetivos que son siempre con diptongo, por lo que también les viene bien conservar la raíz diptongada castellana. La Nueva gramática incluso da una lista cerrada de estos casos:
ardentísimo ~ ardientísimo; bonísimo ~ buenísimo; calentísimo ~ calientísimo; certísimo ~ ciertísimo; destrísima ~ diestrísima; ferventísima ~ fervientísima; fortísima ~ fuertísima; grosísimo ~ gruesísimo; novísimo ~ nuevísimo; recentísimo ~ recientísimo; ternísima ~ tiernísima; valentísima ~ valientísima
RAE/ASALE, Nueva gramática de la lengua española
¿Qué es lo correcto: «fregaplatos» y «fregasuelos» o «friegaplatos» y «friegasuelos»? Recomienda y justifica el Diccionario panhispánico de dudas que las formas adecuadas son con diptongo, pues el compuesto se forma sobre la 3.ª persona, que, como sabemos, tiene diptongo. Este razonamiento morfológico, que es el que predomina, realmente va contra los razonamientos fonológico y aun etimológico:
- contra el fonológico porque esa sílaba no está acentuada y por tanto debería haberse quedado como e
- contra el etimológico porque, de hecho, esa e nunca debería diptongar, pues «fregar» procede de frĭcare, y esa ĭ da siempre /e/ sin posibilidad de diptongación: deberíamos tener *«frega» < frĭcat igual que tenemos «pera» < pĭra
Vemos, por tanto, que ocasionalmente las cosas no son ni tan blancas ni tan negras.
¿Por qué «hueso» y «huevo» llevan ‹h›, pero «óseo» y «oval» no?
Un efecto colateral de todo esto es la alternancia ortográfica ‹h› ~ ‹∅› en palabras como «hueso» ↔ «óseo». ¿Por qué «hueso», «huevo», «huelo» (del verbo «oler»), etc., se escriben con ‹h›, mientras que «óseo», «oval», «oler», etc., no la llevan?
Suscríbete al pódcast de histori(et)as de griegos y romanos
Durante la Edad Media, una vez que el diptongo ue ya se había consolidado, se tomó la costumbre de escribir delante de las palabras que empezaban por ue una h para evitar que la u del diptongo se confundiera con una v, dando lugar a lecturas incorrectas como los ejemplos siguientes:
- «hueso» se escribiría *uesso y podría confundirse con *vesso *[ˈbeso]
- «huevo» se escribiría *uevo y podría confundirse con *vevo *[ˈbeβo]
- «huelo» se escribiría *uelo y podría confundirse con *velo *[ˈbelo]
Cuando el español sí tiene más de cinco vocales

Como pasa con los estereotipos, detrás de cada meme suele haber algo de verdad. Es característico —pero no exclusivo— de la parte oriental de Andalucía y Murcia el desdoblamiento fonológico por el que se crean, al menos, tres vocales nuevas.
La relajación de la /s/ al final de una palabra en plural es típica del español atlántico. Esta relajación llega a la completa elisión en algunas zonas, lo que, en principio, nos dejaría con que el singular y el plural serían iguales:
- «libre» = «libre
s» - «niño» = «niño
s» - «niña» = «niña
s»
Sin embargo, en la parte oriental de Andalucía y en Murcia se crean tres nuevas vocales por compensación de la /s/ que se pierde, de modo que el singular y el plural contrastan, al menos, para el oído acostumbrado:
- «libre» [ˈliβɾe], «libres» [ˈliβɾɛ]
- «niño» [ˈniɲo], «niños» [ˈniɲɔ]
- «niña» [ˈniɲa], «niñas» [ˈniɲæ]
Siguiendo el razonamiento de los pares mínimos, tendríamos que, de hecho, estas variedades tienen al menos ocho fonemas vocálicos.
Trato gran parte de todo este apasionante tema —además de, prácticamente, lo que un mortal ha de saber sobre fonética y fonología del español— en la clase de alternancias morfofonológicas de mi curso de fonética y fonología del español. Si te interesa el tema, puedes empezar ahora mismo con la primera clase o, algo más práctico, con la segunda.
¡Por cierto! Puedes seguir aprendiendo y disfrutando en mi boletín diario: cada día envío un correo donde comparto artículos, recursos, vídeos, pensamientos y reflexiones, todo relacionado con la filología, la lingüística... en fin, todo eso que nos gusta a ti y a mí. Es gratis, pero solo para auténticos linguófilos.