ODS8 en fichier texte. Script Python

Cet article vient en complément de l’archive Un lexique genre ODS7 en txt… , en effet un utilisateur m’a fait part de sa recherche sur l’ODS 8 et ce « vieux billet » est un peu obsolète.

Voilà, mais pour des besoins pédagogiques (formation algorithme au cycle 4) j’avais besoin d’une liste de mots en .txt

Remarque : Je dis bien liste de mots (et non dictionnaire). Et les mots sont à tout le monde…

En effet j’envisage de faire travailler des élèves de 4ème, 3ème sur le développement d’algorithmes divers ayant pour base des jeux de lettres :

  • Boggle
  • Scabble
  • Pendu
  • etc…

Après quelques recherches sur la toile, je me suis aperçu que le fichier txt que je cherchais n’existait pas. Mais que quelques sites proposaient des listes (en html multi-pages. )

Ainsi le très bon listesdemots.net vous propose de nombreuses liste de mots. (898 pages)

Il était donc possible mais fastidieux de créer un fichier txt en copiant collant toutes ces listes !

Pas si fastidieux si on a Python sous le coude !

Code Python traduit en HTML:
#wouf 2020 (py3.6.4)
#http://site2wouf.fr
#Pour créer dico.txt
#Qui contient un lexique basé sur
#ODS8
#En scollant le site : listesdemots.net
#requis :l beautifulsoup4
#(cmd : pip install beautifulsoup4)
#requis :2 requests
#(cmd : pip install requests)
import requests
from bs4 import BeautifulSoup
fichier = open("dico.txt" , "w" )
 
#   Initialisation:
url="https://www.listesdemots.net/touslesmots" 
requete = requests.get(str(url+".htm" )) #page1
print(requete.url)
page = requete.content
 
soup = BeautifulSoup(page,features="html5lib" )
span = soup.find("span" , {"class" : "mot" })
mots=span.string.strip()
lesmots=mots.split(" " )
for l in lesmots:
    fichier.write(l+"\n" )
    print("|" ,end="" )
print()
print("page 1 : OK (" +str(len(lesmots))+")" )
totalmot=len(lesmots)
fichier.close()
#page 2 à 918:
for i in range(2,919):
    fichier = open("dico.txt" , "a" )
    lurl=url+"page" +str(i)+".htm" 
    ok=False
    while not ok:
        try:
            requete = requests.get(lurl,timeout=1)
            ok=True
        except:
            print("Problème de connexion. Je recommence !" )
    print(requete.url)
    page = requete.content
    soup = BeautifulSoup(page,features="html5lib" )
    span = soup.find("span" , {"class" : "mot" })
    mots=span.string.strip()
    lesmots=mots.split(" " )
    for l in lesmots:
        fichier.write(l+"\n" )
        print("|" ,end="" )
    totalmot+=len(lesmots)
    print()
    print("page " +str(i)+" : OK (" +str(len(lesmots))+"/" +str(totalmot)+")" )
    fichier.close()
#fin du script:
  
 
print("mots :" ,totalmot)

Ce script produit en quelques minutes un fichier txt (avec un mot par ligne) contenant tous les mots du site !

Sur le site de la fédération on peut lire :

Qui contacter pour distribuer/vendre un ouvrage ou autre produit utilisant la base de mots de l’Officiel du Scrabble® ?

Tout auteur souhaitant distribuer/vendre un ouvrage ou autre produit (hors application pour Smartphone), utilisant une base de mots conforme à l’Officiel du Scrabble®, doit remplir un contrat de partenariat qui lui sera envoyé sur demande faite auprès de la FISF, à l’adresse suivante : contact@fisf.net

Toute société souhaitant distribuer/vendre un produit numérique privé/grand public sécurisé du type application pour Smartphone, utilisant une base de mots conforme à l’ODS, doit contacter Jean-François Richez, responsable des licences numériques chez Larousse, à l’adresse suivante : JFRICHEZ@larousse.fr

Un jour un mot : seizain

SEIZAIN [sê-zin] s. m.

 1°  Sorte de drap à chaîne de 1600 fils. Les draps du sceau de Rouen, Darnetal, Dieppe, les seizains de Sastes, Réglem. sur les manuf. août 1669, art. 2.

 2°  Anciennement, un quart d’écu.

 3°  Pièce de seize vers.

ÉTYMOLOGIE

Seize.

Remarques

Non seulement ce mot est accepté par l’ODS 7 mais il dispose de 3 anagrammes :

  • anisiez 
  •  niaisez  
  • sizaine 

Voir aussi :

Un jour un mot : Malfil

SUPPLÉMENT AU DICTIONNAIRE

MALFIL [mal-fil] s. m.

Sac de laine dans lequel on met les pains d’acide gras pour les soumettre à la presse hydraulique. ♦ Lorsqu’au bout de cinq à six heures la presse verticale a épuisé son action, les malfils sont vidés et les pains sont mis dans des sacs en crin appelés étreindelles, et soumis au pressage à chaud, P. POIRÉ, Notions de chimie.

ATTENTION

Ce mot n’est pas accepté par l’ODS7

Voir aussi :

Un jour un mot : Kamichi

KAMICHI [ka-mi-chi] s. m.

Terme de zoologie. Grand oiseau noir de l’ordre des échassiers qui habite dans les marécages de la Guyane et du Brésil ; deux espèces : le kamichi cornu, et le kamichi fidèle qui garde les volailles comme un chien de berger (genre palamedea, L.).

Source : Wikipedia

Voir aussi :

Un jour un mot : Ruolz

SUPPLÉMENT AU DICTIONNAIRE

RUOLZ [ru-ols’] s. m.

Sorte de plaqué, ainsi dit de Ruolz inventeur. ♦ La dorure et l’argenture, ce qu’on appelle le ruolz, c’est tout simplement du laiton, du bronze fondu que l’on dore ou que l’on argente par précipité dans le bain, Enquête, Traité de comm. avec l’Anglet. t. II, p. 330

Fig. C’est du ruolz, se dit d’un objet qui n’a que l’apparence, d’un homme dont le mérite n’a que du clinquant.

Ce mot RUOLZ est reconnu par l’ODS7

Voir aussi :

Un mot un jour : Putet

SUPPLÉMENT AU DICTIONNAIRE

PUTET [pu-tè] s. m.

♦ En plusieurs provinces, petite mare formée par le liquide écoulé du fumier, Gloss. aunisien, p. 138, et DELBOULLE, Gloss. de la vallée d’Yères, p. 270

Dans d’autres parties de la Normandie, on dit putel.

ÉTYMOLOGIE

Autre forme de l’anc. franç. putel, fumier, bourbe, du lat. putere, puer.

Attention : ce mot n’est pas reconnu par l’ODS7

TOP mots trouvés : peut (6 points) pute (6 points) peu (5 points)

Voir aussi :

Un mot de temps en temps : Abluer

ABLUER [a-blu-é] v. a.

Terme technique. Laver, passer légèrement une liqueur préparée avec de la noix de galle sur du parchemin ou du papier, pour faire revivre l’écriture.

Attention ce verbe n’est pas accepté par l’ODS7

Voir aussi :

Un lexique genre ODS7 en txt…

Cet article est obsolète, vous pouvez lire l’ Article mis à jour pour l’ODS8

L’Officiel du Scrabble® est le dictionnaire officiel du jeu de Scrabble® francophone depuis le 1er janvier 1990. Il est édité par Larousse et est couramment appelé « ODS » par les scrabbleurs.

2016 voit l’entrée en vigueur de l’ODS7…

Sur le site de la fédération on peut lire :

Qui contacter pour distribuer/vendre un ouvrage ou autre produit utilisant la base de mots de l’Officiel du Scrabble® ?

Tout auteur souhaitant distribuer/vendre un ouvrage ou autre produit (hors application pour Smartphone), utilisant une base de mots conforme à l’Officiel du Scrabble®, doit remplir un contrat de partenariat qui lui sera envoyé sur demande faite auprès de la FISF, à l’adresse suivante : contact@fisf.net

Toute société souhaitant distribuer/vendre un produit numérique privé/grand public sécurisé du type application pour Smartphone, utilisant une base de mots conforme à l’ODS, doit contacter Jean-François Richez, responsable des licences numériques chez Larousse, à l’adresse suivante : JFRICHEZ@larousse.fr

Voilà, mais pour des besoins pédagogiques (formation algorithme au cycle 4) j’avais besoin d’une liste de mots en .txt

Remarque : Je dis bien liste de mots (et non dictionnaire). Et les mots sont à tout le monde…

En effet j’envisage de faire travailler des élèves de 4ème, 3ème sur le développement d’algorithmes divers ayant pour base des jeux de lettres :

  • Boggle
  • Scabble
  • Pendu
  • etc…

Après quelques recherches sur la toile, je me suis aperçu que le fichier txt que je cherchais n’existait pas. Mais que quelques sites proposaient des listes (en html multi-pages. )

Ainsi le très bon listesdemots.net vous propose de nombreuses liste de mots. (898 pages)

Il était donc possible mais fastidieux de créer un fichier txt en copiant collant toutes ces listes !

Pas si fastidieux si on a Python sous le coude !

#wouf 2018 (py3.6.4)
#http://site2wouf.fr
#Pour créer dico.txt
#Qui contient un lexique basé sur
#ODS7
#En scollant le site : listesdemots.net
#requis :l beautifulsoup4
#(cmd : pip install beautifulsoup4)

import requests
from bs4 import BeautifulSoup
fichier = open("dico.txt", "w")

#	Initialisation:
url="https://www.listesdemots.net/touslesmots"
requete = requests.get(str(url+".htm")) #page1
print(requete.url)
page = requete.content

soup = BeautifulSoup(page,features="html5lib")
span = soup.find("span", {"class": "mot"})
mots=span.string.strip()
lesmots=mots.split(" ")
for l in lesmots:
    fichier.write(l+"\n")
    print("|",end="")
print()
print("page 1 : OK ("+str(len(lesmots))+")")
totalmot=len(lesmots)
fichier.close()
#page 2 à 8998:
for i in range(2,899):
    fichier = open("dico.txt", "a")
    lurl=url+"page"+str(i)+".htm"
    ok=False
    while not ok:
        try:
            requete = requests.get(lurl,timeout=1)
            ok=True
        except:
            print("Problème de connexion. Je recommence !")
    print(requete.url)
    page = requete.content
    soup = BeautifulSoup(page,features="html5lib")
    span = soup.find("span", {"class": "mot"})
    mots=span.string.strip()
    lesmots=mots.split(" ")
    for l in lesmots:
        fichier.write(l+"\n")
        print("|",end="")
    totalmot+=len(lesmots)
    print()
    print("page "+str(i)+" : OK ("+str(len(lesmots))+"/"+str(totalmot)+")")
    fichier.close()
#fin du scipt:
 

print("mots :",totalmot)
    


Ce script produit en quelques minutes un fichier txt (avec un mot par ligne) contenant les 402 503 mots du site !

En cas de mauvaise connexion, pas de souci, le script gère ! Le temps de génération du fichier txt sera sensiblement plus long !

Enjoy !

Quitter la version mobile