『mockaroo』はダミーデータを作ることができるサイトで、一度に1000件までなら無料で作れるので、作ったアプリのテストデータや、PythonやSQLなどのプログラミング学習に使うダミーデータを生成したりするにはとても便利です。
『mockaroo』へのリンク ( https://www.mockaroo.com/)
mockarooの使い方
『mockaroo』のトップページになります。ほぼほぼ直感的に使えるので、説明の余地はないですね。。。一応、各項目のご紹介をします。
①Filed Name:フィールド名
生成するデータのFiled Nameを自由につけることができます。このデータを使うコードに合わせて設定したらよいと思います。
②Type:データの種類
生成するデータの種類を選択します。2022年5月末現在で、157種類のデータから選択できます。それぞれのデータ種類に応じてそれっぽいデータを生成してくれます。
③Option / blank:欠損データ割合
生成するデータの一部を欠損データにしたい場合は、ここで指定します。
④Optiom / Formula:式による加工
生成するデータをコードで加工できます。例えば、出てきたデータを処理したり、表示形式を変更できます。文法はrubyに準拠しているようです。
⑤Delete:フィールドの削除
不要なフィールドはXマークを押すと削除できます。
⑥ADD ANOTHER FIELD:新規フィールドの追加
新しいフィールドを追加できます。
⑦Rows:行数
行数を選択します。(最大1000行)
⑧Format:出力フォーマット
出力するフォーマットを選択します。CSV、JSON、SQL、EXCELなど11種類のフォーマットから選びます。
⑨Line Ending:改行コード
改行コード(LF、CRLF)を選択します。
⑩header:ヘッダー
カラム名をヘッダーに含める場合はチェックします。
BOM:BOM有無
データの先頭にUTF-8のBOM(byte order mark)を明示的に入れる場合はチェックします。Excelなどで出力したとき、うまく読み込めない場合はチェックしてみたらよいと思います。
⑪DOWNLOAD DATA:データのダウンロード
データを生成してダウンロードします。
⑫PREVIEW:プレビュー
生成データをプレビューします。
⑬Sort:並び替え
フィールド横のマークをクリック&ドロップでフィールドの並び順を変えることができます。
データの種類
個人データなどの様々なデータ種のフィールドが準備されています。
作成例
それでは試しに、ある架空のセミナーの参加者のリストを作ってみます。年齢は、Numberを選択して、min(最小値)とmax(最大値)を設定することで、20~70のランダムの年齢を出力できます。「DOWNLOAD DATA」を押すと、「MOCK_DATA.csv」という名前でダウンロードします。
作ったデータをPythonのPandasで読み込んで確認してみます。Jupiter Labから同じディレクトリに置いた「MOCK_DATA.csv」を読み込んで表示してみます。
import pandas as pd
df = pd.read_csv("MOCK_DATA.csv", encoding="utf_8")
df
[出力結果]
最後に
「mockaroo」のサイトを使うと簡単にダミーデータを作成できます。mockarooと同じようなことができるサイトがあるので、探してみると面白いかもしれません。
例えば、日本語だとUserLocalの「個人情報テストデータジェネレーター」は日本人の氏名の名簿を作成できます。人口比に応じて、年齢や住所を出力してくれるなど、ランダムなmockarooと違って、統計値に基づいて、よりリアルに近いダミーデータを出力してくれるみたいです。
コメント