1000件のダミーデータを『mockaroo』で作ってみる

スポンサーリンク
サイト紹介
スポンサーリンク

 『mockaroo』はダミーデータを作ることができるサイトで、一度に1000件までなら無料で作れるので、作ったアプリのテストデータや、PythonやSQLなどのプログラミング学習に使うダミーデータを生成したりするにはとても便利です。

『mockaroo』へのリンク  ( https://www.mockaroo.com/)

mockarooの使い方

 『mockaroo』のトップページになります。ほぼほぼ直感的に使えるので、説明の余地はないですね。。。一応、各項目のご紹介をします。

①Filed Name:フィールド名
 生成するデータのFiled Nameを自由につけることができます。このデータを使うコードに合わせて設定したらよいと思います。
②Type:データの種類
 生成するデータの種類を選択します。2022年5月末現在で、157種類のデータから選択できます。それぞれのデータ種類に応じてそれっぽいデータを生成してくれます。
③Option / blank:欠損データ割合
 生成するデータの一部を欠損データにしたい場合は、ここで指定します。
④Optiom / Formula:式による加工
 生成するデータをコードで加工できます。例えば、出てきたデータを処理したり、表示形式を変更できます。文法はrubyに準拠しているようです。
⑤Delete:フィールドの削除
 不要なフィールドはXマークを押すと削除できます。
⑥ADD ANOTHER FIELD:新規フィールドの追加
 新しいフィールドを追加できます。
⑦Rows:行数
 行数を選択します。(最大1000行)
⑧Format:出力フォーマット
 出力するフォーマットを選択します。CSV、JSON、SQL、EXCELなど11種類のフォーマットから選びます。
⑨Line Ending:改行コード
 改行コード(LF、CRLF)を選択します。
⑩header:ヘッダー
 カラム名をヘッダーに含める場合はチェックします。
 BOM:BOM有無
 データの先頭にUTF-8のBOM(byte order mark)を明示的に入れる場合はチェックします。Excelなどで出力したとき、うまく読み込めない場合はチェックしてみたらよいと思います。
⑪DOWNLOAD DATA:データのダウンロード
 データを生成してダウンロードします。
⑫PREVIEW:プレビュー
 生成データをプレビューします。
⑬Sort:並び替え
 フィールド横のマークをクリック&ドロップでフィールドの並び順を変えることができます。

データの種類

 個人データなどの様々なデータ種のフィールドが準備されています。

作成例

 それでは試しに、ある架空のセミナーの参加者のリストを作ってみます。年齢は、Numberを選択して、min(最小値)とmax(最大値)を設定することで、20~70のランダムの年齢を出力できます。「DOWNLOAD DATA」を押すと、「MOCK_DATA.csv」という名前でダウンロードします。

 作ったデータをPythonのPandasで読み込んで確認してみます。Jupiter Labから同じディレクトリに置いた「MOCK_DATA.csv」を読み込んで表示してみます。

import pandas as pd
df = pd.read_csv("MOCK_DATA.csv", encoding="utf_8")
df

[出力結果]

最後に

 「mockaroo」のサイトを使うと簡単にダミーデータを作成できます。mockarooと同じようなことができるサイトがあるので、探してみると面白いかもしれません。

 例えば、日本語だとUserLocalの「個人情報テストデータジェネレーター」は日本人の氏名の名簿を作成できます。人口比に応じて、年齢や住所を出力してくれるなど、ランダムなmockarooと違って、統計値に基づいて、よりリアルに近いダミーデータを出力してくれるみたいです。

コメント