2 创建gen2 account
认识Storage account 06
- Blob 以二进制的形式存储文件,如音频 ,视频,或者普通文件,如csv, xslx,将每个文件看成一个对象
创建一个gen2 account
-
在创建storage account的时候,subscription用于计费项目billing purposes. Resource group用于逻辑分组
- 创建结束后,你可以Container里面找到Blob的映射,如果想创建一个images的container,就需要创建一个新的
-
选择Blob 内部匿名访问,任何该container下都可以访问这个images容器。
-
此时,我们就拥有了一个专门用于存储图像的container,可以进行单独操作
- 可以看出来,每个images存储的图像都有单独的链接,我们可以单独使用里面的每一个图片,这也是blob的独特之处。
07 Create Azure SQL database
传统的sql server 是将数据库存储在 Server machine 的磁盘中,而azure给我们提供了单独的服务用于创建这些database
-
在这里我们可以创建sql server,选择使用sql的authentication
本地程序链接azure sql server
-
find the server name and copy it
-
modify the local code
Host large data volumes - Azure Data Lake Gen2
- Data Lake是创建在Blob之上的服务, a data lake is used to store large amounts of data in its native, raw format and is optimized for storing different types of data like csv, json, video.
Data lake 应该在出现时进行优化,用于储存TB 或者PB级别的数据。我们使用gen2账号创建lake后,我们不需要关注这么多格式的数据在azure底层是怎么存储的,我们只需要关注如何使用这些数据。
创建一个gen2 storage account
-
选择订阅和分组,以及基本配置
-
开启Namespace,能让gen2账号性能提高
-
创建成功后我们在刚才的resouce group里就可以看到刚才创建的datalake
- 在存储json数据时,我们可以存成Avro格式,用于过滤行信息。Parquet格式,用于过滤列信息。这两种格式的都是以二进制存储来gen2里的,所以他们传输效率更高,使用的带宽更少。
Uploading data to data lake
-
创建两个contianer用于存储csv 和parque
-
分别上传该格式下的文件,可以看出由于parque时binary文件,所以只有600kb,而csv有6mb.
use PowerBi
- 这里的地址我们需要将复制过来的
https://gen2datalake09082023.blob.core.windows.net/csv/Log.csv
修改,将blob改为dfs用于 data lake gen2
-
使用sas登录
-
获得token用于powerbi,选择权限
-
复制token
03 创建azure sql服务
在Azure上创建一个sql服务、
-
basic设置,需要新建一个服务,在创建的时候使用用户名和密码认证
-
Networking使用Public connection
使用本地sqlserver2008链接
-
复制azure sql的服务器地址
-
使用上复制的服务器地址,以及创建新服务时候设置的用户名密码来登录